JP5542559B2 - 音声検索インタフェース装置及び音声入力検索方法 - Google Patents
音声検索インタフェース装置及び音声入力検索方法 Download PDFInfo
- Publication number
- JP5542559B2 JP5542559B2 JP2010161779A JP2010161779A JP5542559B2 JP 5542559 B2 JP5542559 B2 JP 5542559B2 JP 2010161779 A JP2010161779 A JP 2010161779A JP 2010161779 A JP2010161779 A JP 2010161779A JP 5542559 B2 JP5542559 B2 JP 5542559B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- correction
- correction candidate
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000012937 correction Methods 0.000 claims description 158
- 238000004364 calculation method Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 241000885593 Geisha Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかしながら、音声認識では、使用環境やユーザの個人差によって認識率が異なり、誤認識が生じるという本質的な課題がある。その結果、データベースの検索結果もユーザが全く意図しないような課題が出力される場合がある。そこで、特許文献1に示されているような音声認識装置では、音声認識結果の単語を選択してデータベースの検索結果を絞り込む技術が開示されている。
図1に、本発明の実施の形態1における音声検索インタフェース装置の構成図を示し、以下に説明する。
音声入力手段101は、マイクなどの音声入力デバイス及びAD変換器により構成されており、ユーザが音声を入力すると、アナログ音声信号をコンピュータにより処理可能なデジタル音声信号に変換する。音声認識辞書記憶手段102は、音声認識のために必要な認識辞書(言語モデル)を保存している記憶装置である。音声認識手段(単語出力手段)103は、上記デジタル音声信号を入力として音声認識辞書記憶手段102を参照して音声を認識し、音声認識結果として1つあるいは複数の単語列を出力する。検索用データベース(特定のデータベース)104は、検索対象となる施設名や人名等が保存されている記憶装置である。検索手段105は、検索用データベース104の中から、音声認識手段103から出力された音声認識結果の単語列のいずれか1つを含む検索結果及び検索結果候補数を取得する。同時に、音声認識結果のそれぞれの単語のみを含む検索結果候補数を取得する。
ユーザが「三菱電機株式会社」を音声入力しようとして、「ミツビシデンキカブシキガイシャ」と発話したとする。
このとき、先ず、音声入力手段101は、発話されたアナログ音声信号をデジタル音声信号に変換する。次に、音声認識手段103は、上記変換されたデジタル音声信号を入力として音声認識辞書記憶手段102を参照して音声を認識し、音声認識結果の単語列を出力する。音声を認識する手法は任意であり、以下の非特許文献2、3、4に記されているような、公知の音声認識手法を利用することができる。例えば、デジタル音声信号を音響特徴量に変換し、音素など音声認識の基本単位に対する音響スコアと、言語モデルに基づく言語スコアに基づいて、認識候補の探索を行う手法などが考えられる。
非特許文献3:北研二、辻井潤一著:「確率的言語モデル」、東京大学出版会、平成11年11月25日
非特許文献4;中川聖一著:「確率モデルによる音声認識」、社団法人電子情報通信学会、昭和63年7月1日
ユーザが修正対象単語を選択すると、修正対象単語選択手段109は、選択操作を感知し、選択された修正対象単語を出力する。ここで、絞り込み単語の選択操作と修正対象単語選択操作は、互いに判別可能な操作でなければならない。例えば、入力デバイスとしてマウスを用いる場合には、左クリックで絞り込み単語選択、右クリックで修正対象単語選択、タッチパネルを用いる場合には、シングルタップで絞り込み単語選択、ダブルタップで修正対象単語選択、といったように、別の操作を割り当てる。
「ミツイ」
「ミツビ」 (イをビに置換)
「ミツビシ」 (シを挿入)
となるから、最少で2回の操作手順を必要とする。従って単語「ミツイ」と「ミツビシ」の編集距離は2となる。編集距離が小さいほど、読みの類似度は大きいとしてよいので、編集距離の逆数を単語間の類似度として計算することが可能である。以下では、この読み情報を用いた類似度を読み類似度と呼ぶ。
非特許文献5:阿部他:『認識誤り傾向の確率モデルを用いた2 段階探索法による大規模連続音声認識』、電子情報通信学会誌、Vol.J83−D− II、No.12、 pp.2545−2553、2000.
以上のステップST102〜ステップST104まで処理を、読み・音節記憶手段110の中に保存されている全ての単語について繰り返す(ステップST105)。
修正候補表示手段112は、LCD表示器などの表示デバイスを用いて、修正候補生成手段111から出力された修正候補及び検索結果候補数を、図7のように同時にユーザに表示する。このとき、修正候補の類似度が大きいほど、修正対象単語の近くに表示されるようにレイアウトするのが望ましい。
以上の処理を、ユーザの所望の検索結果が得られるまで繰り返す。
以上が、本発明に係る音声検索インタフェース装置の処理の流れである。
Claims (6)
- 音声入力に対する認識結果として単語または単語列を出力する単語出力手段と、
任意の単語または単語列が与えられた場合、特定のデータベースを検索して前記単語または単語列の検索結果及び検索候補数を出力する検索手段と、
単語の情報が登録された単語辞書記憶手段と、
前記単語出力手段で出力された単語と、前記単語辞書記憶手段に登録された単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成手段と、
前記修正候補生成手段で生成されたそれぞれの修正候補に対する検索候補数を、前記検索手段を介して取得する修正候補検索候補数取得手段と、
前記修正候補生成手段で生成された修正候補と、前記修正候補検索候補数取得手段で取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力手段とを備えた音声検索インタフェース装置。 - 検索手段は、データベースを検索する際、単語出力手段で複数の単語が出力された場合、当該複数の単語のいずれかを含むOR検索を行うことを特徴とする請求項1記載の音声検索インタフェース装置。
- 単語出力手段で複数の単語が出力され、かつ、当該複数の単語のうちいずれか複数の単語が絞り込み単語として選択された場合、当該選択された単語を全て含むAND検索結果のみに、検索手段の検索結果を絞り込む検索結果絞り込み手段を備えたことを特徴とする請求項1記載の音声検索インタフェース装置。
- 単語出力手段が出力したいずれかの単語に対して修正対象単語の指定を受けた場合、修正候補生成手段は、前記修正対象単語の音節と修正候補の音節との類似度と、前記修正対象単語の読みと修正候補の読みの類似度の両方を利用し、両類似度に重みを付けた総和を全体の類似度として修正候補を生成する際の情報に利用することを特徴とする請求項1記載の音声検索インタフェース装置。
- 単語出力手段で複数の単語が出力され、かつ当該複数の単語のうちいずれかの複数の単語が絞り込み単語として選択された場合、選択された単語と選択されていない単語のAND検索を行った場合の検索候補数を取得する検索結果絞り込み手段と、
前記検索結果絞り込み手段が取得した検索候補数を表示する音声認識結果表示手段とを備えたことを特徴とする請求項1記載の音声検索インタフェース装置。 - 音声入力に対する認識結果として単語または単語列を出力する単語出力ステップと、
任意の単語または単語列が与えられた場合、特定のデータベースを検索して前記単語または単語列の検索結果及び検索候補数を出力する検索ステップと、
前記単語出力ステップで出力された単語と、単語辞書記憶手段に登録されている単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成ステップと、
前記修正候補生成ステップで生成されたそれぞれの修正候補に対する検索候補数を、前記検索ステップにより取得する修正候補検索候補数取得ステップと、
前記修正候補生成ステップで生成された修正候補と、前記修正候補検索候補数取得ステップで取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力ステップとを備えた音声入力検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010161779A JP5542559B2 (ja) | 2010-07-16 | 2010-07-16 | 音声検索インタフェース装置及び音声入力検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010161779A JP5542559B2 (ja) | 2010-07-16 | 2010-07-16 | 音声検索インタフェース装置及び音声入力検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012022251A JP2012022251A (ja) | 2012-02-02 |
JP5542559B2 true JP5542559B2 (ja) | 2014-07-09 |
Family
ID=45776563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010161779A Expired - Fee Related JP5542559B2 (ja) | 2010-07-16 | 2010-07-16 | 音声検索インタフェース装置及び音声入力検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5542559B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331191A (zh) * | 2021-01-07 | 2021-02-05 | 广州华源网络科技有限公司 | 一种基于大数据的语音识别系统及方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6389795B2 (ja) * | 2015-04-24 | 2018-09-12 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
KR101789629B1 (ko) | 2016-08-29 | 2017-11-20 | 주식회사 케이티 | 텍스트 간의 발음 유사도를 측정하는 사용자 단말 |
JP7049880B2 (ja) * | 2017-03-24 | 2022-04-07 | 株式会社Nttドコモ | 音声認識結果比較システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
JP5008248B2 (ja) * | 2003-06-26 | 2012-08-22 | シャープ株式会社 | 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体 |
JP4466379B2 (ja) * | 2005-01-11 | 2010-05-26 | トヨタ自動車株式会社 | 車載音声認識装置 |
JP4831314B2 (ja) * | 2006-01-26 | 2011-12-07 | 株式会社ニコン | 対象物認識システム |
JP5028172B2 (ja) * | 2007-07-13 | 2012-09-19 | アルパイン株式会社 | ナビゲーション装置 |
JP5201973B2 (ja) * | 2007-12-13 | 2013-06-05 | 三菱電機株式会社 | 音声検索装置 |
-
2010
- 2010-07-16 JP JP2010161779A patent/JP5542559B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331191A (zh) * | 2021-01-07 | 2021-02-05 | 广州华源网络科技有限公司 | 一种基于大数据的语音识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2012022251A (ja) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10037758B2 (en) | Device and method for understanding user intent | |
JP4887264B2 (ja) | 音声データ検索システム | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US11093110B1 (en) | Messaging feedback mechanism | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
EP3736807A1 (en) | Apparatus for media entity pronunciation using deep learning | |
TW201203222A (en) | Voice stream augmented note taking | |
GB2457855A (en) | Speech recognition system and speech recognition system program | |
JP2008209717A (ja) | 入力された音声を処理する装置、方法およびプログラム | |
JP5408631B2 (ja) | 音声検索装置および音声検索方法 | |
JP5799733B2 (ja) | 認識装置、認識プログラムおよび認識方法 | |
JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
JP2014232268A (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JP5542559B2 (ja) | 音声検索インタフェース装置及び音声入力検索方法 | |
JP5538099B2 (ja) | 音声入力インタフェース装置及び音声入力方法 | |
JPWO2008150003A1 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP5436307B2 (ja) | 類似文書検索装置 | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
Liang et al. | An efficient error correction interface for speech recognition on mobile touchscreen devices | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP5669707B2 (ja) | 類似文書検索装置 | |
JP2014021535A (ja) | 関連キーワード列抽出装置及び関連キーワード列抽出方法ならびに相互関係文の検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5542559 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |