JP5004863B2 - 音声検索装置および音声検索方法 - Google Patents
音声検索装置および音声検索方法 Download PDFInfo
- Publication number
- JP5004863B2 JP5004863B2 JP2008118815A JP2008118815A JP5004863B2 JP 5004863 B2 JP5004863 B2 JP 5004863B2 JP 2008118815 A JP2008118815 A JP 2008118815A JP 2008118815 A JP2008118815 A JP 2008118815A JP 5004863 B2 JP5004863 B2 JP 5004863B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- result
- recognition result
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかしながら、ユーザ発話が大規模施設名等の施設名の場合には、検索結果中にキーワードが含まれなかったり、類似したキーワードと誤認識したりすることにより音声認識が失敗することがあり、所望の施設名を検索できないという課題があった。
図1は、この発明の実施の形態1に係る音声検索装置の構成を示すブロック図である。図1に示す音声検索装置1は、音声認識に用いる音声の最小単位毎の音響特徴量を格納する音響標準パタンデータベース2、単語定義辞書および単語接続辞書からなる認識用単語辞書3、入力音声に対して音声分析処理、照合処理および探索処理からなる音声認識を行う音声認識部4、認識結果を用いて検索用データベース8を参照し検索結果を取得するデータベース検索部9、検索結果をリストにして格納する検索結果データ格納部10、検索結果データ格納部10の検索結果を用いて認識結果の補正を行う認識結果補正部11、検索結果および補正した認識結果を提示する候補提示部12を備える。
大規模施設名の検索を対象とした場合、音声検索装置1が全ての単語を認識用単語辞書3に登録して処理することは、メモリおよび処理速度の観点から現実的ではない。そのため、音声検索装置1は、典型的な単語とその他の形態素をサブワードのまま表現した認識用単語辞書3を使用するものとする。図3は、この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。図3に示すサブワードおよび単語定義辞書の例において、単語またはサブワードと音響標準パタンの連鎖とが対になっている。
また、図4は、この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。図4に示す単語接続辞書の例において、3つの単語またはサブワードの連鎖(トライグラム)の組み合わせと連鎖する確率とが対になっている。
探索部7は、認識用単語辞書3の単語またはサブワードと音響標準パタンとの対応付け、ならびに単語またはサブワードの組み合わせを参照し、入力音声の単語の接続関係に基づき音声全体に対する累積スコアが高くなる認識候補を探索し、認識結果の単語列を出力する。なお、探索部7は、スコアが高い上位の複数候補を認識結果として出力してもよく、またはスコアと共に認識結果を出力してもよい。
検索用データベース8は、通常、予め作成された検索用の索引を備え、検索を効率化する。なお、データベースからの情報検索方法および索引作成方法については、「情報検索アルゴリズム、北研二、津田和彦、獅子堀正幹共著、共立出版株式会社」に説明されている。本実施の形態では、検索用データベース8には予めサブワードに区切られた索引が作成してあり、データベース検索部9が任意のサブワードに対して検索可能な構成となっている。
検索結果データ格納部10は、データベース検索部9が出力した検索結果をリストにして格納する。
また、図1に示す検索用データベース8には予めサブワードに区切られた索引が作成されており、データベース検索部9による任意のサブワード検索が可能であるものとする。
データベース検索部9は、認識結果として取得された「マルキュードーブツアイテル」をサブワード「マ」、「ル」、「キュー」、「ドー」、「ブ」、「ツ」、「ア」、「イ」、「テ」、「ル」に分解する。次に、データベース検索部9は各サブワードを検索キーに用いて、図5に示す検索対象データが蓄積された検索用データベース8を検索する。具体的な検索手法としては、例えば文書検索方式として利用されるベクトル空間モデルを使った検索手法において、検索に用いられる単語の代わりに、サブワードを用いて検索を行う手法が考えられる。
データベース検索部9により「マルキュードーブツアイテル」をキーとして図5に示す検索用データベース8を検索した結果、図6に示す施設名称の検索結果が取得され、検索スコアが付与されることとする。データベース検索部9は、これらの検索結果のうち、上位N(ここではN=4とする)件のID=8,1,9,10の施設名称を検索結果として出力する。
ここでは、全ての単語を任意の順番で接続可能なネットワークとしたが、言語制約を考慮して適当に変形してもよい。また、各単語を接続するアークにスコアを付与してもよい。
図9は、この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の1例を示す説明図である。図9に示す補正認識結果候補41は、各候補を「|」によって単語単位に分割したデータとして作成される。また、ネットワーク表現を構成する各単語と一致せず、フィラー要素を通過した部分は、「(」および「)」で囲まれた疑似単語とする。
例えば、図9に示す補正認識結果候補41のうちの「マルキュードー|(ブツア)|ショテン」は、認識結果「マルキュードーブツアイテル」に含まれる「マルキュードー」がネットワーク表現を構成する単語「マルキュードー」のあいまいネットワークを通過し、認識結果「ブツア」がフィラー要素を3回通過し、認識結果「イテル」が単語「ショテン」のあいまいネットワークを通過して作成されている。
例えば、認識結果補正部11は、検索結果の単語数と比較した補正認識結果候補の単語の不足数および過剰数、ならびに補正認識結果候補の補正スコアをもとに、下記式に従い検索スコアを補正する。
補正検索スコア=検索スコア×{1−(不足数/検索結果単語数)×α
−(過剰数/検索結果単語数)×β
−(1−補正スコア)×γ}
検索結果のリスト53の先頭には、補正検索スコアが最も高い「○教堂書店六会店」が表示されている。認識結果表示枠52には、選択中の「○教堂書店六会店」に対応する補正認識結果「マルキョードームツアイテン」が表示されている。
なお、利用者が発話していない「ショテン」については、認識結果に含まれず、利用者の理解しやすい認識結果52が提示される。
また、検索用データベース8の読み情報の単語の区切りに複数の候補がある場合には、複数の候補を併記しておき、データベース検索部9が認識結果と照合するように構成してもよい。
図11は、この発明の実施の形態2に係る音声検索装置の構成を示すブロック図である。本実施の形態2に係る音声検索装置1aは、上記実施の形態1の認識結果補正部11を、処理が単純なために軽量で、かつサブワード列の連続性に着目した認識結果の補正を行う認識結果補正部61に置き換えた構成である。認識結果補正部61以外の構成は上記実施の形態1の音声検索装置1と同一の構成であるため、詳細な説明は省略する。
認識結果補正部61は、サブワード単位に分割された検索結果と認識結果とを、サブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き換える補正を行う。
続くステップST13において、認識結果補正部61は、検索結果データ格納部10の検索結果を1つずつ取り出して、サブワードに連番を振る。ここでは、認識結果補正部61が検索結果としてID=1の「マルキョードーショテンムツアイテン」を取得し、認識結果とのマッチングを行う場合を考える。
図13は、この発明の実施の形態2に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。認識結果補正部61は、検索結果データ格納部10から取り出した検索結果を音素、音節等のサブワード単位、「マ」、「ル」、「キョー」、「ドー」、「ショ」、「テ」、「ン」、「ム」、「ツ」、「ア」、「イ」、「テ」、「ン」に分割し、先頭から順番に連番を振り、番号付き検索結果71とする。
このようにステップST15では、番号割当て認識結果72から、二重四角枠で示す番号列「9,10,11,12」、「1,2」、「4」が取得される。
1番目に、認識結果補正部61は最長の番号列「9,10,11,12」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果71の単語「ムツアイ|テン」を対応付けて比較する。そして、認識結果補正部61が、番号割当て認識結果72の「ブツアイ」の「ブ」を「ム」に、「テル」の「ル」を「ン」に補正する。
2番目に、認識結果補正部61は番号列「1,2」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果71の単語「マルキョードー」を対応付けて比較する。さらに、認識結果補正部61は、単語「マルキョードー」の部分サブワードに一致する番号割当て認識結果72の「ドー=4」も、単語「マルキョードー」に対応付けられるものと判断する。その結果、認識結果補正部61は、番号割当て認識結果72の「マルキュードー」の「キュー」を「キョー」に補正する。このように、認識結果補正部61は、番号割当て認識結果72の連続番号のサブワード列を含む単語を、同一番号が付けられた番号付け検索結果71の単語に置き換える補正を行う。
なお、番号付け検索結果71に含まれる単語「ショテン」は、番号割当て認識結果72に同一番号のサブワードが存在しない。
認識結果補正部61は、認識結果に番号を割り当てるステップST14(図7)において、間違いやすいサブワードが存在する場合に間違いやすさの情報に基づき重み付きで番号を付与し、サブワード列の連続性を重み付きで判断する。例えば、図13に示す番号割当て認識結果72の「キュー」に対して、認識結果補正部61が「キョー=3」と同一の番号「3」を割当て、重み「0.2」を付与する。
この構成の場合には、音声認識装置は単語連鎖をより考慮した補正認識結果を作成することが可能となる。
Claims (2)
- 入力された音声に応じた単語列を認識結果として出力する音声認識部と、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、
前記検索結果に基づいて前記認識結果を補正する認識結果補正部と、
前記検索結果および前記認識結果補正部で補正した前記認識結果のうちの少なくとも一方を提示する候補提示部とを備え、
前記検索部は、複数の検索結果を出力し、
前記認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直して前記複数の検索結果の順位を修正し、
候補提示部は、前記複数の検索結果を前記認識結果補正部で付与された順位に従って提示することを特徴とする音声検索装置。 - 入力された音声に応じた単語列を認識結果として出力する音声認識部と、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、
前記検索結果に基づいて前記認識結果を補正する認識結果補正部と、
前記検索結果および前記認識結果補正部で補正した前記認識結果のうちの少なくとも一方を提示する候補提示部とを備え、
前記検索部は、複数の検索結果を出力し、
前記認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直して前記複数の検索結果の順位を修正し、さらに、前記各検索結果と補正した前記認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記各検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする音声検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008118815A JP5004863B2 (ja) | 2008-04-30 | 2008-04-30 | 音声検索装置および音声検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008118815A JP5004863B2 (ja) | 2008-04-30 | 2008-04-30 | 音声検索装置および音声検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009271117A JP2009271117A (ja) | 2009-11-19 |
JP5004863B2 true JP5004863B2 (ja) | 2012-08-22 |
Family
ID=41437755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008118815A Expired - Fee Related JP5004863B2 (ja) | 2008-04-30 | 2008-04-30 | 音声検索装置および音声検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5004863B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177125B (zh) * | 2013-04-17 | 2016-04-27 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
JP2016095399A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
JP6389795B2 (ja) * | 2015-04-24 | 2018-09-12 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
CN113326279A (zh) * | 2021-05-27 | 2021-08-31 | 阿波罗智联(北京)科技有限公司 | 语音搜索方法和装置、电子设备、计算机可读介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08166966A (ja) * | 1994-12-15 | 1996-06-25 | Sony Corp | 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置 |
JP2000089786A (ja) * | 1998-09-08 | 2000-03-31 | Nippon Hoso Kyokai <Nhk> | 音声認識結果の修正方法および装置 |
JP3976959B2 (ja) * | 1999-09-24 | 2007-09-19 | 三菱電機株式会社 | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP3762300B2 (ja) * | 2001-12-28 | 2006-04-05 | 株式会社東芝 | テキスト入力処理装置及び方法並びにプログラム |
JP2003308094A (ja) * | 2002-02-12 | 2003-10-31 | Advanced Telecommunication Research Institute International | 音声認識における認識誤り箇所の訂正方法 |
JP4115723B2 (ja) * | 2002-03-18 | 2008-07-09 | 独立行政法人産業技術総合研究所 | 音声入力によるテキスト検索装置 |
JP4684583B2 (ja) * | 2004-07-08 | 2011-05-18 | 三菱電機株式会社 | 対話装置 |
JP2006039954A (ja) * | 2004-07-27 | 2006-02-09 | Denso Corp | データベース検索装置、プログラム及びナビゲーション装置 |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
-
2008
- 2008-04-30 JP JP2008118815A patent/JP5004863B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009271117A (ja) | 2009-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
JP5533042B2 (ja) | 音声検索装置、音声検索方法、プログラム及び記録媒体 | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
WO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US10832668B1 (en) | Dynamic speech processing | |
JP5189874B2 (ja) | 多言語の非ネイティブ音声の認識 | |
US10515637B1 (en) | Dynamic speech processing | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
JP4554272B2 (ja) | 音声対話装置 | |
Jeon et al. | N-best rescoring based on pitch-accent patterns | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JP2002278579A (ja) | 音声データ検索装置 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
JP2000056795A (ja) | 音声認識装置 | |
JP2011048405A (ja) | 音声認識装置及び音声認識プログラム | |
WO2009147745A1 (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120424 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120522 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150601 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5004863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |