JPH11184880A - 音声認識装置及びコンピュータ読み取り可能な記録媒体 - Google Patents
音声認識装置及びコンピュータ読み取り可能な記録媒体Info
- Publication number
- JPH11184880A JPH11184880A JP9354700A JP35470097A JPH11184880A JP H11184880 A JPH11184880 A JP H11184880A JP 9354700 A JP9354700 A JP 9354700A JP 35470097 A JP35470097 A JP 35470097A JP H11184880 A JPH11184880 A JP H11184880A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- headword
- dictionary
- input
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
音声認識の対象とすることのできる音声認識装置を提供
する。 【解決手段】 本発明の音声認識装置は、入力された音
声を語彙記憶部13に設定された認識対象語彙と照合し
て認識する音声認識装置であって、指定項目を入力する
音声入力部11と、見出し語を記憶する辞書15と、指
定項目と見出し語との意味的関連度を記憶する語彙関連
情報記憶部16と、入力された指定項目に対応する見出
し語との意味的関連度が所定値以上の場合に、対応する
見出し語を上記辞書から選択して語彙記憶部13に認識
対象語彙として設定する語彙選択部14と、からなる。
Description
彙の適切な絞り込みを行うために、主に言語処理を用い
て音声認識性能を向上させる音声認識装置及びコンピュ
ータ読み取り可能な記録媒体に関する。
合、通常音声認識プログラムが使われる。この音声認識
プログラムでは、認識できる見出し語を予め辞書に登録
しておき、この中から音声入力された言葉と類似度が最
も高い見出し語を選び出すことにより音声認識処理が行
われる。このため、一般に音声認識の対象となる見出し
語が多ければ多いほど、認識精度及び速度が低下する傾
向にある。
対象となる見出し語を少数の単位で階層化し、上位階層
から順次階層を選択する技術がある。例えば、カーナビ
ゲーションシステムの目的地の設定などのために、特開
平7−64480号公報や特開平7−325543号公
報に示されるように、見出し語を予め階層構造として記
憶しておき、状況に応じて階層構造の位置を特定するこ
とにより、その下位階層に属する見出し語を認識対象語
彙であると、少数に限定して認識精度と認識速度の向上
を図っている。
来の技術は、住所など階層構造が明確なものには適して
いるものの、階層が一意に決定できないケースには適用
できないという問題点がある。
園」「植物園」... といった見出し語があって、
「枚方パーク」が「公園」の下位階層に属している場
合、「枚方パーク」を遊園地と思っている利用者は、
「遊園地」の下位階層で発声して音声認識により入力し
ようとするので、「枚方パーク」を認識することができ
ない。これは、選んだ下位階層にあると思った見出し語
が実際には存在しないためであり、利用者の思っている
階層構造と予め設定されている階層構造とが必ずしも一
致しないためである。
ように階層構造のあいまいな見出し語であっても、音声
認識の対象とすることのできる音声認識装置及びコンピ
ュータ読み取り可能な記録媒体を提供することにある。
識装置は、入力された音声を語彙記憶手段に設定された
認識対象語彙と照合して認識する音声認識装置であっ
て、指定項目を入力する入力手段と、見出し語を記憶す
る辞書と、指定項目と見出し語との意味的関連度を記憶
する語彙関連情報記憶手段と、入力された指定項目と見
出し語との意味的関連度が所定値以上の場合に、対応す
る見出し語を上記辞書から選択して上記語彙記憶手段に
認識対象語彙として設定する語彙選択手段と、を有する
ことを特徴とする。
1記載の音声認識装置において、上記入力手段は、指定
項目を音声により入力することを特徴とする。
1記載の音声認識装置において、上記意味的関連度とし
て意味ベクトルを用いることを特徴とする。
3記載の音声認識装置において、上記入力手段から入力
される指定項目は、意味ベクトルの概念分類の要素であ
ることを特徴とする。
能な記録媒体は、入力された音声を語彙記憶手段に設定
された認識対象語彙と照合して認識する音声認識装置と
して機能させる音声認識プログラムを記録したコンピュ
ータ読み取り可能な記録媒体であって、指定項目を入力
する入力手段、見出し語を記憶する辞書、指定項目と見
出し語との意味的関連度を記憶する語彙関連情報記憶手
段、入力された指定項目に対応する見出し語との意味的
関連度が所定値以上の場合に、対応する見出し語を上記
辞書から選択して上記語彙記憶手段に認識対象語彙とし
て設定する語彙選択手段、として機能させる音声認識プ
ログラムを記録している。
形態を図1のブロック図に基づいて説明する。本実施の
形態では、利用者が音声により指定項目を発声して認識
対象語彙を絞り込んでいくものである。音声入力部11
は利用者が発声した音声を入力するためのもので、マイ
ク、アンプ、A/D変換器などのハードウェアで構成さ
れる。音声入力部11により、音声信号が音声認識装置
内に取り込まれる。
マッチング法などの所定の音声認識アルゴリズムにした
がって、語彙記憶部13に設定されている見出し語を認
識対象語彙として音声入力部11から取り込まれた音声
データの特徴パラメータの尤度としての確率や距離など
の計算を行い、見出し語から認識結果候補を求めるもの
である。
対象となる見出し語とその見出し語の音声認識に必要な
情報を一時的に記憶しておくものであり、語彙選択部1
4によって内容が逐次切り替わるため、RAMのような
メモリーが使われる。
させる見出し語を選択するためのものである。辞書15
は、見出し語と音声認識するために必要な読みなどの情
報を記憶している。語彙選択部14は、利用者の指定項
目から語彙関連情報記憶部16を参照することにより、
該当する見出し語とその見出し語の音声認識に必要な情
報とを辞書15から拾い出して語彙記憶部13に設定す
る。
出し語と指定項目の関連度を数値化したデータを格納し
ている。本実施の形態では、この関連度として、意味ベ
クトルを用いている。意味ベクトルは、多くのFEAT
UREとの意味的な関係をベクトル表現したものであ
る。N個の概念分類をFEATUREとし、各次元が一
つのFEATUREに対応したN次元ベクトル上の一点
で、意味を表現するものである。例えばこの意味ベクト
ルX=(X1,..,Xn)の各要素を2値で表す場合
は次式のようになる。
科学、興奮、政治}を採用した場合には、単語「パイロ
ット」の意味ベクトルは(1,0,0,1,1,0)の
ようになる。なお、意味ベクトルについては、特開平6
−195388号公報や、「芥子ほか:大規模文書デー
タベースからの連想検索、電子情報通信学会、信学技
法、AI92−99(1993−01)」などに記載が
ある。
連情報記憶部16の内容を示す。図2では、各見出し語
ごとに、FEATUREとして{行楽地、観光地、公
園、遊園地、植物園、キャンプ場所、‥}を用い、関連
度を2値ではなく、関連度に応じて6レベルで表現して
いる。例えば「枚方パーク」は一応公園ではあるが、遊
園地とみなす方が妥当である、という内容を数値で表現
している。数値が大きいほど妥当性が高く、0であれば
関連はないとしている。
と、指定項目がFEATUREにあるかどうかチェック
され、FEATUREにあれば、その値が0でない所定
値(何らかの関係があることを示す)以上となる見出し
語とその見出し語の音声認識に必要な情報(見出し語の
尤度情報)とを辞書15から拾い出して語彙記憶部13
に設定する。また、関連度を指定項目における見出し語
の出現確率とみなせば、音声認識部での尤度情報として
利用することもできる。
て、入力された指定項目と意味ベクトルで表現された各
見出し語との内積演算を行って各見出し語ごとに距離を
求めて、所定距離以上の見出し語を選択するようにして
もよい。
憶部16に記憶されている関連度をもとに、語彙選択部
14が辞書15から認識対象語彙として適切な見出し語
を選別し、その見出し語の尤度情報とともに語彙記憶部
13に設定して認識対象語彙の絞り込みを行うことがで
きる。指定項目との関連度がある一定以上の見出し語の
みを認識対象とすることで、従来と同様に語彙の少数限
定が可能になる。と同時に、見出し語のように離散的な
階層構造でないため、階層構造ではあいまいな見出し語
も認識対象からはずれることなく含めることが可能にな
る。従って、指定項目が「公園」であれば、「奈良公
園」「枚方パーク」「摂津峡公園」など、公園に関連す
る見出し語が認識語彙の対象になる。
出力するまでの各処理の制御を行うものである。制御部
17のCPUによって音声認識処理部19が制御され、
図3のフローを用いてその動作説明をする。
られた初期状態の語彙が語彙記憶部13にセットされ
る。初期状態の語彙としては、都道府県名(「東京
都」、「大阪府」などといった語彙)や、検索ジャンル
名(「地名」、「施設名」、「公園」などといった語
彙)がセットされる。
発声があると、ステップS43の音声認識工程で、単語
を特定する処理が行われる。つまり、この音声認識工程
においては語彙記憶部13にセットされている見出し語
との照合処理が行われ、認識結果が出力される。ステッ
プS44において、認識結果が利用者の所望のものであ
れば終了する。なお、所望のものかどうかは認識結果を
音声で出力することにより判別される。
のものでなければ、その認識結果を指定項目としてステ
ップS45において上述した語彙選択工程が行われる。
ステップS42で発声された公園に関連する言葉の認識
結果が「公園」であれば、語彙関連情報記憶部16のデ
ータに基づき、「奈良公園」「枚方パーク」といった語
彙が語彙記憶部にセットされる(ステップS46)。そ
して、ステップS42にて、新たに設定された認識対象
語彙に対して利用者が発声を行って、上述した動作を繰
り返し、認識対象語彙の絞り込みを段階的に行う。
より行ったが、このように音声入力により指定項目を入
力するのは、運手中のカーナビゲーションシステムに用
いるのに適している。なお、カーナビゲーションシステ
ムのような、検索ジャンル名として地名等を音声で入力
する装置においても本発明は有効である。従来の地名の
階層構造を利用するやり方では千葉県にある施設は千葉
県の辞書を選択しなければ認識の対象にならなかった。
「東京ディズニーランド」は千葉県にあるが、東京との
関連度を0にしないことにより、利用者が「東京」とい
う指定項目を選択した場合でも、「東京ディズニーラン
ド」を認識対象語彙として含めることが可能になる。
ロック図に基づいて説明する。本実施の形態では、音声
以外で指定項目を入力するものであり、指定項目のリス
トをメニュー表示する表示部27とキーボードやマウ
ス、ペン等のポインティングデバイスで利用者が指定項
目を入力する入力部28が、図1の構成に追加されてい
る。他の構成については、指定項目を音声で入力する以
外は同様の構成であるので、図1の各符号に10を加え
た符号で示して、説明は省略する。
をする。まず、ステップS51において利用者が選択す
る指定項目リストが表示部27に表示される。指定項目
リストの内容として、例えば都道府県名(「東京都」、
「大阪府」などといった語彙)や、検索ジャンル名
(「地名」、「施設名」、「公園」などといった語彙)
がある。
部28を用いてリストの中の一つの指定項目を選択す
る。ステップS53においては、ステップS45と同様
にして、「公園」が指定項目として選択されれば、語彙
関連情報記憶部26のデータに基づき、「奈良公園」
「枚方パーク」といった語彙が語彙記憶部23にセット
される。
園」に関連する言葉を利用者が発声し、ステップS55
においてそれを認識する。ステップS56において、認
識結果が利用者の所望のものであれば終了する。さらに
指定項目を絞り込む場合は、「大阪の公園」「奈良の公
園」などより詳細な指定項目が表示部に表示され、ステ
ップS51からの工程を繰り返し行う。
コンピュータに実行させるために、そのプログラムをフ
ロッピーディスク、CD−ROM、あるいは通信ネット
から供給される形態等のコンピュータ読み取り可能な記
録媒体に記録しておき、適宜インストールして用いても
よい。
を絞り込む際に、階層構造ではあいまいな見出し語も認
識対象からはずれることなく含めることが可能になり、
精度、速度ともに良好な音声認識装置が実現でき、利用
者が所望の情報を速やかに得ることができる。
ブロック図である。
ブロック図である。
Claims (5)
- 【請求項1】 入力された音声を語彙記憶手段に設定さ
れた認識対象語彙と照合して認識する音声認識装置であ
って、 指定項目を入力する入力手段と、 見出し語を記憶する辞書と、 指定項目と見出し語との意味的関連度を記憶する語彙関
連情報記憶手段と、 入力された指定項目と見出し語との意味的関連度が所定
値以上の場合に、対応する見出し語を上記辞書から選択
して上記語彙記憶手段に認識対象語彙として設定する語
彙選択手段と、を有することを特徴とする音声認識装
置。 - 【請求項2】 上記入力手段は、指定項目を音声により
入力することを特徴とする請求項1記載の音声認識装
置。 - 【請求項3】 上記意味的関連度として意味ベクトルを
用いることを特徴とする請求項1記載の音声認識装置。 - 【請求項4】 上記入力手段から入力される指定項目
は、意味ベクトルの概念分類の要素であることを特徴と
する請求項3記載の音声認識装置。 - 【請求項5】 入力された音声を語彙記憶手段に設定さ
れた認識対象語彙と照合して認識する音声認識装置とし
て機能させる音声認識プログラムを記録したコンピュー
タ読み取り可能な記録媒体であって、 指定項目を入力する入力手段、 見出し語を記憶する辞書、 指定項目と見出し語との意味的関連度を記憶する語彙関
連情報記憶手段、 入力された指定項目に対応する見出し語との意味的関連
度が所定値以上の場合に、対応する見出し語を上記辞書
から選択して上記語彙記憶手段に認識対象語彙として設
定する語彙選択手段、として機能させる音声認識プログ
ラムを記録しているコンピュータ読み取り可能な記録媒
体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9354700A JPH11184880A (ja) | 1997-12-24 | 1997-12-24 | 音声認識装置及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9354700A JPH11184880A (ja) | 1997-12-24 | 1997-12-24 | 音声認識装置及びコンピュータ読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11184880A true JPH11184880A (ja) | 1999-07-09 |
Family
ID=18439325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9354700A Pending JPH11184880A (ja) | 1997-12-24 | 1997-12-24 | 音声認識装置及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11184880A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083988A (ja) * | 1999-09-09 | 2001-03-30 | Xanavi Informatics Corp | 音声検索装置、音声検索のための制御プログラムとデータを記録した記録媒体、および、音声認識ナビゲーション装置 |
JP2008065202A (ja) * | 2006-09-11 | 2008-03-21 | Alpine Electronics Inc | 地点探索装置及びナビゲーション装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03296863A (ja) * | 1990-04-16 | 1991-12-27 | Ricoh Co Ltd | キーワード関係辞書管理装置 |
JPH0764480A (ja) * | 1993-08-25 | 1995-03-10 | Honda Motor Co Ltd | 車載情報処理用音声認識装置 |
JPH0816611A (ja) * | 1994-06-27 | 1996-01-19 | Sharp Corp | 自然言語に基づくデータ検索装置 |
JPH0991306A (ja) * | 1995-09-27 | 1997-04-04 | Sharp Corp | 関連単語情報検索方法及び情報処理装置 |
JPH09288675A (ja) * | 1996-04-22 | 1997-11-04 | Sharp Corp | 検索装置 |
JPH09305615A (ja) * | 1996-05-09 | 1997-11-28 | N T T Data Tsushin Kk | 電子情報アクセスシステム及び方法 |
-
1997
- 1997-12-24 JP JP9354700A patent/JPH11184880A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03296863A (ja) * | 1990-04-16 | 1991-12-27 | Ricoh Co Ltd | キーワード関係辞書管理装置 |
JPH0764480A (ja) * | 1993-08-25 | 1995-03-10 | Honda Motor Co Ltd | 車載情報処理用音声認識装置 |
JPH0816611A (ja) * | 1994-06-27 | 1996-01-19 | Sharp Corp | 自然言語に基づくデータ検索装置 |
JPH0991306A (ja) * | 1995-09-27 | 1997-04-04 | Sharp Corp | 関連単語情報検索方法及び情報処理装置 |
JPH09288675A (ja) * | 1996-04-22 | 1997-11-04 | Sharp Corp | 検索装置 |
JPH09305615A (ja) * | 1996-05-09 | 1997-11-28 | N T T Data Tsushin Kk | 電子情報アクセスシステム及び方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083988A (ja) * | 1999-09-09 | 2001-03-30 | Xanavi Informatics Corp | 音声検索装置、音声検索のための制御プログラムとデータを記録した記録媒体、および、音声認識ナビゲーション装置 |
JP4642953B2 (ja) * | 1999-09-09 | 2011-03-02 | クラリオン株式会社 | 音声検索装置、および、音声認識ナビゲーション装置 |
JP2008065202A (ja) * | 2006-09-11 | 2008-03-21 | Alpine Electronics Inc | 地点探索装置及びナビゲーション装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8909529B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
US6073095A (en) | Fast vocabulary independent method and apparatus for spotting words in speech | |
CN106782560B (zh) | 确定目标识别文本的方法及装置 | |
US11043205B1 (en) | Scoring of natural language processing hypotheses | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US11823678B2 (en) | Proactive command framework | |
JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US7729913B1 (en) | Generation and selection of voice recognition grammars for conducting database searches | |
JP5533042B2 (ja) | 音声検索装置、音声検索方法、プログラム及び記録媒体 | |
US20020087315A1 (en) | Computer-implemented multi-scanning language method and system | |
US11081104B1 (en) | Contextual natural language processing | |
US20020087311A1 (en) | Computer-implemented dynamic language model generation method and system | |
KR20060037086A (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
US11568863B1 (en) | Skill shortlister for natural language processing | |
US10872601B1 (en) | Natural language processing | |
US10783876B1 (en) | Speech processing using contextual data | |
CN115497465A (zh) | 语音交互方法、装置、电子设备和存储介质 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
KR100467590B1 (ko) | 발음 사전 갱신 장치 및 방법 | |
JP2001125592A (ja) | 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 | |
Lee et al. | Machine comprehension of spoken content: TOEFL listening test and spoken SQuAD | |
JPH11184880A (ja) | 音声認識装置及びコンピュータ読み取り可能な記録媒体 | |
JP3059504B2 (ja) | 品詞選択システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031219 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20031219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040407 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040414 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040716 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051202 |