JPH11184880A - 音声認識装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

音声認識装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH11184880A
JPH11184880A JP9354700A JP35470097A JPH11184880A JP H11184880 A JPH11184880 A JP H11184880A JP 9354700 A JP9354700 A JP 9354700A JP 35470097 A JP35470097 A JP 35470097A JP H11184880 A JPH11184880 A JP H11184880A
Authority
JP
Japan
Prior art keywords
vocabulary
headword
dictionary
input
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9354700A
Other languages
English (en)
Inventor
Hiroyuki Kanza
浩幸 勘座
Koichi Yamaguchi
耕市 山口
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP9354700A priority Critical patent/JPH11184880A/ja
Publication of JPH11184880A publication Critical patent/JPH11184880A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 階層構造のあいまいな見出し語であっても、
音声認識の対象とすることのできる音声認識装置を提供
する。 【解決手段】 本発明の音声認識装置は、入力された音
声を語彙記憶部13に設定された認識対象語彙と照合し
て認識する音声認識装置であって、指定項目を入力する
音声入力部11と、見出し語を記憶する辞書15と、指
定項目と見出し語との意味的関連度を記憶する語彙関連
情報記憶部16と、入力された指定項目に対応する見出
し語との意味的関連度が所定値以上の場合に、対応する
見出し語を上記辞書から選択して語彙記憶部13に認識
対象語彙として設定する語彙選択部14と、からなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、膨大な認識対象語
彙の適切な絞り込みを行うために、主に言語処理を用い
て音声認識性能を向上させる音声認識装置及びコンピュ
ータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】音声を認識させて装置に入力を行う場
合、通常音声認識プログラムが使われる。この音声認識
プログラムでは、認識できる見出し語を予め辞書に登録
しておき、この中から音声入力された言葉と類似度が最
も高い見出し語を選び出すことにより音声認識処理が行
われる。このため、一般に音声認識の対象となる見出し
語が多ければ多いほど、認識精度及び速度が低下する傾
向にある。
【0003】これらの問題の防止策として、音声認識の
対象となる見出し語を少数の単位で階層化し、上位階層
から順次階層を選択する技術がある。例えば、カーナビ
ゲーションシステムの目的地の設定などのために、特開
平7−64480号公報や特開平7−325543号公
報に示されるように、見出し語を予め階層構造として記
憶しておき、状況に応じて階層構造の位置を特定するこ
とにより、その下位階層に属する見出し語を認識対象語
彙であると、少数に限定して認識精度と認識速度の向上
を図っている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の技術は、住所など階層構造が明確なものには適して
いるものの、階層が一意に決定できないケースには適用
できないという問題点がある。
【0005】例えば、ある同一階層に「遊園地」「公
園」「植物園」... といった見出し語があって、
「枚方パーク」が「公園」の下位階層に属している場
合、「枚方パーク」を遊園地と思っている利用者は、
「遊園地」の下位階層で発声して音声認識により入力し
ようとするので、「枚方パーク」を認識することができ
ない。これは、選んだ下位階層にあると思った見出し語
が実際には存在しないためであり、利用者の思っている
階層構造と予め設定されている階層構造とが必ずしも一
致しないためである。
【0006】本発明の目的は、上記問題点に鑑み、この
ように階層構造のあいまいな見出し語であっても、音声
認識の対象とすることのできる音声認識装置及びコンピ
ュータ読み取り可能な記録媒体を提供することにある。
【0007】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、入力された音声を語彙記憶手段に設定された
認識対象語彙と照合して認識する音声認識装置であっ
て、指定項目を入力する入力手段と、見出し語を記憶す
る辞書と、指定項目と見出し語との意味的関連度を記憶
する語彙関連情報記憶手段と、入力された指定項目と見
出し語との意味的関連度が所定値以上の場合に、対応す
る見出し語を上記辞書から選択して上記語彙記憶手段に
認識対象語彙として設定する語彙選択手段と、を有する
ことを特徴とする。
【0008】請求項2に記載の音声認識装置は、請求項
1記載の音声認識装置において、上記入力手段は、指定
項目を音声により入力することを特徴とする。
【0009】請求項3に記載の音声認識装置は、請求項
1記載の音声認識装置において、上記意味的関連度とし
て意味ベクトルを用いることを特徴とする。
【0010】請求項4に記載の音声認識装置は、請求項
3記載の音声認識装置において、上記入力手段から入力
される指定項目は、意味ベクトルの概念分類の要素であ
ることを特徴とする。
【0011】請求項5に記載のコンピュータ読み取り可
能な記録媒体は、入力された音声を語彙記憶手段に設定
された認識対象語彙と照合して認識する音声認識装置と
して機能させる音声認識プログラムを記録したコンピュ
ータ読み取り可能な記録媒体であって、指定項目を入力
する入力手段、見出し語を記憶する辞書、指定項目と見
出し語との意味的関連度を記憶する語彙関連情報記憶手
段、入力された指定項目に対応する見出し語との意味的
関連度が所定値以上の場合に、対応する見出し語を上記
辞書から選択して上記語彙記憶手段に認識対象語彙とし
て設定する語彙選択手段、として機能させる音声認識プ
ログラムを記録している。
【0012】
【発明の実施の形態】(実施の形態1)以下、本実施の
形態を図1のブロック図に基づいて説明する。本実施の
形態では、利用者が音声により指定項目を発声して認識
対象語彙を絞り込んでいくものである。音声入力部11
は利用者が発声した音声を入力するためのもので、マイ
ク、アンプ、A/D変換器などのハードウェアで構成さ
れる。音声入力部11により、音声信号が音声認識装置
内に取り込まれる。
【0013】音声認識部12は、例えばHMM法やDP
マッチング法などの所定の音声認識アルゴリズムにした
がって、語彙記憶部13に設定されている見出し語を認
識対象語彙として音声入力部11から取り込まれた音声
データの特徴パラメータの尤度としての確率や距離など
の計算を行い、見出し語から認識結果候補を求めるもの
である。
【0014】語彙記憶部13は、音声認識工程で認識の
対象となる見出し語とその見出し語の音声認識に必要な
情報を一時的に記憶しておくものであり、語彙選択部1
4によって内容が逐次切り替わるため、RAMのような
メモリーが使われる。
【0015】語彙選択部14は、語彙記憶部13に記憶
させる見出し語を選択するためのものである。辞書15
は、見出し語と音声認識するために必要な読みなどの情
報を記憶している。語彙選択部14は、利用者の指定項
目から語彙関連情報記憶部16を参照することにより、
該当する見出し語とその見出し語の音声認識に必要な情
報とを辞書15から拾い出して語彙記憶部13に設定す
る。
【0016】語彙関連情報記憶部16は、辞書15の見
出し語と指定項目の関連度を数値化したデータを格納し
ている。本実施の形態では、この関連度として、意味ベ
クトルを用いている。意味ベクトルは、多くのFEAT
UREとの意味的な関係をベクトル表現したものであ
る。N個の概念分類をFEATUREとし、各次元が一
つのFEATUREに対応したN次元ベクトル上の一点
で、意味を表現するものである。例えばこの意味ベクト
ルX=(X1,..,Xn)の各要素を2値で表す場合
は次式のようになる。
【0017】 Xi=1(FEATUREiと関係あり) =0(FEATUREiと関係なし) 例えば、FEATUREとして{人間、悲しい、芸術、
科学、興奮、政治}を採用した場合には、単語「パイロ
ット」の意味ベクトルは(1,0,0,1,1,0)の
ようになる。なお、意味ベクトルについては、特開平6
−195388号公報や、「芥子ほか:大規模文書デー
タベースからの連想検索、電子情報通信学会、信学技
法、AI92−99(1993−01)」などに記載が
ある。
【0018】図2に、この意味ベクトルを用いた語彙関
連情報記憶部16の内容を示す。図2では、各見出し語
ごとに、FEATUREとして{行楽地、観光地、公
園、遊園地、植物園、キャンプ場所、‥}を用い、関連
度を2値ではなく、関連度に応じて6レベルで表現して
いる。例えば「枚方パーク」は一応公園ではあるが、遊
園地とみなす方が妥当である、という内容を数値で表現
している。数値が大きいほど妥当性が高く、0であれば
関連はないとしている。
【0019】本実施の形態では、指定項目が入力される
と、指定項目がFEATUREにあるかどうかチェック
され、FEATUREにあれば、その値が0でない所定
値(何らかの関係があることを示す)以上となる見出し
語とその見出し語の音声認識に必要な情報(見出し語の
尤度情報)とを辞書15から拾い出して語彙記憶部13
に設定する。また、関連度を指定項目における見出し語
の出現確率とみなせば、音声認識部での尤度情報として
利用することもできる。
【0020】なお、指定項目を意味ベクトルで表わし
て、入力された指定項目と意味ベクトルで表現された各
見出し語との内積演算を行って各見出し語ごとに距離を
求めて、所定距離以上の見出し語を選択するようにして
もよい。
【0021】このように、本発明では、語彙関連情報記
憶部16に記憶されている関連度をもとに、語彙選択部
14が辞書15から認識対象語彙として適切な見出し語
を選別し、その見出し語の尤度情報とともに語彙記憶部
13に設定して認識対象語彙の絞り込みを行うことがで
きる。指定項目との関連度がある一定以上の見出し語の
みを認識対象とすることで、従来と同様に語彙の少数限
定が可能になる。と同時に、見出し語のように離散的な
階層構造でないため、階層構造ではあいまいな見出し語
も認識対象からはずれることなく含めることが可能にな
る。従って、指定項目が「公園」であれば、「奈良公
園」「枚方パーク」「摂津峡公園」など、公園に関連す
る見出し語が認識語彙の対象になる。
【0022】制御部17は、音声を入力して認識結果を
出力するまでの各処理の制御を行うものである。制御部
17のCPUによって音声認識処理部19が制御され、
図3のフローを用いてその動作説明をする。
【0023】まず、ステップS41において、予め決め
られた初期状態の語彙が語彙記憶部13にセットされ
る。初期状態の語彙としては、都道府県名(「東京
都」、「大阪府」などといった語彙)や、検索ジャンル
名(「地名」、「施設名」、「公園」などといった語
彙)がセットされる。
【0024】次に、ステップS42において、利用者の
発声があると、ステップS43の音声認識工程で、単語
を特定する処理が行われる。つまり、この音声認識工程
においては語彙記憶部13にセットされている見出し語
との照合処理が行われ、認識結果が出力される。ステッ
プS44において、認識結果が利用者の所望のものであ
れば終了する。なお、所望のものかどうかは認識結果を
音声で出力することにより判別される。
【0025】ステップS44において、認識結果が所望
のものでなければ、その認識結果を指定項目としてステ
ップS45において上述した語彙選択工程が行われる。
ステップS42で発声された公園に関連する言葉の認識
結果が「公園」であれば、語彙関連情報記憶部16のデ
ータに基づき、「奈良公園」「枚方パーク」といった語
彙が語彙記憶部にセットされる(ステップS46)。そ
して、ステップS42にて、新たに設定された認識対象
語彙に対して利用者が発声を行って、上述した動作を繰
り返し、認識対象語彙の絞り込みを段階的に行う。
【0026】本実施の形態では、指定項目を音声入力に
より行ったが、このように音声入力により指定項目を入
力するのは、運手中のカーナビゲーションシステムに用
いるのに適している。なお、カーナビゲーションシステ
ムのような、検索ジャンル名として地名等を音声で入力
する装置においても本発明は有効である。従来の地名の
階層構造を利用するやり方では千葉県にある施設は千葉
県の辞書を選択しなければ認識の対象にならなかった。
「東京ディズニーランド」は千葉県にあるが、東京との
関連度を0にしないことにより、利用者が「東京」とい
う指定項目を選択した場合でも、「東京ディズニーラン
ド」を認識対象語彙として含めることが可能になる。
【0027】(実施の形態2)本実施の形態を図4のブ
ロック図に基づいて説明する。本実施の形態では、音声
以外で指定項目を入力するものであり、指定項目のリス
トをメニュー表示する表示部27とキーボードやマウ
ス、ペン等のポインティングデバイスで利用者が指定項
目を入力する入力部28が、図1の構成に追加されてい
る。他の構成については、指定項目を音声で入力する以
外は同様の構成であるので、図1の各符号に10を加え
た符号で示して、説明は省略する。
【0028】次に、図5のフローを用いてその動作説明
をする。まず、ステップS51において利用者が選択す
る指定項目リストが表示部27に表示される。指定項目
リストの内容として、例えば都道府県名(「東京都」、
「大阪府」などといった語彙)や、検索ジャンル名
(「地名」、「施設名」、「公園」などといった語彙)
がある。
【0029】ステップS52において、利用者は、入力
部28を用いてリストの中の一つの指定項目を選択す
る。ステップS53においては、ステップS45と同様
にして、「公園」が指定項目として選択されれば、語彙
関連情報記憶部26のデータに基づき、「奈良公園」
「枚方パーク」といった語彙が語彙記憶部23にセット
される。
【0030】ステップS54において、指定項目「公
園」に関連する言葉を利用者が発声し、ステップS55
においてそれを認識する。ステップS56において、認
識結果が利用者の所望のものであれば終了する。さらに
指定項目を絞り込む場合は、「大阪の公園」「奈良の公
園」などより詳細な指定項目が表示部に表示され、ステ
ップS51からの工程を繰り返し行う。
【0031】また、上記各実施の形態で詳述した動作を
コンピュータに実行させるために、そのプログラムをフ
ロッピーディスク、CD−ROM、あるいは通信ネット
から供給される形態等のコンピュータ読み取り可能な記
録媒体に記録しておき、適宜インストールして用いても
よい。
【0032】
【発明の効果】本発明によれば、段階的に認識対象語彙
を絞り込む際に、階層構造ではあいまいな見出し語も認
識対象からはずれることなく含めることが可能になり、
精度、速度ともに良好な音声認識装置が実現でき、利用
者が所望の情報を速やかに得ることができる。
【図面の簡単な説明】
【図1】実施の形態1に係る音声認識装置の構成を示す
ブロック図である。
【図2】語彙関連情報記憶部の構成を示す図である。
【図3】実施の形態1に係る処理フローである。
【図4】実施の形態2に係る音声認識装置の構成を示す
ブロック図である。
【図5】実施の形態2に係る処理フローである。
【符号の説明】
11,21 音声入力部 12,22 音声認識部 13,23 語彙記憶部 14,24 語彙選択部 15,25 辞書 16,26 語彙関連情報記憶部 17,29 制御部 20,30 音声認識処理部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を語彙記憶手段に設定さ
    れた認識対象語彙と照合して認識する音声認識装置であ
    って、 指定項目を入力する入力手段と、 見出し語を記憶する辞書と、 指定項目と見出し語との意味的関連度を記憶する語彙関
    連情報記憶手段と、 入力された指定項目と見出し語との意味的関連度が所定
    値以上の場合に、対応する見出し語を上記辞書から選択
    して上記語彙記憶手段に認識対象語彙として設定する語
    彙選択手段と、を有することを特徴とする音声認識装
    置。
  2. 【請求項2】 上記入力手段は、指定項目を音声により
    入力することを特徴とする請求項1記載の音声認識装
    置。
  3. 【請求項3】 上記意味的関連度として意味ベクトルを
    用いることを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】 上記入力手段から入力される指定項目
    は、意味ベクトルの概念分類の要素であることを特徴と
    する請求項3記載の音声認識装置。
  5. 【請求項5】 入力された音声を語彙記憶手段に設定さ
    れた認識対象語彙と照合して認識する音声認識装置とし
    て機能させる音声認識プログラムを記録したコンピュー
    タ読み取り可能な記録媒体であって、 指定項目を入力する入力手段、 見出し語を記憶する辞書、 指定項目と見出し語との意味的関連度を記憶する語彙関
    連情報記憶手段、 入力された指定項目に対応する見出し語との意味的関連
    度が所定値以上の場合に、対応する見出し語を上記辞書
    から選択して上記語彙記憶手段に認識対象語彙として設
    定する語彙選択手段、として機能させる音声認識プログ
    ラムを記録しているコンピュータ読み取り可能な記録媒
    体。
JP9354700A 1997-12-24 1997-12-24 音声認識装置及びコンピュータ読み取り可能な記録媒体 Pending JPH11184880A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9354700A JPH11184880A (ja) 1997-12-24 1997-12-24 音声認識装置及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9354700A JPH11184880A (ja) 1997-12-24 1997-12-24 音声認識装置及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH11184880A true JPH11184880A (ja) 1999-07-09

Family

ID=18439325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9354700A Pending JPH11184880A (ja) 1997-12-24 1997-12-24 音声認識装置及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JPH11184880A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083988A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声検索装置、音声検索のための制御プログラムとデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP2008065202A (ja) * 2006-09-11 2008-03-21 Alpine Electronics Inc 地点探索装置及びナビゲーション装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03296863A (ja) * 1990-04-16 1991-12-27 Ricoh Co Ltd キーワード関係辞書管理装置
JPH0764480A (ja) * 1993-08-25 1995-03-10 Honda Motor Co Ltd 車載情報処理用音声認識装置
JPH0816611A (ja) * 1994-06-27 1996-01-19 Sharp Corp 自然言語に基づくデータ検索装置
JPH0991306A (ja) * 1995-09-27 1997-04-04 Sharp Corp 関連単語情報検索方法及び情報処理装置
JPH09288675A (ja) * 1996-04-22 1997-11-04 Sharp Corp 検索装置
JPH09305615A (ja) * 1996-05-09 1997-11-28 N T T Data Tsushin Kk 電子情報アクセスシステム及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03296863A (ja) * 1990-04-16 1991-12-27 Ricoh Co Ltd キーワード関係辞書管理装置
JPH0764480A (ja) * 1993-08-25 1995-03-10 Honda Motor Co Ltd 車載情報処理用音声認識装置
JPH0816611A (ja) * 1994-06-27 1996-01-19 Sharp Corp 自然言語に基づくデータ検索装置
JPH0991306A (ja) * 1995-09-27 1997-04-04 Sharp Corp 関連単語情報検索方法及び情報処理装置
JPH09288675A (ja) * 1996-04-22 1997-11-04 Sharp Corp 検索装置
JPH09305615A (ja) * 1996-05-09 1997-11-28 N T T Data Tsushin Kk 電子情報アクセスシステム及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083988A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声検索装置、音声検索のための制御プログラムとデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP4642953B2 (ja) * 1999-09-09 2011-03-02 クラリオン株式会社 音声検索装置、および、音声認識ナビゲーション装置
JP2008065202A (ja) * 2006-09-11 2008-03-21 Alpine Electronics Inc 地点探索装置及びナビゲーション装置

Similar Documents

Publication Publication Date Title
US8909529B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US10176802B1 (en) Lattice encoding using recurrent neural networks
US6073095A (en) Fast vocabulary independent method and apparatus for spotting words in speech
CN106782560B (zh) 确定目标识别文本的方法及装置
US11043205B1 (en) Scoring of natural language processing hypotheses
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US11823678B2 (en) Proactive command framework
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US7729913B1 (en) Generation and selection of voice recognition grammars for conducting database searches
JP5533042B2 (ja) 音声検索装置、音声検索方法、プログラム及び記録媒体
US20020087315A1 (en) Computer-implemented multi-scanning language method and system
US11081104B1 (en) Contextual natural language processing
US20020087311A1 (en) Computer-implemented dynamic language model generation method and system
KR20060037086A (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US11568863B1 (en) Skill shortlister for natural language processing
US10872601B1 (en) Natural language processing
US10783876B1 (en) Speech processing using contextual data
CN115497465A (zh) 语音交互方法、装置、电子设备和存储介质
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
KR100467590B1 (ko) 발음 사전 갱신 장치 및 방법
JP2001125592A (ja) 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
Lee et al. Machine comprehension of spoken content: TOEFL listening test and spoken SQuAD
JPH11184880A (ja) 音声認識装置及びコンピュータ読み取り可能な記録媒体
JP3059504B2 (ja) 品詞選択システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031219

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20031219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040407

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040414

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040716

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051202