JP5120749B2 - 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム - Google Patents
木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム Download PDFInfo
- Publication number
- JP5120749B2 JP5120749B2 JP2007332427A JP2007332427A JP5120749B2 JP 5120749 B2 JP5120749 B2 JP 5120749B2 JP 2007332427 A JP2007332427 A JP 2007332427A JP 2007332427 A JP2007332427 A JP 2007332427A JP 5120749 B2 JP5120749 B2 JP 5120749B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- tree structure
- dictionary
- structure dictionary
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
松井淳、小林彰夫、今井亨、及び安藤彰男、「ニュース音声認識のための未知語登録法の検討」、音講論、1999年9月、2‐1‐7 L.ガルシュ(L.Galescu)、E.リンガー(E.Ringger)、及びJ.アレン(J.Allen)、「新しいタスク領域のための高感度言語モデルの開発」("Rapid Language Model Development for New Task Domains")、言語の資源及び評価の国際会議予稿集(In Proceedings of International Conference on Language Resources and Evaluation)、1998年、p.807‐812
図1において説明した木構造辞書に登録されている既知単語は、品詞属性によって予め複数のクラスに分類されている。例えば、図1において、「明るい」は明度を示す形容詞なので、「明るい」は「明度を示す形容詞」というクラスに属する。「赤い」及び「青い」は、色相を示す形容詞なので、「色相を示す形容詞」というクラスに属する。「売買」、「媒質」、及び「梅雨」は名詞なので、「名詞」というクラスに属する。本実施の形態に係る音声認識装置140を利用するユーザは、クラスを自由に決めることが可能であり、どの単語をどのクラスに属するかも自由に決めることが可能である。
図2は、本実施の形態に係る音声認識装置140の機能ブロック図である。図2を参照して、音声認識装置140は、予め用意されている既知単語のための木構造辞書を記憶するための単語辞書150と、既知単語のユニグラム確率及びバイグラム確率を記憶するための言語モデル152と、所定の言語における音声から得られた音響的特徴量の系列が、ある音素から得られた尤度を計算するための統計的確率モデルである音響モデル154と、クラス毎に未知語のための木構造辞書を記憶するための未知語を含む木構造辞書156と、クラスと未知語を含む木構造辞書156に含まれる木構造辞書との間のマッピングテーブルを記憶するためのクラス‐木構造辞書マッピングテーブル158とを含む。
未知語辞書管理部160は、未知語に関する情報162、及び未知語の属する各クラスの代表単語に関する情報176を入力として、単語辞書150及び言語モデル152を用いて、未知語を含む木構造辞書156及びクラス‐木構造辞書マッピングテーブル158を作成するための未知語辞書作成部164と、追加単語に関する情報168を入力として、クラス‐木構造辞書マッピングテーブル158を用いて未知語を含む木構造辞書156に新規の未知語を登録して、更新するためのメンテナンス部166とを含む。
図3は、図2に示す先読み単語辞書150及び言語モデル152の詳細について説明するための図である。図3を参照して、言語モデル152は、既知単語のユニグラム確率を記憶するためのユニグラムテーブル224と、既知単語のバイグラム確率を記憶し、先読み単語辞書150の全ての既知単語に対して関連付けられているバイグラムテーブル226とを含む。
以下、言語モデルの構造について説明する。以下の説明では、全ての既知単語をw1、w2、…、wmで表わす。
未知語として登録するクラスの数をpとする。図8は、未知語を含む木構造辞書156の詳細な図である。図8を参照して、未知語を含む木構造辞書156は、クラス1〜クラスpの木構造辞書270、272、及び274等を含む。
図12は音声認識装置140で用いられるコンピュータシステム330の外観を示し、図13はコンピュータシステム330のブロック図を示す。なお、ここで示すコンピュータシステム330は単なる例であって、他の構成も利用可能である。
図14〜18は、未知語辞書作成部164及びメンテナンス部166を実現するためのプログラムの制御構造を示すフローチャートである。未知語辞書作成部164及びメンテナンス部166のプログラムは、実質的にはコンピュータである音声認識装置140によって実行される。
図14は、未知語辞書作成部164の機能を実現するためのプログラムの制御構造を示すフローチャートである。図14を参照して、このプログラムは、単語辞書150、言語モデル152、未知語に関する情報162、及び代表単語に関する情報176を読込むステップ400と、ステップ400の後、未知語に関する情報162に挙げられているクラスの中で、まだ木構造辞書が作成されていないクラスが存在するか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ402とを含む。
図15〜18は、メンテナンス部166の機能を実現するためのプログラムの制御構造を示すフローチャートである。図15を参照して、このプログラムは、ユーザに対して、ユーザが追加したい未知語のクラスを入力させるための入力画面を表示するステップ460と、ステップ460の後、ユーザからの入力を待機するステップ462と、ステップ462の後、ユーザが、クラスの入力の終了を要求するか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ464とを含む。
上記した構成を持つ音声認識装置140は以下のように動作する。
図2を参照して、単語辞書150、言語モデル152、及び音響モデル154は予め用意されているものとする。
未知語を新たに木構造辞書に登録するときには、メンテナンス部166は以下のように動作する。図2を参照して、未知語辞書作成部164により、未知語を含む木構造辞書156及びクラス‐木構造辞書マッピングテーブル158が予め作成されているものとする。
音声認識部170は、単語辞書150、言語モデル152、音響モデル154、未知語を含む木構造辞書156、クラス‐木構造辞書マッピングテーブル158、使用クラスの情報172、及び音声データ174を読込む。
以上の説明から明らかなように、本実施の形態に係る音声認識装置140を使用することにより、未知語辞書作成部164が未知語を含む木構造辞書156を作成するので、音声認識部170は、音声データ174に未知語が含まれていても、言語モデルを変更せずに、代表単語の生起確率と同じ確率で未知語を認識することができる。言語モデルが変更されないので、言語モデル中の確率の信頼性が低下することもない。
上述した実施の形態では、図3に示す言語モデル152には、ユニグラムテーブル224と全てのバイグラム確率が予め記憶されたバイグラムテーブル226とが含まれていた。しかし、本発明はそのような実施の形態には限定されない。Nを3以上の整数として、言語モデル152は、ユニグラムテーブル224及びバイグラムテーブル226に代えて、Nグラム確率を記憶させたNグラム木構造を含んでも良い。
150 単語辞書
152 言語モデル
154 音響モデル
156 未知語を含む木構造辞書
158 クラス‐木構造辞書マッピングテーブル
160 未知語辞書管理部
162 未知語に関する情報
164 未知語辞書作成部
166 メンテナンス部
168 追加単語に関する情報
170 音声認識部
172 使用クラスの情報
174 音声データ
176 代表単語に関する情報
178 音声認識されたテキスト
222 ファクタリングテーブル
224 ユニグラムテーブル
226 バイグラムテーブル
270 クラス1の木構造辞書
272 クラス2の木構造辞書
274 クラスPの木構造辞書
300 クラス1のファクタリングテーブル
Claims (3)
- 各々が子ノードを持つ複数の非終端ノードと、子ノードを持たずにそれぞれ単語に対応する複数の終端ノードとを各々含む、既知語の木構造辞書及び未知語の木構造辞書を記録したコンピュータ読取可能な記憶媒体であって、
前記既知語の木構造辞書及び未知語の木構造辞書の各々は、いずれも同じ辞書探索プログラムにより探索可能なように構成された同じ辞書構造を持ち、
前記既知語の木構造辞書及び未知語の木構造辞書の各々に含まれる前記複数の非終端ノードは、それぞれ所定の音素に対応しており、
前記既知語の木構造辞書及び未知語の木構造辞書の各々において、ルートノードから子ノードをたどっていくことにより、各非終端ノードを経由して、当該非終端ノードに対応する音素が自身の音素列の一部となっている単語に対応する終端ノードの全てに到達可能に構成されており、
前記既知語の木構造辞書内の前記複数の終端ノードの各々には、前記複数の終端ノードにそれぞれ対応する単語の生起確率を示す確率テーブルが関連付けられており、
前記未知語の木構造辞書内の前記複数の非終端ノード及び前記複数の終端ノードの各々には、前記未知語の木構造辞書内の前記複数の終端ノードに対応する単語以外の、前記既知語の木構造辞書内に存在する予め定める単語の生起確率を示す確率テーブルが関連付けられている、コンピュータ読取可能な記憶媒体。 - ある集合に属する単語である既知語の各々についての生起確率を示す所定の統計的言語モデルに基づいて、前記ある集合に含まれない単語である未知語の生起確率を予測するために参照される、未知語の木構造辞書を作成するための木構造辞書作成装置であって、
前記既知語は複数のクラスに分類されており、
前記未知語の木構造辞書と同じ辞書探索プログラムにより探索可能なように、前記未知語の木構造辞書と同じ辞書構造を持つ木構造辞書であって、既知語の生起確率を予測するために参照される既知語の木構造辞書を記憶するための既知語辞書記憶手段と、
前記未知語と、当該未知語の属するクラスとを対にした未知語情報の入力を受けるための未知語情報入力手段と、
前記複数のクラスのうちのあるクラスの指定を受けるためのクラス指定手段と、
前記未知語情報入力手段により入力された未知語情報から、前記クラス指定手段により指定されたクラスと対になった未知語を抽出し、前記未知語の木構造辞書を作成するための木構造辞書作成手段とを含み、
前記既知語の木構造辞書及び前記未知語の木構造辞書の各々は、各々が子ノードを持つ複数の非終端ノードと、子ノードを持たずにそれぞれ単語に対応する複数の終端ノードとから構成され、
前記複数の非終端ノードは、それぞれ所定の音素に対応しており、
前記既知語の木構造辞書と前記未知語の木構造辞書の各々において、ルートノードから子ノードをたどっていくことにより、各非終端ノードを経由して、当該非終端ノードに対応する音素が自身の音素列の一部となっている単語に対応する終端ノードの全てに到達可能に構成されており、
前記木構造辞書作成装置はさらに、
前記未知語の木構造辞書の前記複数の非終端ノード及び前記複数の終端ノードの各々に、前記所定の統計的言語モデルから得られる、前記クラス指定手段により指定されたクラスに分類されている単語であって前記既知語の木構造辞書に登録されている同一の単語の生起確率を示すファクタリングテーブルを関連付けるためのファクタリングテーブル付与手段を含む、木構造辞書作成装置。 - コンピュータにより実行されると、当該コンピュータを、ある集合に属する単語である既知語の各々についての生起確率を示す所定の統計的言語モデルに基づいて、前記ある集合に含まれない単語である未知語の生起確率を予測するために参照される、未知語の木構造辞書を作成するように機能させるための木構造辞書作成プログラムであって、
前記コンピュータは、前記未知語の木構造辞書と同じ辞書探索プログラムにより探索可能なように、前記未知語の木構造辞書と同じ辞書構造を持つ木構造辞書であって、前記既知語の生起確率を予測するために参照される既知語の木構造辞書を記憶するための既知語辞書記憶手段に接続されて用いられ、
前記既知語は複数のクラスに分類されており、前記プログラムは、前記コンピュータを、
前記未知語と、当該未知語の属するクラスとを対にした未知語情報の入力を受けるための未知語情報入力手段と、
前記複数のクラスのうちのあるクラスの指定を受けるためのクラス指定手段と、
前記未知語情報入力手段により入力された未知語情報から、前記クラス指定手段により指定されたクラスと対になった未知語を抽出し、前記未知語の木構造辞書を作成するための木構造辞書作成手段として機能させ、
前記既知語の木構造辞書及び前記未知語の木構造辞書の各々は、各々が子ノードを持つ複数の非終端ノードと、子ノードを持たずにそれぞれ単語に対応する複数の終端ノードとから構成され、
前記複数の非終端ノードは、それぞれ所定の音素に対応しており、
前記既知語の木構造辞書と前記未知語の木構造辞書の各々において、ルートノードから子ノードをたどっていくことにより、各非終端ノードを経由して、当該非終端ノードに対応する音素が自身の音素列の一部となっている単語に対応する終端ノードの全てに到達可能に構成されており、
前記木構造辞書作成プログラムはさらに、前記コンピュータを、
前記未知語の木構造辞書の前記複数の非終端ノード及び前記複数の終端ノードの各々に、前記所定の統計的言語モデルから得られる、前記クラス指定手段により指定されたクラスに分類されている単語であって前記既知語の木構造辞書に登録されている同一の単語の生起確率を示すファクタリングテーブルを関連付けるためのファクタリングテーブル付与手段として機能させる、木構造辞書作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007332427A JP5120749B2 (ja) | 2007-12-25 | 2007-12-25 | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007332427A JP5120749B2 (ja) | 2007-12-25 | 2007-12-25 | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009156941A JP2009156941A (ja) | 2009-07-16 |
JP5120749B2 true JP5120749B2 (ja) | 2013-01-16 |
Family
ID=40961072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007332427A Active JP5120749B2 (ja) | 2007-12-25 | 2007-12-25 | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5120749B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096944B (zh) * | 2015-07-20 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 语音识别方法及装置 |
CN111128172B (zh) * | 2019-12-31 | 2022-12-16 | 达闼机器人股份有限公司 | 一种语音识别方法、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3035939B2 (ja) * | 1989-11-30 | 2000-04-24 | 日本電気株式会社 | 音声分析合成装置 |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
US7912716B2 (en) * | 2005-10-06 | 2011-03-22 | Sony Online Entertainment Llc | Generating words and names using N-grams of phonemes |
-
2007
- 2007-12-25 JP JP2007332427A patent/JP5120749B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009156941A (ja) | 2009-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
EP1475778B1 (en) | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system | |
JP5459214B2 (ja) | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP4528535B2 (ja) | テキストから単語誤り率を予測するための方法および装置 | |
WO2017127296A1 (en) | Analyzing textual data | |
CN112712804A (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
US20050187768A1 (en) | Dynamic N-best algorithm to reduce recognition errors | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
EP2418589A1 (en) | Retrieval device | |
KR20200026295A (ko) | 음절 기반 자동 음성 인식 | |
EP1475779A1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
JP3415585B2 (ja) | 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置 | |
KR100895940B1 (ko) | 문법 저작에서의 세그먼테이션 모호성의 자동 해결 | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP4220151B2 (ja) | 音声対話装置 | |
JP2004046775A (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
CN113838456A (zh) | 音素提取方法、语音识别方法、装置、设备及存储介质 | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
JP2001142877A (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120925 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5120749 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |