JP2004138914A - Device and method for adjusting dictionary for voice recognition - Google Patents

Device and method for adjusting dictionary for voice recognition Download PDF

Info

Publication number
JP2004138914A
JP2004138914A JP2002304970A JP2002304970A JP2004138914A JP 2004138914 A JP2004138914 A JP 2004138914A JP 2002304970 A JP2002304970 A JP 2002304970A JP 2002304970 A JP2002304970 A JP 2002304970A JP 2004138914 A JP2004138914 A JP 2004138914A
Authority
JP
Japan
Prior art keywords
recognition
dictionary
speech
speech recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002304970A
Other languages
Japanese (ja)
Other versions
JP3992586B2 (en
Inventor
Masaharu Harada
原田 将治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002304970A priority Critical patent/JP3992586B2/en
Publication of JP2004138914A publication Critical patent/JP2004138914A/en
Application granted granted Critical
Publication of JP3992586B2 publication Critical patent/JP3992586B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device and a method for adjusting a dictionary for voice recognition capable of efficiently performing maintenance of the dictionary for the voice recognition while improving the recognition accuracy. <P>SOLUTION: The device and the method input voice signals generated by a user, recognize them by using a first dictionary for voice recognition structured by each word of blocks and extracts at least the voice signals of each word of the blocks to be recognized and generating times of the voice signals from the recognition result. The device and the method recognize voices again by using a second dictionary for voice recognition structured by each word by using corresponding voice signals at each extracted generation time, and based on the recognition result, stores reading information corresponding to the voice signals of each word of the blocks as a pair of data and updates the first dictionary by using the pair of the data. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置における音声認識用辞書のメンテナンスを効率的に行うことができる音声認識用辞書調整装置及び方法に関する。
【0002】
【従来の技術】
従来の音声認識装置では、認識精度を高めることを目的として、最も評価値の高い単語及びそれに対応する読み情報を一対のデータとして集約することによって、入力された音声信号に対する音声認識用辞書を構成している。
【0003】
しかし、従来の音声認識装置においては、音声認識用辞書に登録されるべき認識対象となる単語の読み情報については、専門家の手作業によることが多かったが、かかる作業は工数的にも煩雑な作業であることから、特定の自動変換ルール等を定めることによって予め読み情報を付与しておく技術が広く用いられている。
【0004】
しかし、単語の読みには、発声者が同じであっても、個人ごとに揺らぎが存在する。例えば同じ発声者であっても、同じ単語、すなわち“敬語”と表記される単語が、「けいご」と発声されたり、「けえご」と発声されたりすることも考えられる。したがって、このような場合であっても正確に音声認識を行うためには、専門家の手作業によって各単語に読みを追加する、あるいは変換ルールを変更する等によって、音声認識精度の改善を行うチューニング作業が必要不可欠となっていた。
【0005】
しかし、かかる作業は、たとえ専門家であっても手作業で行うのは工数的にも実用的ではない。したがって、特定のシステムを採用することによって自動的にチューニングを施すための方策が多々考えられている。
【0006】
例えば(特許文献1)においては、音声認識モードと音声登録モードを切り替え、音声登録モードにおいては、単語単位に登録すべき音声信号についても、構成する一語単位に分割して音声認識用辞書に登録することによって、1回の登録作業で多数の登録データを得ることができる技術が開示されている。
【0007】
また、(特許文献2)においては、一つの文字(単語)に対して複数の読みを自動的に付与することによって、登録作業を行っていない読みに対しても確実に認識文字を推定することができる技術が開示されている。
【0008】
【特許文献1】
特開平11−282486号公報
【0009】
【特許文献2】
特開2000−47684号公報
【0010】
【発明が解決しようとする課題】
しかし、(特許文献1)に開示されている方法では、単語を一語単位に展開する精度自体に問題があり、場合によっては登録されていない音節や音素も生じるおそれがあることから、場合によっては認識精度がかえって下がってしまうという問題点があった。
【0011】
また、(特許文献2)に開示されている方法では、どの程度まで複数の読みを付加すれば認識精度が向上するのか判断することが難しく、結局は専門家が音声認識用辞書をメンテナンスするのと同等の作業工数となってしまうという問題点があった。
【0012】
本発明は、上記問題点を解決するために、認識精度を向上させながら音声認識用辞書のメンテナンスを効率的に行うことができる音声認識用辞書調整装置及び方法を提供することを目的とする。
【0013】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声認識用辞書調整装置は、利用者の発する音声信号を入力する音声信号入力部と、入力された音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第1の音声認識部と、第1の音声認識部における認識結果から少なくとも認識対象となったひとまとまりの言葉単位の音声信号と音声信号の発生時間を抽出する音声信号情報抽出部と、発生時間ごとに、対応する音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第2の音声認識部と、第2の音声認識部における認識結果に基づいて、ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する認識結果保存部と、保存されている一対のデータを用いて第1の音声認識用辞書を更新する認識辞書更新部とを含むことを特徴とする。
【0014】
かかる構成により、単語単位で音声認識処理を行うことで単語単位の音声データを抽出し、その後単語に対応する音声データについて一語単位による音声認識を再度行うことにより、登録されていない音節や音素等が生じることがなく、利用者が用いた単語について確実に音声認識用辞書に追加することができることから、無駄な読み情報を登録することなく、音声認識精度の高い効率的な音声認識用辞書となるよう調整することが可能となる。
【0015】
また、本発明にかかる音声認識用辞書調整装置は、ひとまとまりの言葉ごとに、第1の音声認識用辞書を更新した回数を集計する更新回数集計部を含むことが好ましい。更新回数の少ない認識結果は誤認識である可能性が高いと考えられることから、かかる認識結果を音声認識用辞書に反映させるのを防ぐことができるからである。
【0016】
また、本発明にかかる音声認識用辞書調整装置は、第1の音声認識用辞書を利用者ごとに保存することが好ましい。あるいは、本発明にかかる音声認識用辞書調整装置は、第1の音声認識用辞書を利用者の使用する環境ごとに保存することも好ましい。
【0017】
また、本発明にかかる音声認識用辞書調整装置は、第2の音声認識エンジンを複数個使用することも好ましい。
【0018】
また、本発明は、上記のような音声認識用辞書調整装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、利用者の発する音声信号を入力する第一の工程と、入力された音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第二の工程と、第二の工程における認識結果から少なくとも認識対象となったひとまとまりの言葉単位の音声信号と音声信号の発生時間を抽出する第三の工程と、発生時間ごとに、対応する音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第四の工程と、第四の工程における認識結果に基づいて、ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する第五の工程と、保存されている一対のデータを用いて第1の音声認識用辞書を更新する第六の工程とを含む音声認識用辞書調整方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0019】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、単語単位で音声認識処理を行うことで単語単位の音声データを抽出し、その後単語に対応する音声データについて一語単位による音声認識を再度行うことにより、登録されていない音節や音素等が生じることがなく、利用者が用いた単語について確実に音声認識用辞書に追加することができることから、無駄な読み情報を登録することなく、音声認識精度の高い効率的な音声認識用辞書となるよう調整することができる音声認識用辞書調整装置を実現することが可能となる。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態にかかる音声認識用辞書調整装置について、図面を参照しながら説明する。図1は本発明の実施の形態にかかる音声認識用辞書調整装置の構成図である。
【0021】
図1において、音声を入力する利用者11が、「今日の天気」という言葉を音声入力した場合、まず第1の音声認識エンジン12において、ひとまとまりの単語単位で構成されている第1の音声認識用辞書13を参照しながら音声認識を行う。
【0022】
図2に本発明の実施の形態にかかる音声認識用辞書調整装置における第1の音声認識用辞書13のデータ構成の例示図を示す。図2の例では、単語の品詞単位に、読み情報との対応を示すデータの集合として第1の音声認識用辞書13を構成している。もちろん、品詞単位に限定されるものではない。
【0023】
次に、認識結果抽出部14において、認識結果として出力される単語と、当該出力単語に対応する音声信号を抽出する。音声信号の抽出は、出力される単語に対応する時間的信号区間によって行われる。例えば図1の例では、「今日」に対応する信号区間が10ms〜200msの間の区間、「の」に対応する信号区間が200ms〜250msの間の区間、「天気」に対応する信号区間が250ms〜500msの間の区間、というように抽出する。
【0024】
そして、第2の音声認識エンジン15において、音節や音素等の一語単位で構成された第2の音声認識用辞書16を参照しながら、各々の音声データ区間に対し、読み情報単位で音声認識を行う。例えば、音節単位で音声認識するものとすると、図1の例では、「今日」に対応する10ms〜200msの間の区間における音声信号に基づいて、「きょ」と「お」の2つの音節に対する読み情報を第2の音声認識エンジン15において認識することになる。
【0025】
図3に本発明の実施の形態にかかる音声認識用辞書調整装置における第2の音声認識用辞書16のデータ構成の例示図を示す。図3の例では、「あ」、「い」、「う」等の各音節単位で読み情報との対応を示す一対のデータの集合として第2の音声認識用辞書16を構成している。もちろん、音節単位に限定されるものではなく、例えば音素単位であっても良い。
【0026】
そして、認識結果保存部17では、第2の音声認識エンジン15による認識結果を、認識の対象となった信号区間に相当する音声信号に対応する単語と対応付けた一対のデータとして保存する。すなわち、図4に示すように、認識結果保存部17には、単語「今日」に対して読み情報として「きょお」が保存されることになる。同様に、入力された音声信号全てに対して、第2の音声認識エンジン15による認識結果を、認識の対象となった信号区間に相当する音声信号に対応する単語と対応付けた一対のデータとして保存することになる。
【0027】
最後に、認識辞書更新部18において、第1の音声認識用辞書13に対して、認識結果保存部17に保存されている一対のデータに基づいて音声認識用辞書の内容を更新することになる。
【0028】
ここで、図5に示すように、第2の音声認識エンジン15として、複数個の音声認識エンジンを用いることも考えられる。図5の例においては、第2の音声認識エンジン15に、さらに第3の音声認識エンジン19を追加している。
【0029】
第2の音声認識エンジン15と第3の音声認識エンジン19とは、異なる音響モデルを利用している。そして、音節や音素等の一語単位で構成された第2の音声認識用辞書16を参照しながら、各々の音声データ区間に対し、おのおの読み情報単位で音声認識を行うことになる。
【0030】
例えば、図5の例において、単語「気温」と対応付けられた音声データ区間に対して、第2の音声認識エンジン15では「きょぐ」と、第3の音声認識エンジン19では「てんき」と、異なる読み情報で認識される場合、複数の音声認識エンジンにおいて認識結果が異なっていることから、かかる認識結果が誤っているものと判定され、第1の音声認識用辞書13に対して更新しないようにするものである。
【0031】
一方、単語「今日」と対応付けられた音声データ区間に対し、第2の音声認識エンジン15では「きょお」、第3の音声認識エンジン19でも「きょお」と認識される場合には、複数の音声認識エンジンにおいて認識結果が一致していることから、かかる認識結果は正しいものと判定され、第1の音声認識用辞書13を更新することになる。
【0032】
なお、第3の音声認識エンジン19による「気温:てんき」という認識結果のうち、読み情報の部分について第1の音声認識用辞書13と照合すると、読み情報の部分についてはすでに登録されている「天気:てんき」という一対のデータと一致していることも考えられる。このような場合には、第1の音声認識用辞書13を更新しないようにしても良い。
【0033】
すなわち、認識辞書更新部18において第1の音声認識用辞書13を更新する際、第1の音声認識用辞書13に存在する他の単語に対応する読み情報と重なるものがないか照合を行うことになる。
【0034】
図6(a)に、かかる照合を行う場合における第1の音声認識用辞書13のデータ構成例を、図6(b)に認識結果保存部17のデータ構成例を、それぞれ示す。
【0035】
図6(b)に示すように、例えば認識結果保存部17における一対のデータ「太郎:じろう」の読み情報部分である「じろう」は、既に第1の音声認識用辞書13に登録されている他の一対のデータ「次郎:じろう」にも存在することが検出できる。この場合、一対のデータ「太郎:じろう」の方を削除しても良いし、読み情報が類似している単語として「太郎」と「次郎」を提示するようにしても良い。
【0036】
また、第1の音声認識用辞書13に同じ読み情報が存在する場合、例えば図6(b)に示すように、認識結果保存部17に「山田:がまだ」、「鎌田:がまだ」という2つの一対のデータが存在する場合には、両方のデータを削除しても良い。あるいは、同じ読み情報が存在する単語であっても、文法上で同時に出現することの有無を検証することによって、削除するか否かを決定することも考えられる。
【0037】
さらに、認識辞書更新部18において第1の音声認識用辞書13を更新する際、既に保存されている単語と対応する読み情報という一対のデータの中に、更新しようとする一対のデータと同じ一対のデータが存在する場合も考えられる。この場合、当該一対のデータが保存された頻度を集計し、集計された更新頻度に基づいて、第1の音声認識用辞書13に追加する単語と当該単語の読み情報との一対のデータを決定することも考えられる。
【0038】
図7(a)に、かかる照合を行う場合における第1の音声認識用辞書13のデータ構成例を、図7(b)に認識結果保存部17のデータ構成例を、それぞれ示す。
【0039】
例えば、認識結果保存部17に保存されている一対のデータの中に、更新頻度が100回以上である6つの一対のデータが含まれているが、このうち第1の音声認識用辞書13に含まれていない、「今日:ky o o」、「明日:a su ta」、「天気:t e g k i」の3つの一対のデータについて、第1の音声認識用辞書13に登録することになる。このように更新頻度の高いデータについてのみ第1の音声認識用辞書13の更新の対象とすることにより、偶然誤って認識した結果等が第1の音声認識用辞書13に反映されることがないことから、更新された第1の音声認識用辞書13の音声認識精度を落とすことなく辞書の更新を行うことが可能となる。
【0040】
また、第1の音声認識用辞書13を利用者ごとに保持することも考えられる。すなわち、図8に示すように、利用者IDごとに第1の音声認識用辞書13を構成しておき、例えば利用者IDが記述されたボタンを選択するような利用者ID認識部20によって認識された利用者IDごとに第1の音声認識用辞書13を更新することになる。
【0041】
また、利用者ごとに保持することに特に限定されるものではなく、例えば利用者の使用環境における背景雑音のレベルや、使用する電話回線の種類、マイクの種類等の音声信号を入力する環境に関する情報に基づいて、第1の音声認識用辞書13を複数個設けるものであっても良い。
【0042】
次に、本発明の実施の形態にかかる音声認識用辞書調整装置を実現するプログラムの処理の流れについて説明する。図9に本発明の実施の形態にかかる音声認識用辞書調整装置を実現するプログラムの処理の流れ図を示す。
【0043】
図9において、まず利用者の音声信号を受信し(ステップS901)、第1の音声認識エンジン12において、ひとまとまりの単語単位で構成されている第1の音声認識用辞書13を参照しながら音声認識を行う(ステップS902)。
【0044】
次に、認識結果として出力される単語と、当該出力単語に対応する音声信号を信号区間として抽出する(ステップS903)。そして、第2の音声認識エンジン15において、音節や音素等の一語単位で構成された第2の音声認識用辞書16を参照しながら、各々の音声データ区間に対し、読み情報単位で音声認識を行う(ステップS904)。
【0045】
そして、第2の音声認識エンジン15による認識結果を、認識の対象となった音声データに対応する単語と対応付けて保存し(ステップS905)、第1の音声認識用辞書13の内容を、保存されている内容に基づいて更新する(ステップS906)。
【0046】
なお、本実施の形態においては、第1の音声認識エンジン12と第2の音声認識エンジン15、あるいは追加される他の音声認識エンジンとは、同じ音声認識エンジンを用いても良いし、異なる音声認識エンジンを用いても良い。また、本実施の形態においては、最良であると判断された読み情報のみに基づいて第1の音声認識用辞書13を更新しているが、複数個の読み情報候補について第1の音声認識用辞書13を更新しても良い。
【0047】
以上のように本実施の形態によれば、単語単位で音声認識処理を行うことで単語単位の音声データを抽出し、その後単語に対応する音声データについて一語単位による音声認識を再度行うことにより、登録されていない音節や音素等が生じることがなく、利用者が用いた単語について確実に音声認識用辞書に追加することができることから、無駄な読み情報を登録することなく、音声認識精度の高い効率的な音声認識用辞書となるよう調整することが可能となる。
【0048】
本発明の実施の形態にかかる音声認識用辞書調整装置を実現するプログラムは、図10に示すように、CD−ROM102−1やフレキシブルディスク102−2等の可搬型記録媒体102だけでなく、通信回線の先に備えられた他の記憶装置101や、コンピュータ103のハードディスクやRAM等の記録媒体104のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0049】
また、本発明の実施の形態にかかる音声認識用辞書調整装置により用いられる第1の音声認識用辞書や第2の音声認識用辞書等についても、図10に示すように、CD−ROM102−1やフレキシブルディスク102−2等の可搬型記録媒体102だけでなく、通信回線の先に備えられた他の記憶装置101や、コンピュータ103のハードディスクやRAM等の記録媒体104のいずれに記憶されるものであっても良く、例えば本発明にかかる音声認識用辞書調整装置を利用する際にコンピュータ103により読み取られる。
【0050】
(付記1) 利用者の発する音声信号を入力する音声信号入力部と、
入力された前記音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第1の音声認識部と、
前記第1の音声認識部における認識結果から少なくとも認識対象となった前記ひとまとまりの言葉単位の音声信号と前記音声信号の発生時間を抽出する音声信号情報抽出部と、
前記発生時間ごとに、対応する前記音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第2の音声認識部と、
前記第2の音声認識部における認識結果に基づいて、前記ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する認識結果保存部とを含むことを特徴とする音声認識用辞書調整装置。
【0051】
(付記2) 保存されている前記一対のデータを用いて前記第1の音声認識用辞書を更新する認識辞書更新部をさらに含む付記1に記載の音声認識用辞書調整装置。
【0052】
(付記3) 前記ひとまとまりの言葉ごとに、前記第1の音声認識用辞書を更新した回数を集計する更新回数集計部を含む付記1又は2に記載の音声認識用辞書調整装置。
【0053】
(付記4) 前記第1の音声認識用辞書を前記利用者ごとに保存する付記1又は2に記載の音声認識用辞書調整装置。
【0054】
(付記5) 前記第1の音声認識用辞書を前記利用者の使用する環境ごとに保存する付記1又は2に記載の音声認識用辞書調整装置。
【0055】
(付記6) 前記第2の音声認識エンジンを複数個使用する付記1又は2に記載の音声認識用辞書調整装置。
【0056】
(付記7) 利用者の発する音声信号を入力する第一の工程と、
入力された前記音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第二の工程と、
前記第二の工程における認識結果から少なくとも認識対象となった前記ひとまとまりの言葉単位の音声信号と前記音声信号の発生時間を抽出する第三の工程と、
前記発生時間ごとに、対応する前記音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第四の工程と、
前記第四の工程における認識結果に基づいて、前記ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する第五の工程とを含むことを特徴とする音声認識用辞書調整方法。
【0057】
(付記8) 利用者の発する音声信号を入力する第一の処理ステップと、
入力された前記音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第二の処理ステップと、
前記第二の処理ステップにおける認識結果から少なくとも認識対象となった前記ひとまとまりの言葉単位の音声信号と前記音声信号の発生時間を抽出する第三の処理ステップと、
前記発生時間ごとに、対応する前記音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第四の処理ステップと、
前記第四の処理ステップにおける認識結果に基づいて、前記ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する第五の処理ステップとを含む音声認識用辞書調整方法を具現化することを特徴とするコンピュータ実行可能なプログラム。
【0058】
【発明の効果】
以上のように本発明にかかる音声認識用辞書調整装置によれば、単語単位で音声認識処理を行うことで単語単位の音声データを抽出し、その後単語に対応する音声データについて一語単位による音声認識を再度行うことにより、登録されていない音節や音素等が生じることがなく、利用者が用いた単語について確実に音声認識用辞書に追加することができることから、無駄な読み情報を登録することなく、音声認識精度の高い効率的な音声認識用辞書となるよう調整することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる音声認識用辞書調整装置の構成図
【図2】本発明の実施の形態にかかる音声認識用辞書調整装置における第1の音声認識用辞書のデータ構成例示図
【図3】本発明の実施の形態にかかる音声認識用辞書調整装置における第2の音声認識用辞書のデータ構成例示図
【図4】本発明の実施の形態にかかる音声認識用辞書調整装置における認識結果保存部のデータ構成例示図
【図5】本発明の実施の形態にかかる音声認識用辞書調整装置の他の構成図
【図6】本発明の実施の形態にかかる音声認識用辞書調整装置における第1の音声認識用辞書及び認識結果保存部のデータ構成例示図
【図7】本発明の実施の形態にかかる音声認識用辞書調整装置における第1の音声認識用辞書及び認識結果保存部のデータ構成例示図
【図8】本発明の実施の形態にかかる音声認識用辞書調整装置の他の構成図
【図9】本発明の実施の形態にかかる音声認識用辞書調整装置における処理の流れ図
【図10】コンピュータ環境の例示図
【符号の説明】
11 利用者
12 第1の音声認識エンジン
13 第1の音声認識用辞書
14 認識結果抽出部
15 第2の音声認識エンジン
16 第2の音声認識用辞書
17 認識結果保存部
18 認識辞書更新部
19 第3の音声認識エンジン
20 利用者ID認識部
101 回線先の記憶装置
102 CD−ROMやフレキシブルディスク等の可搬型記録媒体
102−1 CD−ROM
102−2 フレキシブルディスク
103 コンピュータ
104 コンピュータ上のRAM/ハードディスク等の記録媒体
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition dictionary adjustment device and method capable of efficiently maintaining a speech recognition dictionary in a speech recognition device.
[0002]
[Prior art]
In the conventional speech recognition device, a word for the highest evaluation value and reading information corresponding to the word with the highest evaluation value are aggregated as a pair of data for the purpose of improving recognition accuracy, thereby forming a speech recognition dictionary for the input speech signal. are doing.
[0003]
However, in the conventional speech recognition device, the reading information of the word to be recognized to be registered in the speech recognition dictionary is often manually performed by an expert, but such work is complicated in man-hours. Therefore, a technique of adding reading information in advance by defining a specific automatic conversion rule or the like is widely used.
[0004]
However, there are fluctuations in reading individual words, even for the same speaker. For example, even with the same speaker, the same word, that is, a word described as “Honorific” may be uttered as “Keigo” or “Kego”. Therefore, even in such a case, in order to accurately perform speech recognition, the speech recognition accuracy is improved by manually adding a reading to each word or changing a conversion rule by an expert. Tuning work was indispensable.
[0005]
However, it is impractical to perform such a task manually, even for an expert. Therefore, many measures have been considered for automatically performing tuning by adopting a specific system.
[0006]
For example, in (Patent Document 1), a voice recognition mode and a voice registration mode are switched. In the voice registration mode, a voice signal to be registered in a word unit is also divided into constituent word units and stored in a voice recognition dictionary. A technique has been disclosed in which a large number of registration data can be obtained by one registration operation by registering.
[0007]
Also, in Patent Document 2, by automatically assigning a plurality of readings to one character (word), it is possible to reliably estimate recognized characters even for readings that have not been registered. There is disclosed a technology that can do this.
[0008]
[Patent Document 1]
JP-A-11-282486
[Patent Document 2]
JP 2000-47684 A
[Problems to be solved by the invention]
However, in the method disclosed in (Patent Document 1), there is a problem in accuracy of expanding words in word units, and in some cases, unregistered syllables or phonemes may be generated. However, there is a problem that the recognition accuracy is lowered.
[0011]
In addition, according to the method disclosed in Patent Document 2, it is difficult to determine to what extent a plurality of readings are added to improve recognition accuracy, and after all, it is difficult for an expert to maintain a speech recognition dictionary. However, there is a problem that the number of working steps is equivalent to that of the above.
[0012]
SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech recognition dictionary adjustment apparatus and method capable of efficiently performing maintenance of a speech recognition dictionary while improving recognition accuracy in order to solve the above problems.
[0013]
[Means for Solving the Problems]
In order to achieve the above object, a voice recognition dictionary adjustment device according to the present invention includes a voice signal input unit for inputting a voice signal emitted by a user, and a voice signal input unit configured to convert the input voice signal into a group of words. A first speech recognition unit for recognizing by using the first speech recognition dictionary, and at least a set of speech signals in units of words and a generation time of the speech signal, which are recognition targets, based on the recognition result in the first speech recognition unit. An audio signal information extracting unit to be extracted, a second audio recognizing unit that recognizes again by using a second audio recognition dictionary configured for each word using a corresponding audio signal for each occurrence time, A recognition result storage unit that stores a set of speech signals corresponding to a group of words and corresponding reading information as a pair of data, based on the recognition result of the second voice recognition unit; Characterized in that it comprises a recognition dictionary update unit for updating the speech recognition dictionary.
[0014]
With this configuration, speech recognition processing is performed in units of words to extract speech data in units of words, and then speech recognition corresponding to the words is performed again in units of words, so that unregistered syllables and phonemes are obtained. Since the words used by the user can be reliably added to the dictionary for speech recognition without any occurrence of the like, an efficient dictionary for speech recognition with high speech recognition accuracy without registering useless reading information. It can be adjusted so that
[0015]
In addition, it is preferable that the speech recognition dictionary adjustment device according to the present invention include an update number counting unit that counts the number of times the first speech recognition dictionary has been updated for each group of words. This is because a recognition result having a small number of update times is considered to be likely to be erroneous recognition, so that it is possible to prevent the recognition result from being reflected in the speech recognition dictionary.
[0016]
Further, the speech recognition dictionary adjustment device according to the present invention preferably stores the first speech recognition dictionary for each user. Alternatively, the speech recognition dictionary adjustment device according to the present invention preferably stores the first speech recognition dictionary for each environment used by the user.
[0017]
It is also preferable that the speech recognition dictionary adjustment device according to the present invention uses a plurality of second speech recognition engines.
[0018]
Further, the present invention is characterized by software that executes the function of the above-described dictionary adjustment device for speech recognition as a processing step of a computer, and more specifically, a software for inputting a speech signal emitted by a user. One step, a second step of recognizing the input voice signal using a first voice recognition dictionary configured in a unit of words, and at least a recognition target based on a recognition result in the second step. A third step of extracting a voice signal in units of words and a generation time of the voice signal, and a second voice recognition unit configured for each generation time using a corresponding voice signal for each word. A fourth step of re-recognizing using the dictionary, and a fifth step of storing a set of speech signals in word units and corresponding reading information as a pair of data based on the recognition result in the fourth step. And a sixth step of updating the first dictionary for speech recognition using a pair of stored data, and a method for adjusting the dictionary for speech recognition, and a computer-executable program embodying such a step. There is a feature.
[0019]
With this configuration, by loading and executing the program on a computer, speech recognition processing is performed in units of words to extract speech data in units of words, and thereafter, speech recognition in units of words is performed on speech data corresponding to the words. Again, no unregistered syllables, phonemes, etc. are generated, and the words used by the user can be reliably added to the speech recognition dictionary. In addition, it is possible to realize a speech recognition dictionary adjustment device that can be adjusted to be an efficient speech recognition dictionary with high speech recognition accuracy.
[0020]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a dictionary adjustment device for speech recognition according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a configuration diagram of a speech recognition dictionary adjustment device according to an embodiment of the present invention.
[0021]
In FIG. 1, when a user 11 who inputs voice inputs the word “today's weather” by voice, first, the first voice recognition engine 12 outputs a first voice composed of a group of words. Voice recognition is performed with reference to the recognition dictionary 13.
[0022]
FIG. 2 shows an example of a data configuration of the first speech recognition dictionary 13 in the speech recognition dictionary adjustment device according to the embodiment of the present invention. In the example of FIG. 2, the first speech recognition dictionary 13 is configured as a set of data indicating the correspondence with the reading information for each part of speech of a word. Of course, it is not limited to a part of speech unit.
[0023]
Next, the recognition result extraction unit 14 extracts a word output as a recognition result and a speech signal corresponding to the output word. The extraction of the audio signal is performed by a temporal signal section corresponding to the output word. For example, in the example of FIG. 1, the signal section corresponding to “today” is a section between 10 ms and 200 ms, the signal section corresponding to “no” is a section between 200 ms and 250 ms, and the signal section corresponding to “weather” is A section between 250 ms and 500 ms is extracted.
[0024]
Then, the second speech recognition engine 15 refers to the second speech recognition dictionary 16 composed of one word such as syllables and phonemes, and performs speech recognition for each speech data section in units of reading information. I do. For example, assuming that speech is recognized in units of syllables, in the example of FIG. 1, two syllables “Kyo” and “O” are based on a voice signal in a section between 10 ms and 200 ms corresponding to “Today”. Is recognized by the second speech recognition engine 15.
[0025]
FIG. 3 shows an example of the data configuration of the second speech recognition dictionary 16 in the speech recognition dictionary adjustment device according to the embodiment of the present invention. In the example of FIG. 3, the second speech recognition dictionary 16 is configured as a set of a pair of data indicating a correspondence with reading information in each syllable unit such as “A”, “I”, and “U”. Of course, the present invention is not limited to syllable units, but may be, for example, phoneme units.
[0026]
Then, the recognition result storage unit 17 stores the recognition result by the second voice recognition engine 15 as a pair of data associated with a word corresponding to a voice signal corresponding to a signal section to be recognized. That is, as shown in FIG. 4, "Kyoo" is stored in the recognition result storage unit 17 as reading information for the word "today". Similarly, for all input speech signals, the recognition result by the second speech recognition engine 15 is used as a pair of data associated with a word corresponding to the speech signal corresponding to the signal section to be recognized. Will be saved.
[0027]
Finally, the recognition dictionary updating unit 18 updates the content of the speech recognition dictionary with respect to the first speech recognition dictionary 13 based on the pair of data stored in the recognition result storage unit 17. .
[0028]
Here, as shown in FIG. 5, a plurality of speech recognition engines may be used as the second speech recognition engine 15. In the example of FIG. 5, a third speech recognition engine 19 is further added to the second speech recognition engine 15.
[0029]
The second speech recognition engine 15 and the third speech recognition engine 19 use different acoustic models. Then, while referring to the second speech recognition dictionary 16 composed of single words such as syllables and phonemes, speech recognition is performed for each speech data section in units of reading information.
[0030]
For example, in the example of FIG. 5, for the voice data section associated with the word “temperature”, the second voice recognition engine 15 is “Kyog” and the third voice recognition engine 19 is “Tenki”. When the recognition is performed with different reading information, since the recognition results are different in a plurality of speech recognition engines, it is determined that the recognition result is incorrect, and the first speech recognition dictionary 13 is updated. That is not to do.
[0031]
On the other hand, when the voice data section associated with the word “today” is recognized as “Kyo” by the second voice recognition engine 15 and “Kyo” by the third voice recognition engine 19, Since the recognition results match in a plurality of speech recognition engines, the recognition result is determined to be correct, and the first speech recognition dictionary 13 is updated.
[0032]
When the reading information portion of the recognition result of “Temperature: Tenki” by the third voice recognition engine 19 is checked against the first voice recognition dictionary 13, the reading information portion is already registered. It is conceivable that it matches the pair of data "weather: weather". In such a case, the first voice recognition dictionary 13 may not be updated.
[0033]
In other words, when the first dictionary 13 for speech recognition is updated by the recognition dictionary update unit 18, it is checked whether or not there is any overlap with reading information corresponding to other words existing in the first dictionary 13 for speech recognition. become.
[0034]
FIG. 6A shows an example of the data configuration of the first dictionary for speech recognition 13 in the case of performing such matching, and FIG. 6B shows an example of the data configuration of the recognition result storage unit 17, respectively.
[0035]
As shown in FIG. 6B, for example, “Jiro”, which is a reading information portion of a pair of data “Taro: Jiro” in the recognition result storage unit 17, is already registered in the first voice recognition dictionary 13. It can be detected that it also exists in another pair of data “Jiro: Jiro”. In this case, the pair of data “Taro: Jiro” may be deleted, or “Taro” and “Jiro” may be presented as words having similar reading information.
[0036]
In addition, when the same reading information exists in the first dictionary 13 for speech recognition, for example, as shown in FIG. 6B, “Yamada: ga still” and “Kamata: ga still” are stored in the recognition result storage 17. If two pairs of data exist, both data may be deleted. Alternatively, it is conceivable to determine whether to delete words by verifying whether or not words having the same reading information appear simultaneously in the grammar.
[0037]
Further, when the first dictionary 13 for speech recognition is updated by the recognition dictionary update unit 18, the same pair of data as the pair of data to be updated is included in a pair of data of reading information corresponding to a word already stored. It is also conceivable that the data exists. In this case, the frequency at which the pair of data is stored is totaled, and a pair of data of the word to be added to the first dictionary 13 for speech recognition and the reading information of the word is determined based on the totalized update frequency. It is also possible to do.
[0038]
FIG. 7A shows an example of a data configuration of the first dictionary 13 for speech recognition in the case of performing such matching, and FIG. 7B shows an example of a data configuration of the recognition result storage unit 17, respectively.
[0039]
For example, the pair of data stored in the recognition result storage unit 17 includes six pairs of data whose update frequency is 100 times or more. Of these, the first voice recognition dictionary 13 includes Registering, in the first voice recognition dictionary 13, three pairs of data that are not included, “Today: ky o o”, “Tomorrow: a su ta”, and “Weather: teg ki” become. As described above, only the frequently updated data is set as the target of updating the first voice recognition dictionary 13, so that the result of accidental recognition by mistake is not reflected on the first voice recognition dictionary 13. Therefore, the dictionary can be updated without lowering the speech recognition accuracy of the updated first speech recognition dictionary 13.
[0040]
It is also conceivable that the first voice recognition dictionary 13 is stored for each user. That is, as shown in FIG. 8, a first voice recognition dictionary 13 is formed for each user ID, and the first voice recognition dictionary 13 is recognized by a user ID recognition unit 20 that selects a button in which the user ID is described, for example. The first dictionary for voice recognition 13 is updated for each user ID that has been set.
[0041]
Further, the present invention is not particularly limited to holding for each user. For example, the present invention relates to an environment for inputting audio signals such as a background noise level in a user's use environment, a type of telephone line used, and a type of microphone. A plurality of first speech recognition dictionaries 13 may be provided based on the information.
[0042]
Next, a description will be given of a processing flow of a program for realizing the speech recognition dictionary adjustment device according to the embodiment of the present invention. FIG. 9 shows a flowchart of the processing of a program for realizing the speech recognition dictionary adjustment device according to the embodiment of the present invention.
[0043]
In FIG. 9, first, a user's voice signal is received (step S901), and the first voice recognition engine 12 refers to the first voice recognition dictionary 13 composed of a group of words to generate a voice. Recognition is performed (step S902).
[0044]
Next, a word output as a recognition result and a speech signal corresponding to the output word are extracted as a signal section (step S903). Then, the second speech recognition engine 15 refers to the second speech recognition dictionary 16 composed of one word such as syllables and phonemes, and performs speech recognition for each speech data section in units of reading information. Is performed (step S904).
[0045]
Then, the recognition result by the second speech recognition engine 15 is stored in association with the word corresponding to the speech data to be recognized (step S905), and the contents of the first speech recognition dictionary 13 are stored. The content is updated based on the content (step S906).
[0046]
In the present embodiment, the first speech recognition engine 12 and the second speech recognition engine 15 or the other speech recognition engines to be added may use the same speech recognition engine, or may use different speech recognition engines. A recognition engine may be used. Further, in the present embodiment, the first speech recognition dictionary 13 is updated based only on the reading information determined to be the best, but the first speech recognition dictionary 13 is updated for a plurality of reading information candidates. The dictionary 13 may be updated.
[0047]
As described above, according to the present embodiment, speech data is extracted in units of words by performing speech recognition processing in units of words, and speech recognition is performed again in units of words for speech data corresponding to words. Since unregistered syllables and phonemes do not occur, the words used by the user can be reliably added to the dictionary for speech recognition. It is possible to make adjustments so as to be a highly efficient dictionary for speech recognition.
[0048]
As shown in FIG. 10, the program for realizing the speech recognition dictionary adjustment device according to the embodiment of the present invention includes not only the portable recording medium 102 such as the CD-ROM 102-1 and the flexible disk 102-2 but also the communication The program may be stored in any of the other storage device 101 provided at the end of the line and the recording medium 104 such as the hard disk or RAM of the computer 103. When the program is executed, the program is loaded and stored in the main memory. Executed in
[0049]
Also, as shown in FIG. 10, the first speech recognition dictionary and the second speech recognition dictionary used by the speech recognition dictionary adjusting device according to the embodiment of the present invention also have the CD-ROM 102-1. And any other storage device 101 provided at the end of the communication line, or a storage medium 104 such as a hard disk or a RAM of the computer 103, as well as the portable storage medium 102 such as the hard disk and the flexible disk 102-2. For example, it is read by the computer 103 when the speech recognition dictionary adjustment device according to the present invention is used.
[0050]
(Supplementary Note 1) An audio signal input unit for inputting an audio signal emitted by the user;
A first voice recognition unit that recognizes the input voice signal using a first voice recognition dictionary configured in a unit of words;
An audio signal information extraction unit that extracts an audio signal in units of words and a generation time of the audio signal, which are at least recognition targets, from a recognition result in the first audio recognition unit;
For each occurrence time, a second speech recognition unit that recognizes again using a second speech recognition dictionary configured for each word using the corresponding speech signal,
A recognition result storage unit for storing the speech signal in units of words and corresponding reading information as a pair of data based on a recognition result in the second speech recognition unit. Dictionary adjustment device.
[0051]
(Supplementary Note 2) The speech recognition dictionary adjustment device according to supplementary note 1, further comprising a recognition dictionary updating unit that updates the first speech recognition dictionary using the stored pair of data.
[0052]
(Supplementary Note 3) The speech recognition dictionary adjustment device according to Supplementary Note 1 or 2, further including an update count totalizing unit that counts the number of times the first speech recognition dictionary has been updated for each of the set of words.
[0053]
(Supplementary note 4) The speech recognition dictionary adjustment device according to supplementary note 1 or 2, wherein the first speech recognition dictionary is stored for each user.
[0054]
(Supplementary note 5) The speech recognition dictionary adjustment device according to Supplementary note 1 or 2, wherein the first speech recognition dictionary is stored for each environment used by the user.
[0055]
(Supplementary note 6) The speech recognition dictionary adjustment device according to Supplementary note 1 or 2, wherein a plurality of the second speech recognition engines are used.
[0056]
(Supplementary Note 7) A first step of inputting a voice signal emitted by the user;
A second step of recognizing the input voice signal using a first voice recognition dictionary configured in a group of words;
A third step of extracting the generation time of the voice signal and the voice signal in the unit of words that have been at least the recognition target from the recognition result in the second step,
For each occurrence time, a fourth step of re-recognizing using a second dictionary for speech recognition configured on a word-by-word basis using the corresponding speech signal;
A fifth step of storing, based on the recognition result in the fourth step, the group of word-unit speech signals and corresponding reading information as a pair of data, a fifth step of speech dictionary adjustment. Method.
[0057]
(Supplementary Note 8) A first processing step of inputting a voice signal emitted by a user;
A second processing step of recognizing the input voice signal by using a first voice recognition dictionary configured in a unit of words;
A third processing step of extracting the generation time of the voice signal and the voice signal in the unit of words that have been at least the recognition target from the recognition result in the second processing step,
For each occurrence time, a fourth processing step of re-recognizing using the second speech recognition dictionary configured for each word using the corresponding speech signal,
And a fifth processing step of storing, based on the recognition result in the fourth processing step, the set of speech signals in units of words and corresponding reading information as a pair of data. A computer-executable program characterized by the following:
[0058]
【The invention's effect】
As described above, according to the dictionary adjustment device for speech recognition according to the present invention, speech data is extracted in units of words by performing speech recognition processing in units of words, and then speech data in units of words is extracted for speech data corresponding to the words. By re-recognizing, unregistered syllables and phonemes do not occur, and words used by the user can be reliably added to the dictionary for speech recognition. In addition, it is possible to make an adjustment so as to be an efficient speech recognition dictionary with high speech recognition accuracy.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a speech recognition dictionary adjustment device according to an embodiment of the present invention; FIG. 2 is a data configuration of a first speech recognition dictionary in the speech recognition dictionary adjustment device according to the embodiment of the present invention; FIG. 3 is a diagram illustrating a data configuration example of a second speech recognition dictionary in the speech recognition dictionary adjustment device according to the embodiment of the present invention. FIG. 4 is a speech recognition dictionary adjustment according to the embodiment of the present invention. FIG. 5 is a diagram illustrating an example of a data configuration of a recognition result storage unit in the apparatus. FIG. 5 is another configuration diagram of a speech recognition dictionary adjustment device according to an embodiment of the present invention. FIG. 6 is a speech recognition dictionary according to an embodiment of the present invention. FIG. 7 is a diagram illustrating an example of a data configuration of a first dictionary for speech recognition and a recognition result storage unit in the adjustment device. FIG. 7 is a diagram illustrating a first dictionary for speech recognition and storage of recognition results in the speech recognition dictionary adjustment device according to the embodiment of the present invention. Data structure of division FIG. 8 is another configuration diagram of the speech recognition dictionary adjustment device according to the embodiment of the present invention. FIG. 9 is a flowchart of processing in the speech recognition dictionary adjustment device according to the embodiment of the present invention. ] Illustration of computer environment [Explanation of reference numerals]
11 User 12 First Speech Recognition Engine 13 First Speech Recognition Dictionary 14 Recognition Result Extraction Unit 15 Second Speech Recognition Engine 16 Second Speech Recognition Dictionary 17 Recognition Result Storage Unit 18 Recognition Dictionary Update Unit 19 3 voice recognition engine 20 user ID recognition unit 101 line storage device 102 portable recording medium 102-1 such as CD-ROM or flexible disk CD-ROM
102-2 Flexible disk 103 Computer 104 Recording medium such as RAM / hard disk on computer

Claims (6)

利用者の発する音声信号を入力する音声信号入力部と、
入力された前記音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第1の音声認識部と、
前記第1の音声認識部における認識結果から少なくとも認識対象となった前記ひとまとまりの言葉単位の音声信号と前記音声信号の発生時間を抽出する音声信号情報抽出部と、
前記発生時間ごとに、対応する前記音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第2の音声認識部と、
前記第2の音声認識部における認識結果に基づいて、前記ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する認識結果保存部とを含むことを特徴とする音声認識用辞書調整装置。
An audio signal input unit for inputting an audio signal emitted by the user;
A first voice recognition unit that recognizes the input voice signal using a first voice recognition dictionary configured in a unit of words;
An audio signal information extraction unit that extracts an audio signal in units of words and a generation time of the audio signal, which are at least recognition targets, from a recognition result in the first audio recognition unit;
For each occurrence time, a second speech recognition unit that recognizes again using a second speech recognition dictionary configured for each word using the corresponding speech signal,
A recognition result storage unit for storing the speech signal in units of words and corresponding reading information as a pair of data based on a recognition result in the second speech recognition unit. Dictionary adjustment device.
保存されている前記一対のデータを用いて前記第1の音声認識用辞書を更新する認識辞書更新部をさらに含む請求項1に記載の音声認識用辞書調整装置。The apparatus for adjusting a dictionary for speech recognition according to claim 1, further comprising a recognition dictionary updating unit that updates the first dictionary for speech recognition using the stored pair of data. 前記第1の音声認識用辞書を前記利用者ごとに保存する請求項1又は2に記載の音声認識用辞書調整装置。The speech recognition dictionary adjustment device according to claim 1, wherein the first speech recognition dictionary is stored for each user. 前記第2の音声認識エンジンを複数個使用する請求項1又は2に記載の音声認識用辞書調整装置。3. The speech recognition dictionary adjusting device according to claim 1, wherein a plurality of said second speech recognition engines are used. 利用者の発する音声信号を入力する第一の工程と、
入力された前記音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第二の工程と、
前記第二の工程における認識結果から少なくとも認識対象となった前記ひとまとまりの言葉単位の音声信号と前記音声信号の発生時間を抽出する第三の工程と、
前記発生時間ごとに、対応する前記音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第四の工程と、
前記第四の工程における認識結果に基づいて、前記ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する第五の工程とを含むことを特徴とする音声認識用辞書調整方法。
A first step of inputting a voice signal emitted by the user,
A second step of recognizing the input voice signal using a first voice recognition dictionary configured in a group of words;
A third step of extracting the generation time of the voice signal and the voice signal in the unit of words that have been at least the recognition target from the recognition result in the second step,
For each occurrence time, a fourth step of re-recognizing using a second dictionary for speech recognition configured on a word-by-word basis using the corresponding speech signal;
A fifth step of storing, based on the recognition result in the fourth step, the group of word-unit speech signals and corresponding reading information as a pair of data, a fifth step of speech dictionary adjustment. Method.
利用者の発する音声信号を入力する第一の処理ステップと、
入力された前記音声信号をひとまとまりの言葉単位に構成された第1の音声認識用辞書を用いて認識する第二の処理ステップと、
前記第二の処理ステップにおける認識結果から少なくとも認識対象となった前記ひとまとまりの言葉単位の音声信号と前記音声信号の発生時間を抽出する第三の処理ステップと、
前記発生時間ごとに、対応する前記音声信号を用いて一語単位に構成された第2の音声認識用辞書を用いて再度認識する第四の処理ステップと、
前記第四の処理ステップにおける認識結果に基づいて、前記ひとまとまりの言葉単位の音声信号と対応する読み情報を一対のデータとして保存する第五の処理ステップとを含む音声認識用辞書調整方法を具現化することを特徴とするコンピュータ実行可能なプログラム。
A first processing step of inputting an audio signal emitted by the user;
A second processing step of recognizing the input voice signal by using a first voice recognition dictionary configured in a unit of words;
A third processing step of extracting the generation time of the voice signal and the voice signal in the unit of words that have been at least the recognition target from the recognition result in the second processing step,
For each occurrence time, a fourth processing step of re-recognizing using the second speech recognition dictionary configured for each word using the corresponding speech signal,
And a fifth processing step of storing, based on the recognition result in the fourth processing step, the set of speech signals in units of words and corresponding reading information as a pair of data. A computer-executable program characterized by the following:
JP2002304970A 2002-10-18 2002-10-18 Dictionary adjustment apparatus and method for speech recognition Expired - Fee Related JP3992586B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002304970A JP3992586B2 (en) 2002-10-18 2002-10-18 Dictionary adjustment apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002304970A JP3992586B2 (en) 2002-10-18 2002-10-18 Dictionary adjustment apparatus and method for speech recognition

Publications (2)

Publication Number Publication Date
JP2004138914A true JP2004138914A (en) 2004-05-13
JP3992586B2 JP3992586B2 (en) 2007-10-17

Family

ID=32452233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002304970A Expired - Fee Related JP3992586B2 (en) 2002-10-18 2002-10-18 Dictionary adjustment apparatus and method for speech recognition

Country Status (1)

Country Link
JP (1) JP3992586B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175869A (en) * 2009-01-30 2010-08-12 Fujitsu Ltd Device and method for creation of speech recognition dictionary
WO2016006038A1 (en) * 2014-07-08 2016-01-14 三菱電機株式会社 Voice recognition system and voice recognition method
JP2017072725A (en) * 2015-10-07 2017-04-13 Necソリューションイノベータ株式会社 Generator, generation method, generation program, and recognition system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175869A (en) * 2009-01-30 2010-08-12 Fujitsu Ltd Device and method for creation of speech recognition dictionary
WO2016006038A1 (en) * 2014-07-08 2016-01-14 三菱電機株式会社 Voice recognition system and voice recognition method
CN106663421A (en) * 2014-07-08 2017-05-10 三菱电机株式会社 Voice recognition system and voice recognition method
US10115394B2 (en) 2014-07-08 2018-10-30 Mitsubishi Electric Corporation Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results
JP2017072725A (en) * 2015-10-07 2017-04-13 Necソリューションイノベータ株式会社 Generator, generation method, generation program, and recognition system

Also Published As

Publication number Publication date
JP3992586B2 (en) 2007-10-17

Similar Documents

Publication Publication Date Title
JP3967952B2 (en) Grammar update system and method
JP5480760B2 (en) Terminal device, voice recognition method and voice recognition program
KR101932181B1 (en) Speech recognition using device docking context
TWI427620B (en) A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system
US8423351B2 (en) Speech correction for typed input
KR101590724B1 (en) Method for modifying error of speech recognition and apparatus for performing the method
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP2007213005A (en) Recognition dictionary system and recognition dictionary system updating method
JP3834169B2 (en) Continuous speech recognition apparatus and recording medium
CN108630200B (en) Voice keyword detection device and voice keyword detection method
CN108074562B (en) Speech recognition apparatus, speech recognition method, and storage medium
JP5753769B2 (en) Voice data retrieval system and program therefor
JP2016062069A (en) Speech recognition method and speech recognition apparatus
CN111462748A (en) Voice recognition processing method and device, electronic equipment and storage medium
JP5160594B2 (en) Speech recognition apparatus and speech recognition method
JP6391925B2 (en) Spoken dialogue apparatus, method and program
JP2010048890A (en) Client device, recognition result feedback method, recognition result feedback program, server device, method and program of updating model of voice recognition, voice recognition system, voice recognition method, voice recognition program
JP2004138914A (en) Device and method for adjusting dictionary for voice recognition
US20230117535A1 (en) Method and system for device feature analysis to improve user experience
KR20120046627A (en) Speaker adaptation method and apparatus
JP2009086063A (en) Speech recognition device and computer program
JP4877112B2 (en) Voice processing apparatus and program
JP6988680B2 (en) Voice dialogue device
KR102217621B1 (en) Apparatus and method of correcting user utterance errors
JP4445371B2 (en) Recognition vocabulary registration apparatus, speech recognition apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070724

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100803

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110803

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120803

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120803

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130803

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees