JP4189336B2 - 音声情報処理システム、音声情報処理方法及びプログラム - Google Patents

音声情報処理システム、音声情報処理方法及びプログラム Download PDF

Info

Publication number
JP4189336B2
JP4189336B2 JP2004049749A JP2004049749A JP4189336B2 JP 4189336 B2 JP4189336 B2 JP 4189336B2 JP 2004049749 A JP2004049749 A JP 2004049749A JP 2004049749 A JP2004049749 A JP 2004049749A JP 4189336 B2 JP4189336 B2 JP 4189336B2
Authority
JP
Japan
Prior art keywords
kana
correction
character string
dictionary
kanji character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004049749A
Other languages
English (en)
Other versions
JP2005241829A (ja
Inventor
尚義 永江
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004049749A priority Critical patent/JP4189336B2/ja
Publication of JP2005241829A publication Critical patent/JP2005241829A/ja
Application granted granted Critical
Publication of JP4189336B2 publication Critical patent/JP4189336B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、音声で文章の入力を行うことを目的とした音声情報処理システム、音声情報処理方法及びプログラムに関する。
近年、音声で日本語の文章を入力することができる日本語ディクテーションシステムが実用化され、様々な分野で実用システムとして利用され始めている。システムが音声認識可能な語彙数も数万〜十数万語程度と相当大量になってきた。しかし、現実には固有名詞や個々のユーザ特有の単語、日々作られる造語を事前にすべてシステムの辞書に登録しておくことは不可能である。一方、これらの単語が辞書に未登録の状態のままでは、ユーザがどんなに丁寧に発声しても、音声認識システムはその単語を正しく認識することができない。現在のシステムでは、これらの未登録単語は、ユーザ単語という形で音声認識システムが参照する認識語彙辞書に追加登録することで対処している。
ユーザ単語の辞書登録は、通常、「表記」「読み(あるいは発音)」「品詞」をユーザが入力・指定して辞書登録ボタンを押すという作業をすることで実現される。一般的には1つの単語ごとに上記3つ組の情報を入力して1語ずつユーザ単語を辞書登録していくことになる。
なお、従来の音声認識技術については、例えば非特許文献12に詳しく開示されている。
「情報処理学会誌」、2000年4月号(Vol.41 No.04)、pp.436−439、特集名:道しるべ、題目:ここまできた音声認識技術、執筆者:河原達也(京都大学 情報学研究科)
年々音声認識システムの性能は向上してきているが認識率は100%ではない。そのため、システムが誤認識したときには、誤認識した箇所をユーザが再度発声し直したり、キーボード等の入力作業によって修正する必要がある。誤認識の主たる原因はユーザが入力した単語が認識語彙辞書に登録されていないためである。したがって、誤認識した単語をユーザ単語として辞書登録すればそれ以降は誤認識しないようにすることができる。しかし、文章を考えながらテキスト入力している最中に誤認識が発生する度にその入力作業や文章の推敲を中断してユーザ単語登録作業を実施することは非常に煩わしい。その結果、多くのユーザはユーザ単語登録作業を実施せずにキーボード等を使用して誤認識の訂正作業だけをその場で実施しているのが現状である。ただ、これではユーザが入力したかった単語は未登録のままなので、それ以降の文章入力時に同じ単語をユーザが発声すると音声認識システムはまた同じ誤認識をし、ユーザが同様の訂正作業を繰り返し行わなければならない。
本発明は、上記事情を考慮してなされたもので、ユーザが単語登録をせずとも同じ訂正を繰り返さなくてすむようにした音声情報処理システム、音声情報処理方法及びプログラムを提供することを目的とする。
本発明に係る音声情報処理システムは、処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第1の辞書データを複数登録した認識語彙辞書と、音声を入力する手段と、入力した前記音声をもとにして仮名文字列を生成する手段と、前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成手段と、生成された前記仮名漢字文字列を表示画面に表示する表示手段と、表示された前記仮名漢字文字列に対する訂正を受け付ける受付手段と、前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成手段と、生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録手段と、生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第2の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成手段と、生成された前記基準データを前記第2の辞書データに対応付けて記憶する記憶手段とを備え、前記仮名漢字文字列生成手段は、前記認識語彙辞書と前記特定の辞書に登録されている前記第2の辞書データとのいずれも適用可能な場合には、該第2の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第2の辞書データを適用すると判断されたときにのみ、該第2の辞書データに基づいて前記生成を行うことを特徴とする。
本発明では、入力音声を認識処理して生成された仮名漢字文字列に対してユーザが実施した訂正操作を監視し、当該仮名文字列と当該訂正に関する情報とを含む辞書データとして特定の辞書へ辞書登録する。これによりユーザが単語登録作業をしなくても、次回以降の言語処理時に通常の認識語彙辞書に加えて当該辞書データが併用できるので、次回以降同じ仮名漢字文字列を入力した際にシステムが正しく認識できるようになるため、ユーザは同様の訂正操作を繰り返し実施しなくてすむようになる。
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手段を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
本発明によれば、ユーザが単語登録をせずとも同じ訂正を繰り返さなくてすむようになる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
図1に、本発明の第1の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
図1に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、訂正単語辞書登録部104、訂正単語辞書併用型音声認識部105、訂正単語辞書106、認識語彙辞書107を備えている。
認識語彙辞書107は、「表記」「読み」「品詞」などの情報の組からなる単語情報を複数登録したものである。
音声入力部101は、ユーザ(100)からの入力音声データ(200)を受け付ける部分である。
訂正単語辞書併用型音声認識部105は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。
訂正結果生成部102は、訂正単語辞書併用型音声認識部105が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作202とから、訂正範囲を特定し、音声認識結果中における訂正位置と訂正結果文字列とで構成される訂正結果情報(203)を生成する。ここで、ユーザが実施できる訂正操作には、音声による再入力だけでなく、キーボード、マウス、ペン等の文字情報を入力するすべての入力デバイスを使用することができる。また、訂正操作の際にこれらのデバイスを複数組み合わせても構わない。
訂正単語生成部103は、音声入力部101が受け取った入力音声(200)の発音列と訂正結果生成部102が生成した訂正結果情報(203)とを組にした訂正単語(204)を生成する。なお、ここでは、生成単位を単語と呼んでいるが、登録する文字列は句や短文でも構わない。また、登録文字列に関して、制限は無い。
訂正単語辞書登録部104は、訂正単語生成部103が生成した訂正単語(204)を訂正単語辞書106に登録する。
訂正単語辞書併用型音声認識部105は、訂正単語辞書106と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。なお、訂正単語の読み(入力音声の発音列)が認識語彙辞書の単語と重複するものについては、例えば、訂正単語を優先する、両方の単語を提示してユーザに選択させるなど、既存の方法を採用して構わない。
図2に、本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例を示す。
ユーザからの入力を受け付け(ステップS1)、これが認識対象の入力ならば(ステップS2)、認識処理を行い(ステップS3)、認識結果を出力する(ステップS4)。他方、入力が訂正のためのものであるならば(ステップS2)、訂正情報(本実施形態では、訂正結果情報)を生成し(ステップS5)、訂正情報に基づいて辞書登録(本実施形態では、訂正単語の訂正単語辞書への登録)を行う(ステップS6)。
従来の音声認識システムでは、未登録単語は、ユーザが認識語彙辞書に追加登録をしない限りは、その後も常に誤認識し続ける。しかし、本実施形態の音声認識システムでは、誤認識した際にユーザが訂正操作を行い、その操作結果が訂正単語として訂正単語辞書に自動登録されると、従来の認識語彙辞書だけを使用したときには、誤認識し続けた箇所でも、ユーザが以前実施した訂正操作が適用されて、正しく認識されるようになる。
以下では、図3を参照しながら具体例を用いて本実施形態につき説明する。
図3は、訂正結果生成部102、訂正単語生成部103、訂正単語辞書登録部104の動作とその過程で作成される訂正結果情報(203)、訂正単語(204)の具体例を示したものである。
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書107に登録されていなかったとする。
なお、図3において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。
このとき、本音声認識システムは、次のような誤認識をすることになる(S11)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは次のような訂正操作(A)を実施する。
訂正操作(A):
(i)カーソルを「最新」の右に移動
(ii)直前2文字「最新」を削除
(iii)「くだく しんたい」と発声
(iv)認識結果の「砕く身体」のうち「く」「体」を削除
(v)カーソルを文末に移動して次の発声の準備をする
なお、本実施形態では、訂正操作時に文字列を入力するために音声入力を使用しているが、これはキーボード等による文字入力であっても構わない。
上記の操作による訂正結果は、次のようになる(S12)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から訂正結果生成部102は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報(203)として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報(203)とから、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。
訂正単語辞書登録部104は、この訂正単語を訂正単語辞書106に登録する(S13)。
以降、訂正単語辞書併用型音声認識部105は、この訂正単語が登録された訂正単語辞書106と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに、「さいしん」の入力部分で訂正単語辞書が参照されることにより、「砕身」という表記が表示される(S14)。
従来の方法では、ユーザが「砕身:さいしん」という単語を辞書登録しない限り、何度でも「粉骨最新」と誤認識を繰り返すが、本実施形態によれば、1回だけユーザが訂正作業を実施すると、それ以降は同様の誤認識しないようになる。なお、訂正作業は本音声認識システムが誤認識したときにユーザが自然に行っている作業であるため、ユーザに対して新たな手間や負荷を与えることはない。
(第2の実施形態)
図4に、本発明の第2の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
図4に示されるように、本音声認識システムは、音声入力部101、認識語彙辞書107、訂正手順生成部108、訂正マクロ生成部109、訂正マクロ辞書登録部110、訂正マクロ辞書併用型音声認識部111、訂正マクロ辞書112を備えている。なお、図1と同様の部分には同じ符号を付してある。
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。
以下では、第1の実施形態と相違する点を中心に説明する。
訂正マクロ辞書併用型音声認識部111は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。
訂正手順生成部108は、訂正マクロ辞書併用型音声認識部111が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正操作手順を表す訂正手順(206)を生成する。
訂正マクロ生成部109は、音声入力部101が受け取った入力音声(200)の発音列と訂正手順生成部108が生成した訂正手順(206)とを組にした訂正マクロ(207)を生成する。
訂正マクロ辞書登録部110は、訂正マクロ生成部109が生成した訂正マクロ(207)を訂正マクロ辞書112に登録する。
訂正マクロ辞書併用型音声認識部111は、訂正マクロ辞書112と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。なお、訂正マクロの読み(入力音声の発音列)が認識語彙辞書の単語と重複するものについては、例えば、訂正マクロを優先する、訂正マクロに係る単語と認識語彙辞書に係る単語との両方を提示してユーザに選択させるなど、既存の方法を採用して構わない。
以下では、図5を参照しながら具体例を用いて本実施形態につき説明する。
図5は、訂正手順生成部108、訂正マクロ生成部109、訂正マクロ辞書登録部110の動作とその過程で作成される訂正手順(206)、訂正マクロ(207)の具体例を示したものである。
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。
なお、図5において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。
このとき、本音声認識システムは、次のような誤認識をすることになる(S21)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
この操作による訂正結果は、次のようになる(S22)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正手順生成部108は、「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、訂正手順206として「訂正位置:認識結果中の『最新』、訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」を出力する。
そして、訂正マクロ生成部109は、入力音声と訂正手順生成部108が生成した訂正手順206とから、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」とを対応付けて、「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」という訂正マクロ207を生成する。
訂正マクロ辞書登録部110は、この訂正マクロを訂正マクロ辞書112に登録する(S23)。
以降、訂正マクロ辞書併用型音声認識部111は、この訂正マクロが登録された訂正マクロ辞書112と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに、「さいしん」の入力部分で訂正マクロ辞書が参照されることにより、『「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除』という訂正操作が自動実行され、最終的に「砕身」という表記が表示される。
なお、訂正マクロに割り当てる「読み」は、訂正前の入力音声の訂正箇所の発声列でなくてもよい。例えば、訂正操作時に入力した発声列を「読み」として割り当ててもよい。上例で説明すると、「くだく しんたい」という訂正操作時の発声列を割り当てることを考える。このとき、「ふんこつさいしんどりょくします」と入力すると、「粉骨最新努力します。」と誤認識することになるが、ここで、「くだく しんたい」と発声すると、訂正マクロが実行され、直前の認識結果中の「最新」という文字列を「砕身」に置き換える。従来であればカーソル移動や余分な文字列の削除が必要であったが、本実施形態によりユーザのこれらの手間を排除することが可能になる。
また、上記の例では訂正マクロと通常の音声認識単語とを区別しないで扱っているが、訂正マクロの前あるいは後ろに予約語(例えば「訂正マクロ」という語)を発声する規則にしてもよい。例えば、上記の例で説明すると「訂正マクロ くだく しんたい」と発声したときのみ、直前の認識結果中の「最新」という文字列を「砕身」に置き換える。これにより、通常の音声入力時に誤って訂正マクロが実行されるのを避けることができる。
(第3の実施形態)
図6に、本発明の第3の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
図6に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、認識語彙辞書107、ユーザ単語辞書登録自動起動部113、ユーザ単語辞書併用型音声認識部114、ユーザ辞書115を備えている。なお、図1と同様の部分には同じ符号を付してある。
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。
以下では、第1の実施形態と相違する点を中心に説明する。
ユーザ辞書115は、認識語彙辞書107と同様、「表記」「読み」「品詞」などの情報の組からなる単語情報を複数登録したものである。従来と同様、認識語彙辞書107は、一般的な辞書であるのに対して、ユーザ辞書115は、当該ユーザがユーザ単語(108)を適宜辞書登録するものである。
ユーザ単語辞書併用型音声認識部114は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。
ユーザ単語辞書登録自動起動部113は、訂正単語成部103が生成した訂正単語(204)を、ユーザ単語(108)としてユーザ辞書115に登録するための作業を実行する。例えば、ユーザ単語登録画面を表示し、登録に必要な「表記」「読み」「品詞」の情報を訂正単語(204)から生成して代入しておく。なお、このユーザ単語に代入する「品詞」については、例えば、訂正対象となったもとの単語の品詞と同じ品詞としておく方法や、画一的に「名詞」としておく方法など、種々の方法がある。ここで、ユーザは登録内容を確認できる。登録内容に問題が無ければ登録ボタンを押すだけでよい。もし、修正が必要なら適宜修正を行ってからユーザ単語を辞書に登録する。
ユーザ単語辞書併用型音声認識部114は、ユーザ辞書115と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。なお、ユーザ単語の読み(入力音声の発音列)が認識語彙辞書の単語と重複するものについては、例えば、ユーザ単語を優先する、両方の単語を提示してユーザに選択させるなど、既存の方法を採用して構わない。
以下では、図7を参照しながら具体例を用いて本実施形態につき説明する。
図7は、訂正結果生成部102、訂正単語生成部103、ユーザ単語辞書登録自動起動部113の動作とその過程で作成される訂正結果情報(203)、訂正単語(204)の具体例を示したものである。
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。
なお、図7において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。
このとき、本音声認識システムは、次のような誤認識をすることになる(S31)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
この操作による訂正結果は、次のようになる(S32)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部102は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報203として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報203から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。
ユーザ単語辞書登録自動起動部113は、この訂正単語をユーザ単語208としてユーザ単語辞書115に登録する(S34)。ここで、ユーザ単語辞書に登録する前にユーザに確認画面を出し、登録内容を修正できるようにすることも可能である(S33)。
ユーザ単語辞書併用型音声認識部114は、このユーザ単語が登録されたユーザ単語辞書106と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに「さいしん」の入力部分でユーザ単語辞書が参照されることにより、「砕身」という表記が表示される。
従来の方法では、ユーザが「砕身:さいしん」というユーザ単語を辞書登録するためには、「表記:砕身」「読み:さいしん」「品詞:名詞」をすべて指定しなければならなかった。本実施形態によれば、ユーザの訂正操作の内容からユーザ単語登録に必要な情報を自動的に抽出することができるため、簡便にユーザ単語を登録することが可能になる。これにより、ユーザは「表記」「読み」「品詞」をすべて1から入力し直す手間から開放され、通常のユーザ単語登録を実施する場合と比較して、ユーザ単語登録の煩わしさが大幅に低減される。
(第4の実施形態)
図8に、本発明の第4の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
図8に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、訂正単語辞書登録部104、訂正単語辞書106、認識語彙辞書107、前後関係抽出部120、訂正単語前後関係表登録部121、訂正単語辞書及び前後関係表併用型音声認識部122、訂正単語前後関係表123を備えている。なお、図1と同様の部分には同じ符号を付してある。
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。
以下では、第1の実施形態と相違する点を中心に説明する。
訂正単語辞書及び前後関係表併用型音声認識部122は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。
前後関係抽出部120は、訂正単語辞書及び前後関係表併用型音声認識部122が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正箇所の前後関係の情報(220)を抽出する。
訂正単語前後関係表登録部121は、訂正単語辞書登録部104が登録した訂正単語204と前後関係抽出部120が生成した訂正箇所の前後関係の情報(220)とを組にして訂正単語の前後関係の情報(221)を生成し、訂正単語前後関係表123に登録する。
訂正単語辞書及び前後関係表併用型音声認識部122は、訂正単語辞書106及び訂正単語前後関係表123と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。
第1の実施形態では、訂正単語の読みが認識語彙辞書の単語と重複する場合がある。例えば、この場合に常に訂正単語を優先させる方法を採用すると、一例として「最新の部署では粉骨砕身努力します。」という文章を入力するために、「さいしんのぶしょではふんこつさいしんどりょくします」と発声したとき、「さいしん」のところで必ず訂正単語が採用され、「砕身の部署では粉骨砕身努力します。」と誤認識してしまう、というようなケースが生じ得る。
そこで、本実施形態では、訂正単語の辞書登録時に訂正単語の前後関係を抽出し、訂正単語前後関係表として管理する。そして、入力音声が訂正単語と認識語彙との双方の読みと一致したときは、訂正単語の前後の単語と訂正単語前後関係表とを比較して訂正単語、認識語彙のいずれか適切な方を選択する。
以下では、図9を参照しながら具体例を用いて本実施形態につき説明する。
図9は、前後関係抽出部120、訂正単語前後関係表登録部121、訂正単語及び前後関係表併用型音声認識部122の動作とその過程で作成される訂正箇所の前後関係の情報(220)、訂正単語の前後関係の情報(221)の具体例を示したものである。
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。
なお、図9において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。
このとき、本音声認識システムは、次のような誤認識をすることになる(S41)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
この操作による訂正結果は、次のようになる(S42)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部102は「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報203として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
これと同時に、ユーザの訂正操作202と音声認識結果201から、前後関係抽出部120は、「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係220として「訂正位置:前=『粉骨』、後=『努力』」を出力する。
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報203から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。訂正単語辞書登録部104は、この訂正単語を訂正単語辞書106に登録する(S43)。
一方、訂正単語前後関係表登録部121は、訂正単語辞書登録部104が登録した訂正単語204の「表記:砕身、読み:さいしん」と訂正箇所の前後関係220の「訂正位置:前=『粉骨』、後=『努力』」から、「表記:砕身、読み:さいしん」:前=『粉骨』、後=『努力』という訂正単語前後関係221を生成し、訂正単語前後関係表123に登録する(S44)。
訂正単語辞書及び前後関係表併用型音声認識部122は、この訂正単語辞書106と訂正単語前後関係表123と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、1番目の「さいしん」の部分では、前後関係が訂正単語登録時と異なるために、訂正単語辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される(S45,S46)。一方、2番目の「さいしん」の部分では、前後の単語が訂正単語前後関係表の単語と一致しているため、訂正単語辞書の方が参照されることになり、「砕身」という表記が表示される(S45,S46)。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される(S47)。
このように、訂正単語辞書を使用する場合に登録時の訂正単語の前後関係を考慮することにより、適切な箇所にだけ訂正単語を当てはめることができるようになる。
なお、本実施形態では、前後関係として訂正単語の前、後ろを使用したが、どちらか一方だけを使用するようにしても構わない。また、本実施形態では、前後関係として使用する範囲が前、後ろともに1単語であったが、これも2単語以上のより長い単語列を使用しても構わない。また、本実施形態では、前後関係として保持する対象が単語になっているが、単語の代わりに品詞等の単語に付随した情報を使用しても構わない。また、前後関係表との一致度を判定する方法として、前後関係表中に訂正単語の前後の単語が存在するか否かだけでなく、確率値を使用する判定法でも構わない。
(第5の実施形態)
本発明の第5の実施形態は、第4の実施形態の前後関係の情報を考慮する構成を、第2の実施形態に適用したものである。第4の実施形態で示した、前後関係の情報を考慮する構成に関する効果やバリエーションは、本実施形態にも妥当する。
図10に、本発明の第5の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
図10に示されるように、本音声認識システムは、音声入力部101、認識語彙辞書107、訂正手順生成部108、訂正マクロ生成部109、訂正マクロ辞書登録部110、訂正マクロ辞書112、前後関係抽出部120、訂正マクロ前後関係表登録部124、訂正マクロ辞書及び前後関係表併用型音声認識部125、訂正マクロ前後関係表126を備えている。なお、図4と同様の部分には同じ符号を付してある。
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。
以下では、第2の実施形態と相違する点を中心に説明する。
訂正マクロ辞書及び前後関係表併用型音声認識部125は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。
前後関係抽出部120は、訂正マクロ辞書及び前後関係表併用型音声認識部125が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正箇所の前後関係の情報(220)を抽出する。
訂正マクロ前後関係表登録部124は、訂正マクロ辞書登録部110が登録した訂正マクロ(207)と前後関係抽出部120が生成した訂正箇所の前後関係の情報(220)とを組にして訂正マクロの前後関係の情報(222)を生成し、訂正マクロ前後関係表126に登録する。
訂正マクロ辞書及び前後関係表併用型音声認識部125は、訂正マクロ辞書112及び訂正マクロ前後関係表126と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。
以下では、図11を参照しながら具体例を用いて本実施形態につき説明する。
図11は、前後関係抽出部120、訂正マクロ前後関係表登録部124、訂正マクロ及び前後関係表併用型音声認識部125の動作とその過程で作成される訂正箇所の前後関係の情報(220)、訂正マクロの前後関係の情報(222)の具体例を示したものである。
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。
なお、図11において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。
このとき、本音声認識システムは、次のような誤認識をすることになる(S51)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
この操作による訂正結果は次のようになる(S52)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正手順生成部108は「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、訂正手順206として「訂正位置:認識結果中の『最新』、訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」を出力する。
これと同時に、ユーザの訂正操作202と音声認識結果201とから前後関係抽出部120は、「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係220として「訂正位置:前=『粉骨』、後=『努力』」を出力する。
そして、訂正マクロ生成部109は、入力音声と訂正手順生成部108が生成した訂正手順206から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」とを対応付けて、「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」という訂正マクロ207を生成する。訂正マクロ辞書登録部110は、この訂正マクロを訂正マクロ辞書112に登録する(S53)。
一方、訂正マクロ前後関係表登録部124は、訂正マクロ辞書登録部110が登録した訂正マクロ207の「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」と訂正箇所の前後関係220の「訂正位置:前=『粉骨』、後=『努力』」から、「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」:前=『粉骨』、後=『努力』という訂正マクロ前後関係222を生成し、訂正マクロ前後関係表126に登録する(S54)。
訂正マクロ辞書及び前後関係表併用型音声認識部125は、この訂正マクロ辞書112と訂正マクロ前後関係表126と認識語彙辞書107を併用して音声認識する。その結果、次回、ユーザが「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、1番目の「さいしん」の部分では、前後関係が訂正マクロ登録時と異なるために、訂正マクロ辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される(S55,S56)。一方、2番目の「さいしん」の部分では、前後の単語が訂正マクロ前後関係表の単語と一致しているため、訂正マクロ辞書の方が参照されることになり、『「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除』という訂正操作が自動実行され、最終的に「砕身」という表記が表示される(S55,S56)。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される(S57)。
このように、訂正マクロ辞書を使用する場合に登録時の訂正マクロの前後関係を考慮することにより、適切な箇所にだけ訂正マクロを当てはめることができるようになる。
(第6の実施形態)
本発明の第6の実施形態は、第4の実施形態の前後関係の情報を考慮する構成を、第3の実施形態に適用したものである。第4の実施形態で示した、前後関係の情報を考慮する構成に関する効果やバリエーションは、本実施形態にも妥当する。
図12に、本発明の第6の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
図12に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、認識語彙辞書107、ユーザ単語辞書登録自動起動部113、ユーザ辞書115、前後関係抽出部120、ユーザ単語前後関係表登録部127、ユーザ単語辞書及び前後関係表併用型音声認識部128、ユーザ単語前後関係表129を備えている。なお、図6と同様の部分には同じ符号を付してある。
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。
以下では、第3の実施形態と相違する点を中心に説明する。
ユーザ単語辞書及び前後関係表併用型音声認識部128は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。
前後関係抽出部120は、ユーザ単語辞書及び前後関係表併用型音声認識部128が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正箇所の前後関係の情報(220)を抽出する。
ユーザ単語前後関係表登録部127は、ユーザ単語辞書登録部113が登録したユーザ単語(208)と前後関係抽出部120が生成した訂正箇所の前後関係の情報(220)とを組にしてユーザ単語の前後関係の情報(223)を生成し、ユーザ単語前後関係表129に登録する。
ユーザ単語辞書及び前後関係表併用型音声認識部128は、ユーザ単語辞書115及びユーザ単語前後関係表129と認識語彙辞書107と併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。
以下では、図13を参照しながら具体例を用いて本実施形態につき説明する。
図13は、前後関係抽出部120、ユーザ単語前後関係表登録部127、ユーザ単語及び前後関係表併用型音声認識部128の動作とその過程で作成される訂正箇所の前後関係(220)、ユーザ単語の前後関係の情報(223)の具体例を示したものである。
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。
なお、図13において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。
このとき、本音声認識システムは、次のような誤認識をすることになる(S61)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
この操作による訂正結果は次のようになる(S62)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部102は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報203として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
これと同時に、ユーザの訂正操作202と音声認識結果201から、前後関係抽出部120は「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係220として「訂正位置:前=『粉骨』、後=『努力』」を出力する。
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報203から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。ユーザ単語辞書登録自動起動部113は、この訂正単語をユーザ単語208としてユーザ単語辞書115に登録する(S64)。ここで、ユーザ単語辞書に登録する前にユーザに確認画面を出し、登録内容を修正できるようにすることも可能である(S63)。
一方、ユーザ単語前後関係表登録部127は、ユーザ単語辞書登録自動起動部113が登録したユーザ単語208の「表記:砕身、読み:さいしん」と訂正箇所の前後関係220の「訂正位置:前=『粉骨』、後=『努力』」とから、「表記:砕身、読み:さいしん」:前=『粉骨』、後=『努力』というユーザ単語前後関係223を生成し、ユーザ単語前後関係表129に登録する(S65)。
ユーザ単語辞書及び前後関係表併用型音声認識部128は、このユーザ単語辞書115とユーザ単語前後関係表129と認識語彙辞書107とを併用して音声認識する。その結果、次回、ユーザが「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、1番目の「さいしん」の部分では、前後関係がユーザ単語登録時と異なるために、ユーザ単語辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される(S66,S67)。一方、2番目の「さいしん」の部分では、前後の単語がユーザ単語前後関係表の単語と一致しているため、ユーザ単語辞書の方が参照されることになり、「砕身」という表記が表示される(S66,S67)。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される(S68)。
このように、ユーザ単語辞書を使用する場合に登録時のユーザ単語の前後関係を考慮することにより、適切な箇所にだけユーザ単語を当てはめることができるようになる。
ところで、第1〜第6の実施形態では、音声入力部が、ユーザからの入力音声データを認識処理して、仮名文字列を出力し、各認識部が、該仮名文字列をもとに、仮名漢字混じり文字列を生成するものであったが、その代わりに、入力部が、キーボード装置あるいはいわゆるソフトキー等の仮名文字入力デバイスによりユーザからの仮名文字列を入力し、各認識部が、該仮名文字列をもとに、仮名漢字混じり文字列を生成する場合にも、本発明は適用可能である。また、音声入力と仮名文字とを併用する場合も可能である。
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る音声認識システムの構成例を示す図 本発明の第1〜第6の実施形態における処理手順の一例を示すフローチャート 本発明の第1の実施形態に係る音声認識システムの訂正結果生成部、訂正単語生成部、訂正単語辞書登録部の動作を説明するための図 本発明の第2の実施形態に係る音声認識システムの構成例を示す図 同音声認識システムの訂正手順生成部、訂正マクロ生成部、訂正マクロ辞書登録部の動作を説明するための図 本発明の第3の実施形態に係る音声認識システムの構成例を示す図 同音声認識システムの訂正結果生成部、訂正単語生成部、ユーザ単語辞書登録自動起動部の動作を説明するための図 本発明の第4の実施形態に係る音声認識システムの構成例を示す図 同音声認識システムの前後関係抽出部、訂正単語前後関係表登録部、訂正単語及び前後関係表併用型音声認識部の動作を説明するための図 本発明の第5の実施形態に係る音声認識システムの構成例を示す図 同音声認識システムの前後関係抽出部、訂正マクロ前後関係表登録部、訂正マクロ及び前後関係表併用型音声認識部の動作を説明するための図 本発明の第6の実施形態に係る音声認識システムの構成例を示す図 同音声認識システムの前後関係抽出部、ユーザ単語前後関係表登録部、ユーザ単語及び前後関係表併用型音声認識部の動作を説明するための図
符号の説明
101…音声入力部、102…訂正結果生成部、103…訂正単語生成部、104…訂正単語辞書登録部、105…訂正単語辞書併用型音声認識部、106…訂正単語辞書、107…認識語彙辞書、108…訂正手順生成部、109…訂正マクロ生成部、110…訂正マクロ辞書登録部、111…訂正マクロ辞書併用型音声認識部、112…訂正マクロ辞書、113…ユーザ単語辞書登録自動起動部、114…ユーザ単語辞書併用型音声認識部、115…ユーザ辞書、120…前後関係抽出部、121…訂正単語前後関係表登録部、122…訂正単語辞書及び前後関係表併用型音声認識部、123…訂正単語前後関係表、124…訂正マクロ前後関係表登録部、125…訂正マクロ辞書及び前後関係表併用型音声認識部、126…訂正マクロ前後関係表、127…ユーザ単語前後関係表登録部、128…ユーザ単語前後関係表、129…ユーザ単語辞書及び前後関係表併用型音声認識部

Claims (7)

  1. 処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第1の辞書データを複数登録した認識語彙辞書と、音声を入力する手段と、
    入力した前記音声をもとにして仮名文字列を生成する手段と、
    前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成手段と、
    生成された前記仮名漢字文字列を表示画面に表示する表示手段と、
    表示された前記仮名漢字文字列に対する訂正を受け付ける受付手段と、
    前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成手段と、
    生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録手段と、
    生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第2の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成手段と、
    生成された前記基準データを前記第2の辞書データに対応付けて記憶する記憶手段とを備え、
    前記仮名漢字文字列生成手段は、前記認識語彙辞書と前記特定の辞書に登録されている前記第2の辞書データとのいずれも適用可能な場合には、該第2の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第2の辞書データを適用すると判断されたときにのみ、該第2の辞書データに基づいて前記生成を行うことを特徴とする音声情報処理システム。
  2. 前記辞書データ生成手段は、前記訂正の内容に関する情報として、少なくとも前記訂正に係る訂正後の仮名漢字文字列を、前記第2の辞書データに含めるものであることを特徴とする請求項1に記載の音声情報処理システム。
  3. 前記特定の辞書は、所望の語彙に係る辞書データをユーザ登録可能なユーザ辞書であることを特徴とする請求項2に記載の音声情報処理システム。
  4. 前記辞書データ生成手段は、前記訂正の内容に関する情報として、前記訂正に係る操作の手順を示す情報を、前記第2の辞書データに含めるものであることを特徴とする請求項1に記載の音声情報処理システム。
  5. 前記基準データは、前記訂正に係る仮名文字列に対して特定の位置関係を持つ箇所に、特定の仮名漢字文字列が存在する場合にのみ、前記第2の辞書データを適用することを示すものであることを特徴とする請求項に記載の音声情報処理システム。
  6. 処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第1の辞書データを複数登録した認識語彙辞書を備えた言語処理装置における音声情報処理方法であって、
    音声を入力する音声入力ステップと、
    入力した前記音声をもとにして仮名文字列を生成する仮名文字列生成ステップと、
    前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成ステップと、
    生成された前記仮名漢字文字列を表示画面に表示する表示ステップと、
    表示された前記仮名漢字文字列に対する訂正を受け付ける受付ステップと、
    前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成ステップと、
    生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録ステップと、
    生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第2の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成ステップと、
    生成された前記基準データを前記第2の辞書データに対応付けて記憶手段に記憶する記憶ステップとを有し、
    前記仮名漢字文字列生成ステップでは、前記認識語彙辞書と前記特定の辞書に登録されている前記第2の辞書データとのいずれも適用可能な場合には、該第2の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第2の辞書データを適用すると判断されたときにのみ、該第2の辞書データに基づいて前記生成を行うことを特徴とする音声情報処理方法。
  7. 処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第1の辞書データを複数登録した認識語彙辞書を備えた音声情報処理システムとしてコンピュータを機能させるためのプログラムにおいて、
    前記プログラムは、
    音声を入力する音声入力ステップと、
    入力した前記音声をもとにして仮名文字列を生成する仮名文字列生成ステップと、
    前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成ステップと、
    生成された前記仮名漢字文字列を表示画面に表示する表示ステップと、
    表示された前記仮名漢字文字列に対する訂正を受け付ける受付ステップと、
    前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成ステップと、
    生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録ステップと、
    生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第2の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成ステップと、
    生成された前記基準データを前記第2の辞書データに対応付けて記憶手段に記憶する記憶ステップとをコンピュータに実行させるとともに、
    前記仮名漢字文字列生成ステップでは、前記認識語彙辞書と前記特定の辞書に登録されている前記第2の辞書データとのいずれも適用可能な場合には、該第2の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第2の辞書データを適用すると判断されたときにのみ、該第2の辞書データに基づいて前記生成を行わせるものであることを特徴とするプログラム。
JP2004049749A 2004-02-25 2004-02-25 音声情報処理システム、音声情報処理方法及びプログラム Expired - Fee Related JP4189336B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004049749A JP4189336B2 (ja) 2004-02-25 2004-02-25 音声情報処理システム、音声情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004049749A JP4189336B2 (ja) 2004-02-25 2004-02-25 音声情報処理システム、音声情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005241829A JP2005241829A (ja) 2005-09-08
JP4189336B2 true JP4189336B2 (ja) 2008-12-03

Family

ID=35023644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004049749A Expired - Fee Related JP4189336B2 (ja) 2004-02-25 2004-02-25 音声情報処理システム、音声情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4189336B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013050742A (ja) * 2012-12-11 2013-03-14 Ntt Docomo Inc 音声認識装置および音声認識方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4736478B2 (ja) * 2005-03-07 2011-07-27 日本電気株式会社 音声書き起こし支援装置およびその方法ならびにプログラム
JP5366169B2 (ja) * 2006-11-30 2013-12-11 独立行政法人産業技術総合研究所 音声認識システム及び音声認識システム用プログラム
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
JP5285326B2 (ja) * 2008-05-14 2013-09-11 日本電信電話株式会社 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
JP5535238B2 (ja) * 2009-11-30 2014-07-02 株式会社東芝 情報処理装置
JP6545633B2 (ja) * 2016-03-17 2019-07-17 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム
US10019986B2 (en) * 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和系统
US11263198B2 (en) * 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7463690B2 (ja) * 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013050742A (ja) * 2012-12-11 2013-03-14 Ntt Docomo Inc 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
JP2005241829A (ja) 2005-09-08

Similar Documents

Publication Publication Date Title
JP4158937B2 (ja) 字幕修正装置
US8515755B2 (en) Replacing text representing a concept with an alternate written form of the concept
US20070100619A1 (en) Key usage and text marking in the context of a combined predictive text and speech recognition system
JP2002014954A (ja) 中国語入力変換処理装置、中国語入力変換処理方法及び記録媒体
JP5535238B2 (ja) 情報処理装置
JPS61107430A (ja) 音声情報の編集装置
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
JP4189336B2 (ja) 音声情報処理システム、音声情報処理方法及びプログラム
US20060095263A1 (en) Character string input apparatus and method of controlling same
JP3104661B2 (ja) 日本語文章作成装置
JP6678545B2 (ja) 修正システム、修正方法及びプログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
WO2012144525A1 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
JP6640788B2 (ja) 言語変換プログラム及び言語変換装置
JP2001014304A (ja) 文書作成装置、変換処理方法及び変換処理プログラムを記録した記録媒体
JP2000003355A (ja) 中国語入力変換処理装置、同装置に用いられる新語登録方法及び記録媒体
WO2023166651A1 (ja) 情報処理装置及び情報処理プログラム
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JPWO2005076259A1 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130919

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees