JP2005241829A - System and method for speech information processing, and program - Google Patents
System and method for speech information processing, and program Download PDFInfo
- Publication number
- JP2005241829A JP2005241829A JP2004049749A JP2004049749A JP2005241829A JP 2005241829 A JP2005241829 A JP 2005241829A JP 2004049749 A JP2004049749 A JP 2004049749A JP 2004049749 A JP2004049749 A JP 2004049749A JP 2005241829 A JP2005241829 A JP 2005241829A
- Authority
- JP
- Japan
- Prior art keywords
- correction
- kana
- character string
- dictionary
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声で文章の入力を行うことを目的とした音声情報処理システム、音声情報処理方法及びプログラムに関する。 The present invention relates to a voice information processing system, a voice information processing method, and a program for inputting a sentence by voice.
近年、音声で日本語の文章を入力することができる日本語ディクテーションシステムが実用化され、様々な分野で実用システムとして利用され始めている。システムが音声認識可能な語彙数も数万〜十数万語程度と相当大量になってきた。しかし、現実には固有名詞や個々のユーザ特有の単語、日々作られる造語を事前にすべてシステムの辞書に登録しておくことは不可能である。一方、これらの単語が辞書に未登録の状態のままでは、ユーザがどんなに丁寧に発声しても、音声認識システムはその単語を正しく認識することができない。現在のシステムでは、これらの未登録単語は、ユーザ単語という形で音声認識システムが参照する認識語彙辞書に追加登録することで対処している。 In recent years, a Japanese dictation system capable of inputting Japanese sentences by voice has been put into practical use and has begun to be used as a practical system in various fields. The number of vocabulary that can be recognized by the system has also increased considerably from tens of thousands to hundreds of thousands of words. However, in reality, it is impossible to register all proper nouns, words unique to individual users, and coined words created every day in the system dictionary. On the other hand, if these words remain unregistered in the dictionary, the speech recognition system cannot correctly recognize the words no matter how carefully the user speaks. In the current system, these unregistered words are dealt with by additionally registering them in the recognized vocabulary dictionary referred to by the speech recognition system in the form of user words.
ユーザ単語の辞書登録は、通常、「表記」「読み(あるいは発音)」「品詞」をユーザが入力・指定して辞書登録ボタンを押すという作業をすることで実現される。一般的には1つの単語ごとに上記3つ組の情報を入力して1語ずつユーザ単語を辞書登録していくことになる。 The user word dictionary registration is usually realized by the user inputting and specifying “notation”, “reading (or pronunciation)”, and “part of speech” and pressing the dictionary registration button. Generally, the above three sets of information are input for each word, and user words are registered in the dictionary one word at a time.
なお、従来の音声認識技術については、例えば非特許文献12に詳しく開示されている。
年々音声認識システムの性能は向上してきているが認識率は100%ではない。そのため、システムが誤認識したときには、誤認識した箇所をユーザが再度発声し直したり、キーボード等の入力作業によって修正する必要がある。誤認識の主たる原因はユーザが入力した単語が認識語彙辞書に登録されていないためである。したがって、誤認識した単語をユーザ単語として辞書登録すればそれ以降は誤認識しないようにすることができる。しかし、文章を考えながらテキスト入力している最中に誤認識が発生する度にその入力作業や文章の推敲を中断してユーザ単語登録作業を実施することは非常に煩わしい。その結果、多くのユーザはユーザ単語登録作業を実施せずにキーボード等を使用して誤認識の訂正作業だけをその場で実施しているのが現状である。ただ、これではユーザが入力したかった単語は未登録のままなので、それ以降の文章入力時に同じ単語をユーザが発声すると音声認識システムはまた同じ誤認識をし、ユーザが同様の訂正作業を繰り返し行わなければならない。 The performance of speech recognition systems is improving year by year, but the recognition rate is not 100%. For this reason, when the system misrecognizes, it is necessary for the user to re-speak the misrecognized portion or to correct it by an input operation such as a keyboard. The main cause of misrecognition is that the word input by the user is not registered in the recognition vocabulary dictionary. Therefore, if a misrecognized word is registered in the dictionary as a user word, it can be prevented from being misrecognized thereafter. However, it is very troublesome to perform user word registration work by interrupting the input work and the text review every time erroneous recognition occurs during text input while considering the text. As a result, many users do not carry out user word registration work, but use the keyboard or the like to carry out only misrecognition correction work on the spot. However, since the word that the user wanted to input remains unregistered in this case, when the user utters the same word during subsequent sentence input, the speech recognition system again performs the same erroneous recognition, and the user repeats the same correction work. It must be made.
本発明は、上記事情を考慮してなされたもので、ユーザが単語登録をせずとも同じ訂正を繰り返さなくてすむようにした音声情報処理システム、音声情報処理方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a voice information processing system, a voice information processing method, and a program that do not require the user to repeat the same correction without registering words. To do.
本発明に係る音声情報処理システムは、認識対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第1の辞書データを複数登録した認識語彙辞書と、音声を入力する手段と、入力した前記音声をもとにして仮名文字列を生成する手段と、前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成手段と、生成された前記仮名漢字文字列を表示画面に表示する表示手段と、表示された前記仮名漢字文字列に対する訂正を受け付ける受付手段と、前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成手段と、生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録手段とを備え、前記仮名漢字文字列生成手段は、前記特定の辞書にも基づいて前記生成を行うことを特徴とする。 The speech information processing system according to the present invention includes a recognized vocabulary dictionary in which a plurality of first dictionary data including information related to reading of a vocabulary to be recognized by kana and information related to notation in kana / kanji and means for inputting speech And a means for generating a kana character string based on the input speech; and a kana / kanji character string generating means for generating a kana / kanji character string for the generated kana character string based on the recognition vocabulary dictionary; Display means for displaying the generated kana-kanji character string on a display screen; accepting means for accepting correction to the displayed kana-kanji character string; and kana based on the kana-kanji character string related to the correction Dictionary data generating means for generating second dictionary data including a character string and information on the contents of correction, and the generated second dictionary data as the recognized vocabulary dictionary Comprises a registration means for registering the different specific dictionary, the kana-kanji character string generation means, and performs the generation also based on the particular dictionary.
本発明では、入力音声を認識処理して生成された仮名漢字文字列に対してユーザが実施した訂正操作を監視し、当該仮名文字列と当該訂正に関する情報とを含む辞書データとして特定の辞書へ辞書登録する。これによりユーザが単語登録作業をしなくても、次回以降の言語処理時に通常の認識語彙辞書に加えて当該辞書データが併用できるので、次回以降同じ仮名漢字文字列を入力した際にシステムが正しく認識できるようになるため、ユーザは同様の訂正操作を繰り返し実施しなくてすむようになる。 In the present invention, the correction operation performed by the user on the kana / kanji character string generated by the recognition processing of the input speech is monitored, and the dictionary data including the kana character string and the information related to the correction is sent to a specific dictionary. Register the dictionary. As a result, even if the user does not register the word, the dictionary data can be used in addition to the normal recognition vocabulary dictionary in the next and subsequent language processing. Since the user can recognize, the user does not have to repeat the same correction operation.
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手段を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
The present invention relating to the apparatus is also established as an invention relating to a method, and the present invention relating to a method is also established as an invention relating to an apparatus.
Further, the present invention relating to an apparatus or a method has a function for causing a computer to execute means corresponding to the invention (or for causing a computer to function as means corresponding to the invention, or for a computer to have a function corresponding to the invention. It can also be realized as a program (for realizing the program), and can also be realized as a computer-readable recording medium on which the program is recorded.
本発明によれば、ユーザが単語登録をせずとも同じ訂正を繰り返さなくてすむようになる。 According to the present invention, the user does not have to repeat the same correction without registering words.
以下、図面を参照しながら本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施形態)
図1に、本発明の第1の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
(First embodiment)
FIG. 1 shows a configuration example of a speech recognition system (natural language processing system) according to the first embodiment of the present invention.
図1に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、訂正単語辞書登録部104、訂正単語辞書併用型音声認識部105、訂正単語辞書106、認識語彙辞書107を備えている。
As shown in FIG. 1, the speech recognition system includes a
認識語彙辞書107は、「表記」「読み」「品詞」などの情報の組からなる単語情報を複数登録したものである。
The
音声入力部101は、ユーザ(100)からの入力音声データ(200)を受け付ける部分である。
The
訂正単語辞書併用型音声認識部105は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
The corrected word dictionary combined
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。 The generated kana-kanji mixed sentence is displayed on a display screen of a predetermined display device (not shown). The displayed kana-kanji mixed sentence accepts a correction operation from the user via a predetermined input device (not shown), and the correction result is displayed on the display screen of the predetermined display device. The
訂正結果生成部102は、訂正単語辞書併用型音声認識部105が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作202とから、訂正範囲を特定し、音声認識結果中における訂正位置と訂正結果文字列とで構成される訂正結果情報(203)を生成する。ここで、ユーザが実施できる訂正操作には、音声による再入力だけでなく、キーボード、マウス、ペン等の文字情報を入力するすべての入力デバイスを使用することができる。また、訂正操作の際にこれらのデバイスを複数組み合わせても構わない。
The correction
訂正単語生成部103は、音声入力部101が受け取った入力音声(200)の発音列と訂正結果生成部102が生成した訂正結果情報(203)とを組にした訂正単語(204)を生成する。なお、ここでは、生成単位を単語と呼んでいるが、登録する文字列は句や短文でも構わない。また、登録文字列に関して、制限は無い。
The correction
訂正単語辞書登録部104は、訂正単語生成部103が生成した訂正単語(204)を訂正単語辞書106に登録する。
The correction word
訂正単語辞書併用型音声認識部105は、訂正単語辞書106と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。なお、訂正単語の読み(入力音声の発音列)が認識語彙辞書の単語と重複するものについては、例えば、訂正単語を優先する、両方の単語を提示してユーザに選択させるなど、既存の方法を採用して構わない。
The corrected word dictionary combined type
図2に、本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例を示す。 FIG. 2 shows an example of a schematic procedure related to recognition processing and correction processing in the speech recognition system of this embodiment.
ユーザからの入力を受け付け(ステップS1)、これが認識対象の入力ならば(ステップS2)、認識処理を行い(ステップS3)、認識結果を出力する(ステップS4)。他方、入力が訂正のためのものであるならば(ステップS2)、訂正情報(本実施形態では、訂正結果情報)を生成し(ステップS5)、訂正情報に基づいて辞書登録(本実施形態では、訂正単語の訂正単語辞書への登録)を行う(ステップS6)。 An input from the user is accepted (step S1). If this is an input to be recognized (step S2), a recognition process is performed (step S3), and a recognition result is output (step S4). On the other hand, if the input is for correction (step S2), correction information (in this embodiment, correction result information) is generated (step S5), and dictionary registration (in this embodiment) is performed based on the correction information. And registration of the correction word to the correction word dictionary) (step S6).
従来の音声認識システムでは、未登録単語は、ユーザが認識語彙辞書に追加登録をしない限りは、その後も常に誤認識し続ける。しかし、本実施形態の音声認識システムでは、誤認識した際にユーザが訂正操作を行い、その操作結果が訂正単語として訂正単語辞書に自動登録されると、従来の認識語彙辞書だけを使用したときには、誤認識し続けた箇所でも、ユーザが以前実施した訂正操作が適用されて、正しく認識されるようになる。 In the conventional speech recognition system, unregistered words continue to be erroneously recognized thereafter unless the user additionally registers them in the recognition vocabulary dictionary. However, in the speech recognition system of the present embodiment, when a user performs a correction operation when erroneous recognition is performed and the operation result is automatically registered in the correction word dictionary as a correction word, when only the conventional recognition vocabulary dictionary is used Even in a place where erroneous recognition is continued, the correction operation previously performed by the user is applied and the recognition is correctly performed.
以下では、図3を参照しながら具体例を用いて本実施形態につき説明する。 Hereinafter, the present embodiment will be described using a specific example with reference to FIG.
図3は、訂正結果生成部102、訂正単語生成部103、訂正単語辞書登録部104の動作とその過程で作成される訂正結果情報(203)、訂正単語(204)の具体例を示したものである。
FIG. 3 shows specific examples of the operation of the correction
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書107に登録されていなかったとする。
In this specific example, a case where a sentence “I will make efforts to break down the bone and bones” is considered. At this time, the user utters “Funkotsusai Shindo Rokushi”. Here, it is assumed that the word “crushed” is not registered in the
なお、図3において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。 In Fig. 3, (a) is the first case (before correction / registration) that says "I'll do my best", and (b) is "I'll do my best" Is the second case (after correction / registration).
このとき、本音声認識システムは、次のような誤認識をすることになる(S11)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは次のような訂正操作(A)を実施する。
訂正操作(A):
(i)カーソルを「最新」の右に移動
(ii)直前2文字「最新」を削除
(iii)「くだく しんたい」と発声
(iv)認識結果の「砕く身体」のうち「く」「体」を削除
(v)カーソルを文末に移動して次の発声の準備をする
なお、本実施形態では、訂正操作時に文字列を入力するために音声入力を使用しているが、これはキーボード等による文字入力であっても構わない。
At this time, the voice recognition system performs the following erroneous recognition (S11).
Input voice: "Funkotsusaishindo Rokushi"
Recognition result: “I will do my best in powdered bones.”
In order to correct this erroneous recognition, the user performs the following correction operation (A).
Correction operation (A):
(I) Move the cursor to the right of “Latest”
(Ii) Delete the last two characters “latest”
(Iii) Say “Kukuku Shintai”
(Iv) Delete “ku” and “body” from the “crushed body” of the recognition result
(V) Move the cursor to the end of the sentence and prepare for the next utterance. In this embodiment, voice input is used to input a character string during correction operation. It does not matter.
上記の操作による訂正結果は、次のようになる(S12)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から訂正結果生成部102は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報(203)として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
The correction result by the above operation is as follows (S12).
Correction result: “I will make efforts to break down the bone and bone.”
From this correction operation result of the user, the correction
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報(203)とから、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。
Then, the correction
訂正単語辞書登録部104は、この訂正単語を訂正単語辞書106に登録する(S13)。
The correction word
以降、訂正単語辞書併用型音声認識部105は、この訂正単語が登録された訂正単語辞書106と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに、「さいしん」の入力部分で訂正単語辞書が参照されることにより、「砕身」という表記が表示される(S14)。
Thereafter, the correction word dictionary combined
従来の方法では、ユーザが「砕身:さいしん」という単語を辞書登録しない限り、何度でも「粉骨最新」と誤認識を繰り返すが、本実施形態によれば、1回だけユーザが訂正作業を実施すると、それ以降は同様の誤認識しないようになる。なお、訂正作業は本音声認識システムが誤認識したときにユーザが自然に行っている作業であるため、ユーザに対して新たな手間や負荷を与えることはない。 In the conventional method, unless the user registers in the dictionary the word “crushed”, the erroneous recognition of “latest bone” is repeated many times, but according to this embodiment, the user corrects only once. After that, the same misrecognition will not occur after that. Since the correction work is a work that the user naturally performs when the voice recognition system misrecognizes, no new effort or load is given to the user.
(第2の実施形態)
図4に、本発明の第2の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
(Second Embodiment)
FIG. 4 shows a configuration example of a speech recognition system (natural language processing system) according to the second embodiment of the present invention.
図4に示されるように、本音声認識システムは、音声入力部101、認識語彙辞書107、訂正手順生成部108、訂正マクロ生成部109、訂正マクロ辞書登録部110、訂正マクロ辞書併用型音声認識部111、訂正マクロ辞書112を備えている。なお、図1と同様の部分には同じ符号を付してある。
As shown in FIG. 4, the speech recognition system includes a
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。 An example of a schematic procedure related to recognition processing and correction processing in the voice recognition system of the present embodiment is the same as that in FIG.
以下では、第1の実施形態と相違する点を中心に説明する。 Below, it demonstrates centering on the point which is different from 1st Embodiment.
訂正マクロ辞書併用型音声認識部111は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
The corrected macro dictionary combined
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。 The generated kana-kanji mixed sentence is displayed on a display screen of a predetermined display device (not shown). The displayed kana-kanji mixed sentence accepts a correction operation from the user via a predetermined input device (not shown), and the correction result is displayed on the display screen of the predetermined display device. The
訂正手順生成部108は、訂正マクロ辞書併用型音声認識部111が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正操作手順を表す訂正手順(206)を生成する。
The correction
訂正マクロ生成部109は、音声入力部101が受け取った入力音声(200)の発音列と訂正手順生成部108が生成した訂正手順(206)とを組にした訂正マクロ(207)を生成する。
The correction
訂正マクロ辞書登録部110は、訂正マクロ生成部109が生成した訂正マクロ(207)を訂正マクロ辞書112に登録する。
The correction macro
訂正マクロ辞書併用型音声認識部111は、訂正マクロ辞書112と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。なお、訂正マクロの読み(入力音声の発音列)が認識語彙辞書の単語と重複するものについては、例えば、訂正マクロを優先する、訂正マクロに係る単語と認識語彙辞書に係る単語との両方を提示してユーザに選択させるなど、既存の方法を採用して構わない。
The correction macro dictionary combined
以下では、図5を参照しながら具体例を用いて本実施形態につき説明する。 Hereinafter, the present embodiment will be described using a specific example with reference to FIG.
図5は、訂正手順生成部108、訂正マクロ生成部109、訂正マクロ辞書登録部110の動作とその過程で作成される訂正手順(206)、訂正マクロ(207)の具体例を示したものである。
FIG. 5 shows specific examples of operations of the correction
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。 In this specific example, a case where a sentence “I will make efforts to break down the bone and bones” is considered. At this time, the user utters “Funkotsusai Shindo Rokushi”. Here, it is assumed that the word “crushed” is not registered in the recognition vocabulary dictionary.
なお、図5において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。 In Fig. 5, (a) is the first case (before correction / registration) that says "I'll do my best", and (b) is "I'll do my best" Is the second case (after correction / registration).
このとき、本音声認識システムは、次のような誤認識をすることになる(S21)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
At this time, the voice recognition system performs the following erroneous recognition (S21).
Input voice: "Funkotsusaishindo Rokushi"
Recognition result: “I will do my best in powdered bones.”
In order to correct this misrecognition, the user performs a correction operation (A) (see the first embodiment).
この操作による訂正結果は、次のようになる(S22)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正手順生成部108は、「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、訂正手順206として「訂正位置:認識結果中の『最新』、訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」を出力する。
The correction result by this operation is as follows (S22).
Correction result: “I will make efforts to break down the bone and bone.”
From this correction operation result of the user, the correction
そして、訂正マクロ生成部109は、入力音声と訂正手順生成部108が生成した訂正手順206とから、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」とを対応付けて、「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」という訂正マクロ207を生成する。
Then, the correction
訂正マクロ辞書登録部110は、この訂正マクロを訂正マクロ辞書112に登録する(S23)。
The correction macro
以降、訂正マクロ辞書併用型音声認識部111は、この訂正マクロが登録された訂正マクロ辞書112と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに、「さいしん」の入力部分で訂正マクロ辞書が参照されることにより、『「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除』という訂正操作が自動実行され、最終的に「砕身」という表記が表示される。
Thereafter, the corrective macro dictionary combined
なお、訂正マクロに割り当てる「読み」は、訂正前の入力音声の訂正箇所の発声列でなくてもよい。例えば、訂正操作時に入力した発声列を「読み」として割り当ててもよい。上例で説明すると、「くだく しんたい」という訂正操作時の発声列を割り当てることを考える。このとき、「ふんこつさいしんどりょくします」と入力すると、「粉骨最新努力します。」と誤認識することになるが、ここで、「くだく しんたい」と発声すると、訂正マクロが実行され、直前の認識結果中の「最新」という文字列を「砕身」に置き換える。従来であればカーソル移動や余分な文字列の削除が必要であったが、本実施形態によりユーザのこれらの手間を排除することが可能になる。 The “reading” assigned to the correction macro does not have to be the utterance string of the corrected portion of the input speech before correction. For example, the utterance string input during the correction operation may be assigned as “reading”. In the above example, consider the assignment of the utterance string for the correction operation “Kakukushintai”. At this time, if you enter “Funkotsusaishindokushikaku”, you will misrecognize that “I will make the latest effort with powdered bones.” However, if you say “Kakushinshintai” here, the correction macro will be executed. The character string “latest” in the previous recognition result is replaced with “crushed”. Conventionally, it has been necessary to move the cursor and delete extra character strings, but this embodiment can eliminate the user's trouble.
また、上記の例では訂正マクロと通常の音声認識単語とを区別しないで扱っているが、訂正マクロの前あるいは後ろに予約語(例えば「訂正マクロ」という語)を発声する規則にしてもよい。例えば、上記の例で説明すると「訂正マクロ くだく しんたい」と発声したときのみ、直前の認識結果中の「最新」という文字列を「砕身」に置き換える。これにより、通常の音声入力時に誤って訂正マクロが実行されるのを避けることができる。 In the above example, the correction macro and the normal speech recognition word are handled without distinction, but a rule that utters a reserved word (for example, the word “correction macro”) before or after the correction macro may be used. . For example, in the above example, the character string “latest” in the immediately preceding recognition result is replaced with “crush” only when “correction macro” is spoken. Thereby, it is possible to avoid a correction macro being erroneously executed during normal voice input.
(第3の実施形態)
図6に、本発明の第3の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
(Third embodiment)
FIG. 6 shows a configuration example of a speech recognition system (natural language processing system) according to the third embodiment of the present invention.
図6に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、認識語彙辞書107、ユーザ単語辞書登録自動起動部113、ユーザ単語辞書併用型音声認識部114、ユーザ辞書115を備えている。なお、図1と同様の部分には同じ符号を付してある。
As shown in FIG. 6, the speech recognition system includes a
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。 An example of a schematic procedure related to recognition processing and correction processing in the voice recognition system of the present embodiment is the same as that in FIG.
以下では、第1の実施形態と相違する点を中心に説明する。 Below, it demonstrates centering on the point which is different from 1st Embodiment.
ユーザ辞書115は、認識語彙辞書107と同様、「表記」「読み」「品詞」などの情報の組からなる単語情報を複数登録したものである。従来と同様、認識語彙辞書107は、一般的な辞書であるのに対して、ユーザ辞書115は、当該ユーザがユーザ単語(108)を適宜辞書登録するものである。
Similar to the
ユーザ単語辞書併用型音声認識部114は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
The user word dictionary combined
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。 The generated kana-kanji mixed sentence is displayed on a display screen of a predetermined display device (not shown). The displayed kana-kanji mixed sentence accepts a correction operation from the user via a predetermined input device (not shown), and the correction result is displayed on the display screen of the predetermined display device. The
ユーザ単語辞書登録自動起動部113は、訂正単語成部103が生成した訂正単語(204)を、ユーザ単語(108)としてユーザ辞書115に登録するための作業を実行する。例えば、ユーザ単語登録画面を表示し、登録に必要な「表記」「読み」「品詞」の情報を訂正単語(204)から生成して代入しておく。なお、このユーザ単語に代入する「品詞」については、例えば、訂正対象となったもとの単語の品詞と同じ品詞としておく方法や、画一的に「名詞」としておく方法など、種々の方法がある。ここで、ユーザは登録内容を確認できる。登録内容に問題が無ければ登録ボタンを押すだけでよい。もし、修正が必要なら適宜修正を行ってからユーザ単語を辞書に登録する。
The user word dictionary registration
ユーザ単語辞書併用型音声認識部114は、ユーザ辞書115と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。なお、ユーザ単語の読み(入力音声の発音列)が認識語彙辞書の単語と重複するものについては、例えば、ユーザ単語を優先する、両方の単語を提示してユーザに選択させるなど、既存の方法を採用して構わない。
The user word dictionary combined
以下では、図7を参照しながら具体例を用いて本実施形態につき説明する。 Hereinafter, this embodiment will be described using a specific example with reference to FIG.
図7は、訂正結果生成部102、訂正単語生成部103、ユーザ単語辞書登録自動起動部113の動作とその過程で作成される訂正結果情報(203)、訂正単語(204)の具体例を示したものである。
FIG. 7 shows specific examples of operations of the correction
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。 In this specific example, a case where a sentence “I will make efforts to break down the bone and bones” is considered. At this time, the user utters “Funkotsusai Shindo Rokushi”. Here, it is assumed that the word “crushed” is not registered in the recognition vocabulary dictionary.
なお、図7において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。 In addition, in Fig. 7, (a) is the first case (case before correction / registration) that says "I'll do my best" and (b) is "I'll be my own." Is the second case (after correction / registration).
このとき、本音声認識システムは、次のような誤認識をすることになる(S31)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
At this time, the voice recognition system performs the following erroneous recognition (S31).
Input voice: "Funkotsusaishindo Rokushi"
Recognition result: “I will do my best in powdered bones.”
In order to correct this misrecognition, the user performs a correction operation (A) (see the first embodiment).
この操作による訂正結果は、次のようになる(S32)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部102は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報203として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
The correction result by this operation is as follows (S32).
Correction result: “I will make efforts to break down the bone and bone.”
From this correction operation result of the user, the correction
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報203から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。
Then, the correction
ユーザ単語辞書登録自動起動部113は、この訂正単語をユーザ単語208としてユーザ単語辞書115に登録する(S34)。ここで、ユーザ単語辞書に登録する前にユーザに確認画面を出し、登録内容を修正できるようにすることも可能である(S33)。
The user word dictionary registration
ユーザ単語辞書併用型音声認識部114は、このユーザ単語が登録されたユーザ単語辞書106と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに「さいしん」の入力部分でユーザ単語辞書が参照されることにより、「砕身」という表記が表示される。
The user word dictionary combined
従来の方法では、ユーザが「砕身:さいしん」というユーザ単語を辞書登録するためには、「表記:砕身」「読み:さいしん」「品詞:名詞」をすべて指定しなければならなかった。本実施形態によれば、ユーザの訂正操作の内容からユーザ単語登録に必要な情報を自動的に抽出することができるため、簡便にユーザ単語を登録することが可能になる。これにより、ユーザは「表記」「読み」「品詞」をすべて1から入力し直す手間から開放され、通常のユーザ単語登録を実施する場合と比較して、ユーザ単語登録の煩わしさが大幅に低減される。 In the conventional method, in order for the user to register the user word “crushing: saishin” in the dictionary, all of “notation: crushing”, “reading: saishin”, and “part of speech: noun” must be specified. According to this embodiment, since it is possible to automatically extract information necessary for user word registration from the contents of the user's correction operation, it is possible to easily register user words. As a result, the user is relieved from having to input all of “notation”, “reading”, and “part of speech” from 1 and the troublesomeness of user word registration is greatly reduced as compared with the case of performing normal user word registration. Is done.
(第4の実施形態)
図8に、本発明の第4の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。
(Fourth embodiment)
FIG. 8 shows a configuration example of a speech recognition system (natural language processing system) according to the fourth embodiment of the present invention.
図8に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、訂正単語辞書登録部104、訂正単語辞書106、認識語彙辞書107、前後関係抽出部120、訂正単語前後関係表登録部121、訂正単語辞書及び前後関係表併用型音声認識部122、訂正単語前後関係表123を備えている。なお、図1と同様の部分には同じ符号を付してある。
As shown in FIG. 8, the speech recognition system includes a
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。 An example of a schematic procedure related to recognition processing and correction processing in the voice recognition system of the present embodiment is the same as that in FIG.
以下では、第1の実施形態と相違する点を中心に説明する。 Below, it demonstrates centering on the point which is different from 1st Embodiment.
訂正単語辞書及び前後関係表併用型音声認識部122は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
The corrected word dictionary and the context table combined
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。 The generated kana-kanji mixed sentence is displayed on a display screen of a predetermined display device (not shown). The displayed kana-kanji mixed sentence accepts a correction operation from the user via a predetermined input device (not shown), and the correction result is displayed on the display screen of the predetermined display device. The
前後関係抽出部120は、訂正単語辞書及び前後関係表併用型音声認識部122が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正箇所の前後関係の情報(220)を抽出する。
The
訂正単語前後関係表登録部121は、訂正単語辞書登録部104が登録した訂正単語204と前後関係抽出部120が生成した訂正箇所の前後関係の情報(220)とを組にして訂正単語の前後関係の情報(221)を生成し、訂正単語前後関係表123に登録する。
The correction word context
訂正単語辞書及び前後関係表併用型音声認識部122は、訂正単語辞書106及び訂正単語前後関係表123と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。
The corrected word dictionary and context table combined
第1の実施形態では、訂正単語の読みが認識語彙辞書の単語と重複する場合がある。例えば、この場合に常に訂正単語を優先させる方法を採用すると、一例として「最新の部署では粉骨砕身努力します。」という文章を入力するために、「さいしんのぶしょではふんこつさいしんどりょくします」と発声したとき、「さいしん」のところで必ず訂正単語が採用され、「砕身の部署では粉骨砕身努力します。」と誤認識してしまう、というようなケースが生じ得る。 In the first embodiment, correction word readings may overlap with words in the recognition vocabulary dictionary. For example, in this case, if the method of always giving priority to the correction word is adopted, as an example, in order to enter the sentence “I will make efforts to break down the bones and bones in the latest department.” The correct word is always used at “Saishin”, and it may be misrecognized as “I ’ll do my best to break down the bones in the department of shattering”.
そこで、本実施形態では、訂正単語の辞書登録時に訂正単語の前後関係を抽出し、訂正単語前後関係表として管理する。そして、入力音声が訂正単語と認識語彙との双方の読みと一致したときは、訂正単語の前後の単語と訂正単語前後関係表とを比較して訂正単語、認識語彙のいずれか適切な方を選択する。 Therefore, in the present embodiment, the correction word context is extracted and registered as a correction word context table when the correction word dictionary is registered. When the input speech matches the readings of both the corrected word and the recognized vocabulary, the words before and after the corrected word are compared with the corrected word context table to determine which one of the corrected word and the recognized vocabulary is appropriate. select.
以下では、図9を参照しながら具体例を用いて本実施形態につき説明する。 Hereinafter, the present embodiment will be described using a specific example with reference to FIG.
図9は、前後関係抽出部120、訂正単語前後関係表登録部121、訂正単語及び前後関係表併用型音声認識部122の動作とその過程で作成される訂正箇所の前後関係の情報(220)、訂正単語の前後関係の情報(221)の具体例を示したものである。
FIG. 9 shows the operation of the
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。 In this specific example, a case where a sentence “I will make efforts to break down the bone and bones” is considered. At this time, the user utters “Funkotsusai Shindo Rokushi”. Here, it is assumed that the word “crushed” is not registered in the recognition vocabulary dictionary.
なお、図9において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。 In addition, in Fig. 9, (a) is the first case (before correction / registration) that says "I'll do my best", and (b) is "I'll do my best" Is the second case (after correction / registration).
このとき、本音声認識システムは、次のような誤認識をすることになる(S41)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
At this time, the voice recognition system performs the following erroneous recognition (S41).
Input voice: "Funkotsusaishindo Rokushi"
Recognition result: “I will do my best in powdered bones.”
In order to correct this misrecognition, the user performs a correction operation (A) (see the first embodiment).
この操作による訂正結果は、次のようになる(S42)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部102は「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報203として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
The correction result by this operation is as follows (S42).
Correction result: “I will make efforts to break down the bone and bone.”
From the correction operation result of the user, the correction
これと同時に、ユーザの訂正操作202と音声認識結果201から、前後関係抽出部120は、「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係220として「訂正位置:前=『粉骨』、後=『努力』」を出力する。
At the same time, from the user correction operation 202 and the
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報203から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。訂正単語辞書登録部104は、この訂正単語を訂正単語辞書106に登録する(S43)。
Then, the correction
一方、訂正単語前後関係表登録部121は、訂正単語辞書登録部104が登録した訂正単語204の「表記:砕身、読み:さいしん」と訂正箇所の前後関係220の「訂正位置:前=『粉骨』、後=『努力』」から、「表記:砕身、読み:さいしん」:前=『粉骨』、後=『努力』という訂正単語前後関係221を生成し、訂正単語前後関係表123に登録する(S44)。
On the other hand, the correction word context
訂正単語辞書及び前後関係表併用型音声認識部122は、この訂正単語辞書106と訂正単語前後関係表123と認識語彙辞書107とを併用して音声認識する。この結果、ユーザが次回「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、1番目の「さいしん」の部分では、前後関係が訂正単語登録時と異なるために、訂正単語辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される(S45,S46)。一方、2番目の「さいしん」の部分では、前後の単語が訂正単語前後関係表の単語と一致しているため、訂正単語辞書の方が参照されることになり、「砕身」という表記が表示される(S45,S46)。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される(S47)。
The corrected word dictionary and context table combined
このように、訂正単語辞書を使用する場合に登録時の訂正単語の前後関係を考慮することにより、適切な箇所にだけ訂正単語を当てはめることができるようになる。 As described above, when the correction word dictionary is used, the correction word can be applied only to an appropriate place by considering the context of the correction word at the time of registration.
なお、本実施形態では、前後関係として訂正単語の前、後ろを使用したが、どちらか一方だけを使用するようにしても構わない。また、本実施形態では、前後関係として使用する範囲が前、後ろともに1単語であったが、これも2単語以上のより長い単語列を使用しても構わない。また、本実施形態では、前後関係として保持する対象が単語になっているが、単語の代わりに品詞等の単語に付随した情報を使用しても構わない。また、前後関係表との一致度を判定する方法として、前後関係表中に訂正単語の前後の単語が存在するか否かだけでなく、確率値を使用する判定法でも構わない。 In the present embodiment, the front and rear of the correction word are used as the context, but only one of them may be used. In the present embodiment, the range used as the context is one word for both the front and rear, but a longer word string of two or more words may also be used. In the present embodiment, the word to be stored as the context is a word, but information attached to a word such as a part of speech may be used instead of the word. In addition, as a method for determining the degree of coincidence with the context table, not only whether or not the words before and after the correction word exist in the context table, but also a determination method using a probability value may be used.
(第5の実施形態)
本発明の第5の実施形態は、第4の実施形態の前後関係の情報を考慮する構成を、第2の実施形態に適用したものである。第4の実施形態で示した、前後関係の情報を考慮する構成に関する効果やバリエーションは、本実施形態にも妥当する。
(Fifth embodiment)
In the fifth embodiment of the present invention, the configuration considering the context information of the fourth embodiment is applied to the second embodiment. The effects and variations related to the configuration taking into account the contextual information shown in the fourth embodiment are also applicable to this embodiment.
図10に、本発明の第5の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。 FIG. 10 shows a configuration example of a speech recognition system (natural language processing system) according to the fifth embodiment of the present invention.
図10に示されるように、本音声認識システムは、音声入力部101、認識語彙辞書107、訂正手順生成部108、訂正マクロ生成部109、訂正マクロ辞書登録部110、訂正マクロ辞書112、前後関係抽出部120、訂正マクロ前後関係表登録部124、訂正マクロ辞書及び前後関係表併用型音声認識部125、訂正マクロ前後関係表126を備えている。なお、図4と同様の部分には同じ符号を付してある。
As shown in FIG. 10, the speech recognition system includes a
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。 An example of a schematic procedure related to recognition processing and correction processing in the voice recognition system of the present embodiment is the same as that in FIG.
以下では、第2の実施形態と相違する点を中心に説明する。 Below, it demonstrates centering on the point which is different from 2nd Embodiment.
訂正マクロ辞書及び前後関係表併用型音声認識部125は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
The corrected macro dictionary and the context table combined
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。 The generated kana-kanji mixed sentence is displayed on a display screen of a predetermined display device (not shown). The displayed kana-kanji mixed sentence accepts a correction operation from the user via a predetermined input device (not shown), and the correction result is displayed on the display screen of the predetermined display device. The
前後関係抽出部120は、訂正マクロ辞書及び前後関係表併用型音声認識部125が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正箇所の前後関係の情報(220)を抽出する。
The
訂正マクロ前後関係表登録部124は、訂正マクロ辞書登録部110が登録した訂正マクロ(207)と前後関係抽出部120が生成した訂正箇所の前後関係の情報(220)とを組にして訂正マクロの前後関係の情報(222)を生成し、訂正マクロ前後関係表126に登録する。
The correction macro context
訂正マクロ辞書及び前後関係表併用型音声認識部125は、訂正マクロ辞書112及び訂正マクロ前後関係表126と認識語彙辞書107とを併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。
The corrected macro dictionary and context table combined
以下では、図11を参照しながら具体例を用いて本実施形態につき説明する。 Hereinafter, the present embodiment will be described using a specific example with reference to FIG.
図11は、前後関係抽出部120、訂正マクロ前後関係表登録部124、訂正マクロ及び前後関係表併用型音声認識部125の動作とその過程で作成される訂正箇所の前後関係の情報(220)、訂正マクロの前後関係の情報(222)の具体例を示したものである。
FIG. 11 shows the operation of the
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。 In this specific example, a case where a sentence “I will make efforts to break down the bone and bones” is considered. At this time, the user utters “Funkotsusai Shindo Rokushi”. Here, it is assumed that the word “crushed” is not registered in the recognition vocabulary dictionary.
なお、図11において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。 In addition, in Fig. 11, (a) is the first case (before correction / registration) that says "I'll do my best" and (b) is "I'll be my own." Is the second case (after correction / registration).
このとき、本音声認識システムは、次のような誤認識をすることになる(S51)。
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
At this time, the voice recognition system performs the following erroneous recognition (S51).
Input voice: "Funkotsusaishindo Rokushi"
Recognition result: “I will do my best in powdered bones.”
In order to correct this misrecognition, the user performs a correction operation (A) (see the first embodiment).
この操作による訂正結果は次のようになる(S52)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正手順生成部108は「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、訂正手順206として「訂正位置:認識結果中の『最新』、訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」を出力する。
The correction result by this operation is as follows (S52).
Correction result: “I will make efforts to break down the bone and bone.”
From the correction operation result of the user, the correction
これと同時に、ユーザの訂正操作202と音声認識結果201とから前後関係抽出部120は、「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係220として「訂正位置:前=『粉骨』、後=『努力』」を出力する。
At the same time, the
そして、訂正マクロ生成部109は、入力音声と訂正手順生成部108が生成した訂正手順206から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除」とを対応付けて、「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」という訂正マクロ207を生成する。訂正マクロ辞書登録部110は、この訂正マクロを訂正マクロ辞書112に登録する(S53)。
Then, the correction
一方、訂正マクロ前後関係表登録部124は、訂正マクロ辞書登録部110が登録した訂正マクロ207の「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」と訂正箇所の前後関係220の「訂正位置:前=『粉骨』、後=『努力』」から、「操作:「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除、読み:さいしん」:前=『粉骨』、後=『努力』という訂正マクロ前後関係222を生成し、訂正マクロ前後関係表126に登録する(S54)。
On the other hand, the correction macro context
訂正マクロ辞書及び前後関係表併用型音声認識部125は、この訂正マクロ辞書112と訂正マクロ前後関係表126と認識語彙辞書107を併用して音声認識する。その結果、次回、ユーザが「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、1番目の「さいしん」の部分では、前後関係が訂正マクロ登録時と異なるために、訂正マクロ辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される(S55,S56)。一方、2番目の「さいしん」の部分では、前後の単語が訂正マクロ前後関係表の単語と一致しているため、訂正マクロ辞書の方が参照されることになり、『「最新」を削除→「くだく しんたい」と発声→「く」「体」を削除』という訂正操作が自動実行され、最終的に「砕身」という表記が表示される(S55,S56)。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される(S57)。
The correction macro dictionary and context table combined
このように、訂正マクロ辞書を使用する場合に登録時の訂正マクロの前後関係を考慮することにより、適切な箇所にだけ訂正マクロを当てはめることができるようになる。 As described above, when the correction macro dictionary is used, the correction macro can be applied only to an appropriate portion by considering the context of the correction macro at the time of registration.
(第6の実施形態)
本発明の第6の実施形態は、第4の実施形態の前後関係の情報を考慮する構成を、第3の実施形態に適用したものである。第4の実施形態で示した、前後関係の情報を考慮する構成に関する効果やバリエーションは、本実施形態にも妥当する。
(Sixth embodiment)
In the sixth embodiment of the present invention, the configuration considering the contextual information of the fourth embodiment is applied to the third embodiment. The effects and variations related to the configuration taking into account the contextual information shown in the fourth embodiment are also applicable to this embodiment.
図12に、本発明の第6の実施形態に係る音声認識システム(自然言語処理システム)の構成例を示す。 FIG. 12 shows a configuration example of a speech recognition system (natural language processing system) according to the sixth embodiment of the present invention.
図12に示されるように、本音声認識システムは、音声入力部101、訂正結果生成部102、訂正単語生成部103、認識語彙辞書107、ユーザ単語辞書登録自動起動部113、ユーザ辞書115、前後関係抽出部120、ユーザ単語前後関係表登録部127、ユーザ単語辞書及び前後関係表併用型音声認識部128、ユーザ単語前後関係表129を備えている。なお、図6と同様の部分には同じ符号を付してある。
As shown in FIG. 12, the speech recognition system includes a
本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図2と同様である。 An example of a schematic procedure related to recognition processing and correction processing in the voice recognition system of the present embodiment is the same as that in FIG.
以下では、第3の実施形態と相違する点を中心に説明する。 Below, it demonstrates focusing on the point which is different from 3rd Embodiment.
ユーザ単語辞書及び前後関係表併用型音声認識部128は、後述するように、音声認識結果(201)を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。
The user word dictionary and the context table combined
生成された仮名漢字混じり文は、所定の表示装置(図示せず)の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置(図示せず)を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。 The generated kana-kanji mixed sentence is displayed on a display screen of a predetermined display device (not shown). The displayed kana-kanji mixed sentence accepts a correction operation from the user via a predetermined input device (not shown), and the correction result is displayed on the display screen of the predetermined display device. The
前後関係抽出部120は、ユーザ単語辞書及び前後関係表併用型音声認識部128が出力した音声認識結果(201)と、音声認識結果に対してユーザが実施した訂正操作(202)とから、訂正範囲を特定し、訂正箇所の前後関係の情報(220)を抽出する。
The
ユーザ単語前後関係表登録部127は、ユーザ単語辞書登録部113が登録したユーザ単語(208)と前後関係抽出部120が生成した訂正箇所の前後関係の情報(220)とを組にしてユーザ単語の前後関係の情報(223)を生成し、ユーザ単語前後関係表129に登録する。
The user word context
ユーザ単語辞書及び前後関係表併用型音声認識部128は、ユーザ単語辞書115及びユーザ単語前後関係表129と認識語彙辞書107と併用して音声認識する(入力音声200を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列201を生成する)。
The user word dictionary and context table combined
以下では、図13を参照しながら具体例を用いて本実施形態につき説明する。 Hereinafter, this embodiment will be described using a specific example with reference to FIG.
図13は、前後関係抽出部120、ユーザ単語前後関係表登録部127、ユーザ単語及び前後関係表併用型音声認識部128の動作とその過程で作成される訂正箇所の前後関係(220)、ユーザ単語の前後関係の情報(223)の具体例を示したものである。
FIG. 13 shows the operation of the
本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。 In this specific example, a case where a sentence “I will make efforts to break down the bone and bones” is considered. At this time, the user utters “Funkotsusai Shindo Rokushi”. Here, it is assumed that the word “crushed” is not registered in the recognition vocabulary dictionary.
なお、図13において(a)は「ふんこつさいしんどりょくします」と発声する1回目のケース(訂正・登録の前のケース)であり、(b)は「ふんこつさいしんどりょくします」と発声する2回目のケース(訂正・登録の後のケース)である。 In Fig. 13, (a) is the first case (before correction / registration) that says "I'll do my best", and (b) is "I'll do my best" Is the second case (after correction / registration).
このとき、本音声認識システムは、次のような誤認識をすることになる(S61)。 At this time, the voice recognition system performs the following erroneous recognition (S61).
入力音声:「ふんこつさいしんどりょくします」
認識結果:「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作(A)を実施する(第1の実施形態参照)。
Input voice: "Funkotsusaishindo Rokushi"
Recognition result: “I will do my best in powdered bones.”
In order to correct this misrecognition, the user performs a correction operation (A) (see the first embodiment).
この操作による訂正結果は次のようになる(S62)。
訂正結果:「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部102は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報203として「訂正位置:認識結果中の『最新』、訂正結果文字列:砕身」を出力する。
The correction result by this operation is as follows (S62).
Correction result: “I will make efforts to break down the bone and bone.”
From this correction operation result of the user, the correction
これと同時に、ユーザの訂正操作202と音声認識結果201から、前後関係抽出部120は「最新」という認識結果の位置の文字列に対して訂正操作(A)を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係220として「訂正位置:前=『粉骨』、後=『努力』」を出力する。
At the same time, from the user's correction operation 202 and the
そして、訂正単語生成部103は、入力音声と訂正結果生成部102が生成した訂正結果情報203から、「入力音声の訂正位置に該当する発声列:さいしん」と「訂正結果文字列:砕身」とを対応付けて、「表記:砕身、読み:さいしん」という訂正単語204を生成する。ユーザ単語辞書登録自動起動部113は、この訂正単語をユーザ単語208としてユーザ単語辞書115に登録する(S64)。ここで、ユーザ単語辞書に登録する前にユーザに確認画面を出し、登録内容を修正できるようにすることも可能である(S63)。
Then, the correction
一方、ユーザ単語前後関係表登録部127は、ユーザ単語辞書登録自動起動部113が登録したユーザ単語208の「表記:砕身、読み:さいしん」と訂正箇所の前後関係220の「訂正位置:前=『粉骨』、後=『努力』」とから、「表記:砕身、読み:さいしん」:前=『粉骨』、後=『努力』というユーザ単語前後関係223を生成し、ユーザ単語前後関係表129に登録する(S65)。
On the other hand, the user word context
ユーザ単語辞書及び前後関係表併用型音声認識部128は、このユーザ単語辞書115とユーザ単語前後関係表129と認識語彙辞書107とを併用して音声認識する。その結果、次回、ユーザが「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、1番目の「さいしん」の部分では、前後関係がユーザ単語登録時と異なるために、ユーザ単語辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される(S66,S67)。一方、2番目の「さいしん」の部分では、前後の単語がユーザ単語前後関係表の単語と一致しているため、ユーザ単語辞書の方が参照されることになり、「砕身」という表記が表示される(S66,S67)。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される(S68)。
The user word dictionary and context table combined
このように、ユーザ単語辞書を使用する場合に登録時のユーザ単語の前後関係を考慮することにより、適切な箇所にだけユーザ単語を当てはめることができるようになる。 As described above, when the user word dictionary is used, the user word can be applied only to an appropriate portion by considering the context of the user word at the time of registration.
ところで、第1〜第6の実施形態では、音声入力部が、ユーザからの入力音声データを認識処理して、仮名文字列を出力し、各認識部が、該仮名文字列をもとに、仮名漢字混じり文字列を生成するものであったが、その代わりに、入力部が、キーボード装置あるいはいわゆるソフトキー等の仮名文字入力デバイスによりユーザからの仮名文字列を入力し、各認識部が、該仮名文字列をもとに、仮名漢字混じり文字列を生成する場合にも、本発明は適用可能である。また、音声入力と仮名文字とを併用する場合も可能である。 By the way, in the first to sixth embodiments, the voice input unit recognizes input voice data from the user and outputs a kana character string, and each of the recognition units based on the kana character string, Instead of generating a kana-kanji mixed character string, instead, the input unit inputs a kana character string from the user by a kana character input device such as a keyboard device or a so-called soft key, and each recognition unit The present invention can also be applied to a case where a kana / kanji mixed character string is generated based on the kana character string. It is also possible to use both voice input and kana characters.
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
Each of the above functions can be realized even if it is described as software and processed by a computer having an appropriate mechanism.
The present embodiment can also be implemented as a program for causing a computer to execute predetermined means, causing a computer to function as predetermined means, or causing a computer to realize predetermined functions. In addition, the present invention can be implemented as a computer-readable recording medium that records the program.
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
101…音声入力部、102…訂正結果生成部、103…訂正単語生成部、104…訂正単語辞書登録部、105…訂正単語辞書併用型音声認識部、106…訂正単語辞書、107…認識語彙辞書、108…訂正手順生成部、109…訂正マクロ生成部、110…訂正マクロ辞書登録部、111…訂正マクロ辞書併用型音声認識部、112…訂正マクロ辞書、113…ユーザ単語辞書登録自動起動部、114…ユーザ単語辞書併用型音声認識部、115…ユーザ辞書、120…前後関係抽出部、121…訂正単語前後関係表登録部、122…訂正単語辞書及び前後関係表併用型音声認識部、123…訂正単語前後関係表、124…訂正マクロ前後関係表登録部、125…訂正マクロ辞書及び前後関係表併用型音声認識部、126…訂正マクロ前後関係表、127…ユーザ単語前後関係表登録部、128…ユーザ単語前後関係表、129…ユーザ単語辞書及び前後関係表併用型音声認識部
DESCRIPTION OF
Claims (8)
音声を入力する手段と、
入力した前記音声をもとにして仮名文字列を生成する手段と、
前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成手段と、
生成された前記仮名漢字文字列を表示画面に表示する表示手段と、
表示された前記仮名漢字文字列に対する訂正を受け付ける受付手段と、
前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成手段と、
生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録手段とを備え、
前記仮名漢字文字列生成手段は、前記特定の辞書にも基づいて前記生成を行うことを特徴とする音声情報処理システム。 A recognized vocabulary dictionary in which a plurality of first dictionary data including information related to reading of kana words for information to be processed and information related to notation in kana kanji are registered;
Means for inputting voice;
Means for generating a kana character string based on the input voice;
A kana / kanji character string generating means for generating a kana / kanji character string for the generated kana character string based on the recognition vocabulary dictionary;
Display means for displaying the generated kana-kanji character string on a display screen;
Accepting means for accepting corrections to the displayed kana-kanji character string;
Dictionary data generating means for generating second dictionary data including a kana character string that is the basis of the kana-kanji character string related to the correction and information about the content of the correction;
Registration means for registering the generated second dictionary data in a specific dictionary different from the recognized vocabulary dictionary;
The kana / kanji character string generation means performs the generation based on the specific dictionary.
生成された前記基準データを前記第2の辞書データに対応付けて記憶する記憶手段とを更に備え、
前記仮名漢字文字列生成手段は、前記基準データにも基づいて前記生成を行うことを特徴とする請求項1ないし4のいずれか1項に記載の音声情報処理システム。 Whether or not to apply the second dictionary data related to the correction in the generation of the kana / kanji character string by the kana / kanji character string generation means based on the generated kana / kanji character string and the correction to the kana / kanji character string Reference data generation means for generating reference data serving as a reference for determining whether or not
Storage means for storing the generated reference data in association with the second dictionary data;
5. The speech information processing system according to claim 1, wherein the kana-kanji character string generation unit performs the generation based on the reference data.
音声を入力する音声入力ステップと、
入力した前記音声をもとにして仮名文字列を生成する仮名文字列生成ステップと、
前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成ステップと、
生成された前記仮名漢字文字列を表示画面に表示する表示ステップと、
表示された前記仮名漢字文字列に対する訂正を受け付ける受付ステップと、
前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成ステップと、
生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録ステップとを有し、
前記仮名漢字文字列生成ステップでは、前記特定の辞書にも基づいて前記生成を行うことを特徴とする音声情報処理方法。 A speech information processing method in a language processing apparatus having a recognized vocabulary dictionary in which a plurality of first dictionary data including information related to reading of a vocabulary to be processed by kana and information related to notation in kana / kanji are registered,
A voice input step for inputting voice;
A kana character string generation step for generating a kana character string based on the input voice;
A kana / kanji character string generating step for generating a kana / kanji character string for the generated kana character string based on the recognition vocabulary dictionary;
A display step of displaying the generated kana-kanji character string on a display screen;
An accepting step of accepting correction for the displayed kana-kanji character string;
A dictionary data generation step of generating second dictionary data including a kana character string that is a source of the kana-kanji character string related to the correction and information on the content of the correction;
A registration step of registering the generated second dictionary data in a specific dictionary different from the recognized vocabulary dictionary;
In the kana / kanji character string generation step, the generation is performed based on the specific dictionary.
前記プログラムは、
音声を入力する音声入力ステップと、
入力した前記音声をもとにして仮名文字列を生成する仮名文字列生成ステップと、
前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成ステップと、
生成された前記仮名漢字文字列を表示画面に表示する表示ステップと、
表示された前記仮名漢字文字列に対する訂正を受け付ける受付ステップと、
前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第2の辞書データを生成する辞書データ生成ステップと、
生成された前記第2の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録ステップとをコンピュータに実行させるとともに、
前記仮名漢字文字列生成ステップでは、前記特定の辞書にも基づいて前記生成を行わせるものであることを特徴とするプログラム。 In a program for causing a computer to function as a speech information processing system including a recognized vocabulary dictionary in which a plurality of first dictionary data including information related to reading of a vocabulary to be processed by kana and information related to notation in kana / kanji are registered,
The program is
A voice input step for inputting voice;
A kana character string generation step for generating a kana character string based on the input voice;
A kana / kanji character string generating step for generating a kana / kanji character string for the generated kana character string based on the recognition vocabulary dictionary;
A display step of displaying the generated kana-kanji character string on a display screen;
An accepting step of accepting correction for the displayed kana-kanji character string;
A dictionary data generation step of generating second dictionary data including a kana character string that is a source of the kana-kanji character string related to the correction and information on the content of the correction;
Causing the computer to execute a registration step of registering the generated second dictionary data in a specific dictionary different from the recognized vocabulary dictionary;
In the kana-kanji character string generation step, the generation is performed based on the specific dictionary.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004049749A JP4189336B2 (en) | 2004-02-25 | 2004-02-25 | Audio information processing system, audio information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004049749A JP4189336B2 (en) | 2004-02-25 | 2004-02-25 | Audio information processing system, audio information processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005241829A true JP2005241829A (en) | 2005-09-08 |
JP4189336B2 JP4189336B2 (en) | 2008-12-03 |
Family
ID=35023644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004049749A Expired - Fee Related JP4189336B2 (en) | 2004-02-25 | 2004-02-25 | Audio information processing system, audio information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4189336B2 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006243575A (en) * | 2005-03-07 | 2006-09-14 | Nec Corp | Speech transcribing support device, and method and program therefor |
JP2008158510A (en) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | Speech recognition system and speech recognition system program |
JP2009265276A (en) * | 2008-04-23 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | Support device, program, and support method |
JP2009276495A (en) * | 2008-05-14 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | Incorrect speech recognition correction support device, its method, program and its recording medium |
CN102640107A (en) * | 2009-11-30 | 2012-08-15 | 株式会社东芝 | Information processing device |
JP2017167378A (en) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | Word score calculation device, word score calculation method, and program |
JP2018040906A (en) * | 2016-09-06 | 2018-03-15 | 株式会社東芝 | Dictionary update device and program |
CN109841209A (en) * | 2017-11-27 | 2019-06-04 | 株式会社速录抓吧 | Speech recognition apparatus and system |
JP2019528470A (en) * | 2016-07-29 | 2019-10-10 | グーグル エルエルシー | Acoustic model training using corrected terms |
JP2021039326A (en) * | 2019-09-05 | 2021-03-11 | サウンドハウンド,インコーポレイテッド | System and method for detection and correction of query |
JP2021071658A (en) * | 2019-10-31 | 2021-05-06 | 株式会社リコー | Server device, communication system and information processing method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5396530B2 (en) * | 2012-12-11 | 2014-01-22 | 株式会社Nttドコモ | Speech recognition apparatus and speech recognition method |
-
2004
- 2004-02-25 JP JP2004049749A patent/JP4189336B2/en not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006243575A (en) * | 2005-03-07 | 2006-09-14 | Nec Corp | Speech transcribing support device, and method and program therefor |
JP4736478B2 (en) * | 2005-03-07 | 2011-07-27 | 日本電気株式会社 | Voice transcription support device, method and program thereof |
JP2008158510A (en) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | Speech recognition system and speech recognition system program |
US8401847B2 (en) | 2006-11-30 | 2013-03-19 | National Institute Of Advanced Industrial Science And Technology | Speech recognition system and program therefor |
JP2009265276A (en) * | 2008-04-23 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | Support device, program, and support method |
JP2009276495A (en) * | 2008-05-14 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | Incorrect speech recognition correction support device, its method, program and its recording medium |
CN102640107A (en) * | 2009-11-30 | 2012-08-15 | 株式会社东芝 | Information processing device |
US20120296647A1 (en) * | 2009-11-30 | 2012-11-22 | Kabushiki Kaisha Toshiba | Information processing apparatus |
JP2017167378A (en) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | Word score calculation device, word score calculation method, and program |
JP2019528470A (en) * | 2016-07-29 | 2019-10-10 | グーグル エルエルシー | Acoustic model training using corrected terms |
JP2018040906A (en) * | 2016-09-06 | 2018-03-15 | 株式会社東芝 | Dictionary update device and program |
US10496745B2 (en) | 2016-09-06 | 2019-12-03 | Kabushiki Kaisha Toshiba | Dictionary updating apparatus, dictionary updating method and computer program product |
CN109841209A (en) * | 2017-11-27 | 2019-06-04 | 株式会社速录抓吧 | Speech recognition apparatus and system |
JP2021039326A (en) * | 2019-09-05 | 2021-03-11 | サウンドハウンド,インコーポレイテッド | System and method for detection and correction of query |
US11263198B2 (en) | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
JP7066667B2 (en) | 2019-09-05 | 2022-05-13 | サウンドハウンド,インコーポレイテッド | Methods, programs, and systems for detecting and correcting queries |
JP2021071658A (en) * | 2019-10-31 | 2021-05-06 | 株式会社リコー | Server device, communication system and information processing method |
JP7463690B2 (en) | 2019-10-31 | 2024-04-09 | 株式会社リコー | Server device, communication system, information processing method, program and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP4189336B2 (en) | 2008-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070100619A1 (en) | Key usage and text marking in the context of a combined predictive text and speech recognition system | |
JP2002014954A (en) | Chinese language inputting and converting processing device and method, and recording medium | |
JP5535238B2 (en) | Information processing device | |
CN102193913B (en) | Translation apparatus and translation method | |
JPS61107430A (en) | Editing unit for voice information | |
JP2002117026A (en) | Method and system for filtration and selection from candidate list generated by probabilistic input method | |
JP4189336B2 (en) | Audio information processing system, audio information processing method and program | |
JPWO2007097390A1 (en) | Speech recognition system, speech recognition result output method, and speech recognition result output program | |
US20060095263A1 (en) | Character string input apparatus and method of controlling same | |
JP6678545B2 (en) | Correction system, correction method and program | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
WO2012144525A1 (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JPS634206B2 (en) | ||
JP2002207728A (en) | Phonogram generator, and recording medium recorded with program for realizing the same | |
JP2010197709A (en) | Voice recognition response method, voice recognition response system and program therefore | |
JP2009199434A (en) | Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program | |
CN110782899A (en) | Information processing apparatus, storage medium, and information processing method | |
JP4622861B2 (en) | Voice input system, voice input method, and voice input program | |
JP3284976B2 (en) | Speech synthesis device and computer-readable recording medium | |
JP6640788B2 (en) | Language conversion program and language conversion device | |
JP2001014304A (en) | Document creating device, conversion processing method, and recording medium where conversion processing program is recorded | |
JP2001109740A (en) | Device and method for preparing chinese document | |
JP2000003355A (en) | Chinese input conversion processor, new word register method used for the same, and recording medium | |
JP2009258369A (en) | Speech recognition dictionary creation device and speech recognition processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080909 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080912 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130919 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |