JP5688677B2 - Voice input support device - Google Patents

Voice input support device Download PDF

Info

Publication number
JP5688677B2
JP5688677B2 JP2010224961A JP2010224961A JP5688677B2 JP 5688677 B2 JP5688677 B2 JP 5688677B2 JP 2010224961 A JP2010224961 A JP 2010224961A JP 2010224961 A JP2010224961 A JP 2010224961A JP 5688677 B2 JP5688677 B2 JP 5688677B2
Authority
JP
Japan
Prior art keywords
text
word
words
reliability
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010224961A
Other languages
Japanese (ja)
Other versions
JP2012078650A (en
Inventor
敦典 坂井
敦典 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010224961A priority Critical patent/JP5688677B2/en
Publication of JP2012078650A publication Critical patent/JP2012078650A/en
Application granted granted Critical
Publication of JP5688677B2 publication Critical patent/JP5688677B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、音声認識により音声でテキスト入力を行う技術に関する。   The present invention relates to a technique for inputting text by voice by voice recognition.

従来、音声によるテキスト入力は、キー操作が煩雑なモバイル端末での利用が期待されており、これまでも音声認識機能を実装した携帯電話等が実装されている。しかしながら、発話の際の言い淀みや言い誤り、言い直し、声が小さいといった発声の影響、音声認識用の辞書に発話内容が登録されていない等の辞書の影響、周囲の雑音の大きい場合、その他の各種要因によって、誤認識が発生することがあり、認識精度を100%にすることは困難である。また、音声認識で誤認識が発生した場合、誤認識箇所へのカーソルの移動、誤認識箇所の削除、正しい文の入力、次の音声入力に備えるためカーソルを文の最後尾に移動させるといった誤認識の際の修正処理を、キー入力で行う必要がある。しかし、一般的なユーザの場合、モバイル端末ではキー操作を行う指が親指等に限られているため、修正作業が非常に煩雑である。   Conventionally, text input by voice is expected to be used in a mobile terminal with complicated key operations, and so far, cellular phones and the like equipped with a voice recognition function have been mounted. However, the influence of utterances such as grudges and mistakes during speech, rephrasing, low voice, the influence of dictionaries such as utterance contents not being registered in the dictionary for speech recognition, if the surrounding noise is large, etc. Due to various factors, erroneous recognition may occur, and it is difficult to make the recognition accuracy 100%. Also, if a misrecognition occurs during voice recognition, the cursor is moved to the wrong recognition location, the wrong recognition location is deleted, the correct sentence is input, and the cursor is moved to the end of the sentence to prepare for the next voice input. Correction processing at the time of recognition needs to be performed by key input. However, in the case of a general user, a finger for performing a key operation is limited to a thumb or the like in a mobile terminal, so that the correction work is very complicated.

特開2001−5809号公報JP 2001-5809 A 特開2003−263190号公報JP 2003-263190 A 特開2002−14693号公報JP 2002-14693 A

音声認識により音声でテキスト入力を行う技術については、これまでに次のようなものが知られている。   The following are known techniques for inputting text by voice recognition.

特許文献1は、音声認識結果をユーザ自身で修正した場合、修正前の単語と修正後の単語の関連情報を保存しておくことによって、次回に音声認識結果の修正を行う場合に、自動修正を行うことができることが記載されている。しかしながら、修正前の単語と修正後の単語の関連情報がない単語では修正を行うことができず、また、前後の単語の繋がりを見て判断しているわけでないため、前後の単語の繋がりに則さない単語でも自動的に置き換えられてしまう。   When the speech recognition result is corrected by the user himself / herself, Patent Document 1 automatically corrects the speech recognition result when the speech recognition result is corrected next time by storing related information between the word before correction and the word after correction. It is described that can be performed. However, it is not possible to make corrections for words that do not have related information between the word before correction and the word after correction, and it is not determined by looking at the connection between the previous and subsequent words. Even non-compliant words are automatically replaced.

特許文献2は、音声認識された質問に対して、あらかじめ誤認識テキストと正しいテキストとの対応データを持つ誤認識修正データベースを持っておくことで、対話型音声認識において、認識結果の修正を行うことが記載されている。しかし、特許文献2も、あらかじめ誤認識と正解のテキスト対応を学習させる必要があり非常に手間がかかる。また、誤認識修正データベースにない文の修正は行うことができない。   Patent Document 2 corrects a recognition result in interactive speech recognition by having a misrecognition correction database having correspondence data between misrecognized text and correct text in advance for a question that has been speech-recognized. It is described. However, Patent Document 2 is also very time-consuming because it is necessary to learn misrecognition and correct text correspondence in advance. In addition, it is not possible to correct sentences that are not in the misrecognition correction database.

特許文献3は、認識結果の中で誤っている箇所をユーザが修正した際に、その修正情報を音声認識用の辞書に反映させることで、ユーザが語彙を登録しなくても、自動的に語彙が増える音声認識システム用辞書作成方法が記載されている。しかし、発話者の言い淀みや言い間違いなどの際の認識誤りを防ぐことはできない。   In Patent Document 3, when a user corrects an erroneous part in a recognition result, the correction information is reflected in a dictionary for speech recognition, so that even if the user does not register a vocabulary, A method for creating a dictionary for a speech recognition system with increasing vocabulary is described. However, it is not possible to prevent misrecognition when a speaker speaks or makes a mistake.

本発明では、発話者の言い淀みや言い誤り、周囲の雑音等により誤認識が発生した場合でも、従来の音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換しようとするものである。また、前もって修正前単語と修正後単語の関連情報を登録しておく必要がないものを提供しようとするものである。さらに、変換候補を修正した場合に予測変換候補に反映させることで、誤認識修正の精度を向上させようとするものである。   In the present invention, even when a misrecognition occurs due to a speaker's grudge or misunderstanding, ambient noise, etc., an attempt is made to convert a location that the conventional speech recognition engine misrecognizes into a word that is in accordance with the preceding and following word connections To do. Further, the present invention intends to provide information that does not need to register the related information of the pre-correction word and the post-correction word in advance. Furthermore, when the conversion candidate is corrected, the accuracy of the erroneous recognition correction is improved by reflecting the conversion candidate on the prediction conversion candidate.

本発明の一実施形態に係る音声入力支援システムは、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える。かかる実施形態によれば、発話者の言い淀みや言い誤り、周囲の雑音等により誤認識が発生した場合でも、音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換することが可能となる。また、予測変換辞書を転用できるため、前もって修正前単語と修正後単語の関連情報を登録しておく必要がない。予測変換機能を利用し、音声認識結果の誤認識を補間することで、認識精度の向上と利便性の向上を図ることができる。   A speech input support system according to an embodiment of the present invention includes a speech recognition engine that converts input speech into text by speech recognition processing and outputs the text, and a word in the output text that has low reliability. A predictive conversion module that corrects the text by predictive conversion based on a character string including one or more highly reliable words included in the text, and outputs the corrected text. According to such an embodiment, even when a misrecognition occurs due to a speaker's grudge or misrepresentation, ambient noise, etc., the location that the speech recognition engine misrecognizes is converted into a word that is in accordance with the preceding and following word sequence. It becomes possible. Further, since the predictive conversion dictionary can be diverted, it is not necessary to register the related information of the pre-correction word and the post-correction word in advance. By using the predictive conversion function and interpolating misrecognition of the speech recognition result, it is possible to improve recognition accuracy and convenience.

好適には、音声認識エンジンは、入力された音声をテキストに変換する際に、テキストに含まれる各単語の信頼度を出力する。また、音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力することが好ましい。かかる実施形態によれば、音声認識エンジンが誤認識する箇所について、複数の候補単語を比較することができる。   Preferably, the speech recognition engine outputs the reliability of each word included in the text when the input speech is converted into text. In addition, when the converted text includes a word with low reliability, the speech recognition engine preferably outputs one or more candidate words that replace the word. According to this embodiment, a plurality of candidate words can be compared with respect to a location that the speech recognition engine misrecognizes.

また、予測変換モジュールは、信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正することが好ましい。かかる実施形態によれば、高信頼度の単語からの予測変換候補と低信頼度の単語の上位の候補とを比較し、一致する候補を選択することで、誤認識単語を前後の数単語と意味の繋がりが合う単語に変換することができるので、音声認識エンジンが誤認識する箇所を、予測変換の結果を用いて、最も確からしい候補で修正することができる。   In addition, the predictive conversion module compares a plurality of predictive conversion candidates based on a character string including one or more words with high reliability, a low reliability word, and candidate words of the word, and selects matching candidates. By doing so, it is preferable to correct words with low reliability. According to such an embodiment, the prediction conversion candidate from the high reliability word is compared with the higher candidate of the low reliability word, and the matching candidate is selected. Since it can be converted into a word with which the meanings are connected, the portion that is erroneously recognized by the speech recognition engine can be corrected with the most probable candidate using the result of the predictive conversion.

さらに好適には、信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、信頼度の低い単語の一つ前の単語までを含む。   More preferably, the character string composed of one or more words with high reliability includes from the first word of the text output by the speech recognition engine to the word immediately before the word with low reliability.

音声入力支援システムは、予測変換を行うための情報が格納され、予測変換モジュールによって参照される予測変換情報格納部と、予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して予測変換情報格納部に格納する予測変換候補順位決定部と、をさらに備えることが好ましい。かかる実施形態によれば、変換候補を修正した場合に予測変換候補に反映させることで、誤認識修正の精度を向上させることができる。また、ユーザが使い込むほど認識精度が向上する。   The speech input support system stores information for performing prediction conversion, and when the user corrects the prediction conversion information storage unit referred to by the prediction conversion module and the text output by the prediction conversion module, the corrected content It is preferable to further include a predictive conversion candidate order determining unit that stores the result in the predictive conversion information storage unit by reflecting it in the predictive conversion order. According to this embodiment, when the conversion candidate is corrected, the accuracy of the erroneous recognition correction can be improved by reflecting the conversion candidate on the prediction conversion candidate. Further, the recognition accuracy improves as the user uses it.

また、本発明にの一実施形態に係る音声入力支援方法は、音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、予測変換モジュールが、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力するステップと、を備える。   A speech input support method according to an embodiment of the present invention is a method for supporting speech input in a speech input support system including a speech recognition engine and a predictive conversion module, and the speech recognition engine is input. When the speech is converted into text by speech recognition processing and the predictive conversion module includes a word with low reliability among the words in the output text, one of the high reliability included in the text is included. A step of correcting the text by predictive conversion based on the character string including the above words and outputting the corrected text.

本発明によれば、既存の予測変換機能を用いて音声認識結果の修正を行うため、音声認識の誤認識を補正するための特別な情報を持っておく必要がなく、音声認識の誤認識を自動的に修正することができる。また、予測変換候補と信頼度が上位の候補とを比較し一致する候補を選択する場合には、誤認識を前後の単語と意味の繋がりが合う単語に修正することができる。さらに、ユーザがキー入力等で誤認識箇所を修正する場合には、その内容が予測変換に反映することができ、その場合には、使い込むほど誤認識修正の精度を向上させることができる。加えて、モバイル端末に標準で実装されている予測変換機能を利用する場合には、比較的容易に本システムを実装することが可能である。   According to the present invention, since the speech recognition result is corrected using the existing predictive conversion function, it is not necessary to have special information for correcting speech recognition misrecognition. It can be corrected automatically. In addition, when comparing a prediction conversion candidate with a candidate having a higher reliability and selecting a matching candidate, the misrecognition can be corrected to a word whose meaning is connected to the preceding and following words. Furthermore, when the user corrects a misrecognized portion by key input or the like, the content can be reflected in the predictive conversion. In this case, the accuracy of the misrecognition correction can be improved as the user uses it. In addition, when using a predictive conversion function that is implemented as a standard in a mobile terminal, the system can be implemented relatively easily.

音声入力支援システムの概略構成の一例を示すブロック図である。It is a block diagram which shows an example of schematic structure of a speech input assistance system. 言語モデルの仕組みを示す概略図である。It is the schematic which shows the structure of a language model. 音声入力支援システムの一実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of a voice input assistance system. 本実施形態における処理の流れを示すフローチャートの一部である。It is a part of flowchart which shows the flow of the process in this embodiment. 本実施形態における処理の流れを示すフローチャートの一部である。It is a part of flowchart which shows the flow of the process in this embodiment. 本実施形態における処理の流れを示すフローチャートの一部である。It is a part of flowchart which shows the flow of the process in this embodiment. 本実施形態による音声入力変換の実施例を示す図である。It is a figure which shows the Example of the audio | voice input conversion by this embodiment. 本実施形態による音声入力変換の実施例を示す図である。It is a figure which shows the Example of the audio | voice input conversion by this embodiment. 本実施形態による音声入力変換の実施例を示す図である。It is a figure which shows the Example of the audio | voice input conversion by this embodiment.

以下、本発明の実施の形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, the same code | symbol is attached | subjected to the same element and the overlapping description is abbreviate | omitted.

図1は、本発明による音声入力支援システムの概略構成の一例を示すブロック図である。同図に示すように、音声入力支援システム1は、モバイル端末10と、音声認識サーバ20とを含み、これらがネットワークNを介して相互に接続されている。モバイル端末10は、携帯電話やスマートフォン、携帯情報端末(PDA)、キーボードレス情報機器、その他の携帯可能な情報機器を含む。モバイル端末10と音声認識サーバ20はそれぞれ、各部の動作や処理を制御するための制御装置としてのプロセッサ、処理プログラムや各種データの記録及び作業領域として用いられる記憶装置としての外部記録装置やメモリ、文字入力を行うためのキーや音声入力を行うためのマイクを含む入力インターフェース、液晶ディスプレイ等の出力装置を含む出力インターフェース、ネットワークNを介して通信を行うための通信インターフェース、及びこれらを結ぶバスを備える専用又は汎用のコンピュータを適用することができる。また、ネットワークNは通信用のネットワークを含み、インターネットやLAN、電話回線等を含み、無線であるか有線であるかを問わない。   FIG. 1 is a block diagram showing an example of a schematic configuration of a voice input support system according to the present invention. As shown in the figure, the voice input support system 1 includes a mobile terminal 10 and a voice recognition server 20, which are connected to each other via a network N. The mobile terminal 10 includes a mobile phone, a smart phone, a personal digital assistant (PDA), a keyboardless information device, and other portable information devices. Each of the mobile terminal 10 and the voice recognition server 20 includes a processor as a control device for controlling the operation and processing of each unit, an external recording device and a memory as a storage device used as a recording and processing area for processing programs and various data, An input interface including a key for inputting characters and a microphone for inputting voice, an output interface including an output device such as a liquid crystal display, a communication interface for performing communication via the network N, and a bus connecting them A dedicated or general-purpose computer can be applied. The network N includes a communication network, and includes the Internet, a LAN, a telephone line, and the like, regardless of whether it is wireless or wired.

このように構成される音声入力支援システム1において、モバイル端末10は、ユーザから音声が入力されると、その音声を、ネットワークNを介して音声認識サーバ20に送る。音声認識サーバ20が音声を受信すると、音声認識エンジン21が言語モデル22と音響モデル23とを適用して音声認識処理を行い、音声をテキスト化する。   In the voice input support system 1 configured as described above, when a voice is input from the user, the mobile terminal 10 sends the voice to the voice recognition server 20 via the network N. When the voice recognition server 20 receives voice, the voice recognition engine 21 applies the language model 22 and the acoustic model 23 to perform voice recognition processing, and converts the voice into text.

ここで、言語モデル22とは、言語に関するデータを集めた統計的モデルであり、好適には、単語とその並び方の情報を集めた統計的モデルである。この場合、言語モデル22は、単語の並び方に関する制約を表すことになる。具体的には、例えば、単語N−gram方式が好ましい。言語モデル22を利用することにより、次に発声されうる単語を予測して、認識対象語彙を絞ることが可能となる。なお、図2は、言語モデルの仕組みを示す概略図である。図2に示すように、言語モデル22は、次に続く単語候補の重み付けを行うモデルとなる。   Here, the language model 22 is a statistical model in which data related to a language is collected, and is preferably a statistical model in which information on words and their arrangement is collected. In this case, the language model 22 represents restrictions on how words are arranged. Specifically, for example, the word N-gram method is preferable. By using the language model 22, it is possible to predict words that can be uttered next and narrow down the recognition target vocabulary. FIG. 2 is a schematic diagram showing the mechanism of the language model. As shown in FIG. 2, the language model 22 is a model for weighting the next word candidates.

音響モデル23とは、音に関するデータを集めた統計的モデルであり、好適には、音声の波形データを集めた統計的モデルである。この場合、認識対象の音素がそれぞれどのような周波数特性を持っているかを統計的に表したものとなる。   The acoustic model 23 is a statistical model in which data related to sound is collected, and is preferably a statistical model in which waveform data of speech is collected. In this case, the frequency characteristics of each recognition target phoneme are statistically expressed.

予測変換モジュール24には、音声認識エンジン21による音声認識の結果得られたテキスト(以下「認識結果テキスト」という)が渡される。予測変換モジュール24は、認識結果テキスト内の各単語の中に信頼度の低い単語があるか否かを判断する。信頼度の低い単語がない場合は、認識結果テキストがそのままモバイル端末10に転送され、モバイル端末10の出力インターフェースに認識結果テキストが表示される。一方、認識結果テキスト内の単語の中に信頼度の低い単語がある場合、予測変換モジュール24は、認識結果テキスト内の信頼度の高い単語を一つ以上接続してなる予測変換元テキストに基づいて予測変換を行い、予測変換候補により低信頼度の単語を変換した後、変換後の認識結果テキストをモバイル端末10に送る。モバイル端末10は、受信した変換後の認識結果テキストを出力インターフェースに表示する。   A text obtained as a result of speech recognition by the speech recognition engine 21 (hereinafter referred to as “recognition result text”) is passed to the predictive conversion module 24. The predictive conversion module 24 determines whether or not each word in the recognition result text has a low reliability word. If there is no word with low reliability, the recognition result text is transferred to the mobile terminal 10 as it is, and the recognition result text is displayed on the output interface of the mobile terminal 10. On the other hand, when there is a word with low reliability among the words in the recognition result text, the prediction conversion module 24 is based on the prediction conversion source text formed by connecting one or more words with high reliability in the recognition result text. Then, predictive conversion is performed, and words with low reliability are converted using predictive conversion candidates, and the converted recognition result text is sent to the mobile terminal 10. The mobile terminal 10 displays the received recognition result text after conversion on the output interface.

モバイル端末10上に表示された認識結果に誤認識がある場合、ユーザはキー入力等により誤認識の単語を修正する。キー入力等で修正した単語は、予測変換モジュール24における予測変換候補に反映される。この操作により、次回に同じ誤認識があった場合、予測変換候補の上位に正しい単語が表示されるため、正しく変換される確率が高まり、認識結果の誤認識を低減させることができる。   When the recognition result displayed on the mobile terminal 10 is erroneously recognized, the user corrects the erroneously recognized word by key input or the like. The word corrected by key input or the like is reflected in the prediction conversion candidate in the prediction conversion module 24. With this operation, when the same misrecognition occurs next time, the correct word is displayed at the top of the predicted conversion candidate, so that the probability of correct conversion is increased and the misrecognition of the recognition result can be reduced.

また、図1では、音声認識機能と予測変換機能は、音声認識サーバ20上で行っているが、モバイル端末10自身の処理能力によっては、音声認識サーバ20の機能をモバイル端末10内に含めることも可能である。すなわち、音声認識エンジン21、言語モデル22、音響モデル23、及び予測変換モジュール24をモバイル端末10内に含めることにより、音声認識と予測変換をモバイル端末10内単体で実施することが可能となる。この場合は、ネットワークNに接続できない際にも、本システムを利用することが可能となる。   In FIG. 1, the speech recognition function and the predictive conversion function are performed on the speech recognition server 20, but the function of the speech recognition server 20 may be included in the mobile terminal 10 depending on the processing capability of the mobile terminal 10 itself. Is also possible. That is, by including the speech recognition engine 21, the language model 22, the acoustic model 23, and the predictive conversion module 24 in the mobile terminal 10, speech recognition and predictive conversion can be performed in the mobile terminal 10 alone. In this case, the system can be used even when the network N cannot be connected.

図3は、音声入力支援システムの一実施形態の構成を示すブロック図である。   FIG. 3 is a block diagram showing a configuration of an embodiment of the voice input support system.

モバイル端末10は、音声検知部101と、認識結果表示部102と、入力検知部103を備える。音声認識サーバ20は、音声認識処理部201と、言語モデル格納部202と、音響モデル格納部203と、低信頼度単語変換部204と、予測変換候補順位決定部205と、単語境界判別部206と、予測変換部207と、予測変換情報格納部208とを備える。なお、図1に記載の概略構成の一例と対応付けるとすると、音声認識処理部201は音声認識エンジン21を含む。言語モデル格納部202と音響モデル格納部203には、それぞれ言語モデル22と音響モデル23が格納されている。また、予測変換モジュール24は、低信頼度単語変換部204、予測変換候補順位決定部205、単語境界判別部206、予測変換部207、及び予測変換情報格納部208を含むものである。   The mobile terminal 10 includes a voice detection unit 101, a recognition result display unit 102, and an input detection unit 103. The speech recognition server 20 includes a speech recognition processing unit 201, a language model storage unit 202, an acoustic model storage unit 203, a low-reliability word conversion unit 204, a predictive conversion candidate rank determination unit 205, and a word boundary determination unit 206. A prediction conversion unit 207 and a prediction conversion information storage unit 208. Note that the speech recognition processing unit 201 includes the speech recognition engine 21 when associated with an example of the schematic configuration illustrated in FIG. 1. The language model storage unit 202 and the acoustic model storage unit 203 store a language model 22 and an acoustic model 23, respectively. The prediction conversion module 24 includes a low reliability word conversion unit 204, a prediction conversion candidate rank determination unit 205, a word boundary determination unit 206, a prediction conversion unit 207, and a prediction conversion information storage unit 208.

このように構成される音声入力支援システムにおいて、ユーザはモバイル端末10のマイクなどの音声入力装置(図示略)に向かって認識させたい文章を発話する。音声入力装置に入力された音声は、音声検知部101により音声区間が検知され、検出された音声は、ネットワークNを介して音声認識サーバ20の音声認識処理部201に送られる。   In the voice input support system configured as described above, the user utters a sentence to be recognized toward a voice input device (not shown) such as a microphone of the mobile terminal 10. The voice input to the voice input device is detected by the voice detection unit 101, and the detected voice is sent to the voice recognition processing unit 201 of the voice recognition server 20 via the network N.

音声認識サーバ20が受信した音声は、音声認識処理部201の音声認識エンジン21において、言語モデル格納部202に格納された言語モデル22と、音響モデル格納部203に格納された音響モデル23とが適用された状態で、音声認識処理が行われる。音声認識エンジン21による音声認識の結果として出力された認識結果テキストと、認識の際に合わせて出力される認識結果テキストに含まれる各単語の信頼度と、認識結果テキストとして出力された各単語に次ぐ所定数の上位候補の単語が、低信頼度単語変換部204に送られる。なお、以下では、認識結果テキストとして出力された各単語を「最上位信頼度単語」といい、最上位信頼度単語とその単語に次ぐ上位候補の単語を合わせて「上位信頼度単語」という。認識結果テキストに含まれる各単語について、音声認識処理部201から低信頼度単語変換部204に送られる上位信頼度単語の数は、複数の所定数の候補単語を低信頼度単語変換部204に送るものとしてもよいし、最上位信頼度単語の信頼度に応じて決定するようにしてもよい。また、信頼度が所定の値よりも大きい候補単語を全て低信頼度単語変換部204に送るようにしてもよい。   The speech received by the speech recognition server 20 is divided into a language model 22 stored in the language model storage unit 202 and an acoustic model 23 stored in the acoustic model storage unit 203 in the speech recognition engine 21 of the speech recognition processing unit 201. The speech recognition process is performed in the applied state. The recognition result text output as a result of speech recognition by the speech recognition engine 21, the reliability of each word included in the recognition result text output in accordance with the recognition, and each word output as the recognition result text Next, a predetermined number of upper candidate words are sent to the low-reliability word conversion unit 204. In the following, each word output as the recognition result text is referred to as a “highest reliability word”, and the highest reliability word and the top candidate word next to the word are collectively referred to as a “higher reliability word”. For each word included in the recognition result text, the number of higher-reliability words sent from the speech recognition processing unit 201 to the low-reliability word conversion unit 204 is obtained by adding a plurality of predetermined number of candidate words to the low-reliability word conversion unit 204. It may be sent, or may be determined according to the reliability of the highest reliability word. Alternatively, all candidate words having a reliability higher than a predetermined value may be sent to the low reliability word conversion unit 204.

本発明において、単語の信頼度とは、本システムの出力する認識結果をどれだけ「信頼」してよいかを表す尺度である。値は0.0〜1.0の範囲で、数値が1.0に近いほど、その単語に似たスコアを持つ他の競合候補がほとんど無かったことを示し、0に近づくほど、その単語と同じ程度のスコアをもつ他の単語候補が多く出現していたことを示す。すなわち、数値が高いほど、その認識結果の一位候補の単語に近い他の候補が無く、音声認識処理部201が「確信」をもってその認識結果を出力した単語となる。また、認識結果として出力される各単語の信頼度は、音響モデルから算出された確率(音の観点から算出された確率)と言語モデルから算出された確率(文章での各単語の繋がりモデルから算出された確率)の統計確率で最上位のものが出力される。   In the present invention, the word reliability is a measure representing how much “reliable” the recognition result output by the system can be. The value is in the range of 0.0 to 1.0. The closer the value is to 1.0, the fewer other competitor candidates with similar scores to the word. This indicates that many other word candidates having the same score have appeared. That is, as the numerical value is higher, there is no other candidate close to the first candidate word of the recognition result, and the speech recognition processing unit 201 outputs the recognition result with “confidence”. The reliability of each word output as a recognition result is based on the probability calculated from the acoustic model (probability calculated from the viewpoint of sound) and the probability calculated from the language model (from the connection model of each word in the sentence). The highest statistical probability of the calculated probability) is output.

図3に戻り、低信頼度単語変換部204では、認識結果テキスト中に閾値以下の信頼度の単語が一つもない場合には、認識結果テキストをそのままモバイル端末10に送付する。認識結果テキスト中に閾値以下の信頼度の単語が一つ以上ある場合、認識結果テキストの先頭からその閾値以下の単語の一つ前の単語までを予測変換元テキストとして、予測変換部207に送る。予測変換部207は、予測変換元テキストを基に予測変換を行い、予測変換候補のうち上位の候補を単語境界判別部206に送る。予測変換とは、入力されたテキストの先に続く内容を予測して、一以上の候補を提示等する機能である。本実施例の予測変換部207は、予測変換元テキストの先に続く内容を予測して、複数の予測変換候補を生成し、所定の基準を満たす複数の予測変換候補を予測変換候補一覧として単語境界判別部206に送る。   Returning to FIG. 3, the low-reliability word conversion unit 204 sends the recognition result text as it is to the mobile terminal 10 when there is no word with a reliability less than or equal to the threshold in the recognition result text. If the recognition result text includes one or more words having a reliability level equal to or lower than the threshold value, a word from the beginning of the recognition result text to a word immediately preceding the word lower than the threshold value is sent to the prediction conversion unit 207 as a prediction conversion source text. . The predictive conversion unit 207 performs predictive conversion based on the predictive conversion source text, and sends higher rank candidates among the predictive conversion candidates to the word boundary determination unit 206. Predictive conversion is a function that predicts the content that follows the input text and presents one or more candidates. The predictive conversion unit 207 of the present embodiment predicts the content following the predictive conversion source text, generates a plurality of predictive conversion candidates, and selects a plurality of predictive conversion candidates that satisfy a predetermined criterion as a prediction conversion candidate list. The data is sent to the boundary determination unit 206.

単語境界判別部206は、受け取った予測変換候補一覧の各テキストに対して形態素解析処理を行い、予測変換候補一覧に含まれる各予測変換候補の文章を単語に分解する。形態素解析とは、ある文章に対して文を構成する最小の意味単位である形態素(例えば、単語)に分解する処理をいう。そして、予測変換候補一覧と、予測変換候補一覧中の各候補文章の単語の境界情報は、低信頼度単語変換部204に送られる。低信頼度単語変換部204は、最上位信頼度単語が閾値以下の信頼度の単語の上位信頼度単語と予測変換候補一覧中の各予測変換候補に含まれる各単語とを比較し、一致する予測変換候補があれば、その予測変換候補を変換後認識結果テキストとして出力する。一致する予測変換候補が複数ある場合には、最上位信頼度単語が閾値以下の単語以降のテキストの一致度も利用して、最も一致度が高くて類似する予測変換候補を変換後認識結果テキストとして出力する。こうして、音声認識の結果に低信頼度の単語がある場合に、認識テキストの先頭からその単語の一つ前の単語までのテキストから予測変換を行い、出力された予測変換候補と、上位信頼度単語とを比較し、一致する候補があればその単語を出力するという処理を行うことで、誤変換された認識テキストを予測変換機能により修正することができる。   The word boundary determination unit 206 performs a morpheme analysis process on each text in the received prediction conversion candidate list, and decomposes the sentence of each prediction conversion candidate included in the prediction conversion candidate list into words. The morpheme analysis is a process of decomposing a sentence into morphemes (for example, words) which are the minimum semantic units constituting a sentence. Then, the prediction conversion candidate list and the word boundary information of each candidate sentence in the prediction conversion candidate list are sent to the low reliability word conversion unit 204. The low-reliability word conversion unit 204 compares and matches the upper reliability word of the word whose reliability is equal to or lower than the threshold value with each word included in each prediction conversion candidate in the prediction conversion candidate list. If there is a prediction conversion candidate, the prediction conversion candidate is output as a recognition result text after conversion. If there are multiple matching prediction conversion candidates, the conversion result recognition text with the highest matching score and similar similarity conversion text is also used by using the matching degree of the text after the word with the highest reliability word equal to or less than the threshold. Output as. Thus, when there is a low-reliability word in the speech recognition result, predictive conversion is performed from the text from the beginning of the recognized text to the word immediately before that word, and the output predictive conversion candidate and higher reliability By comparing the word and outputting the word if there is a matching candidate, the erroneously converted recognized text can be corrected by the predictive conversion function.

出力された変換後認識結果テキストは、ネットワークNを介してモバイル端末10に送付される。送付された認識結果テキストは、認識結果表示部102により、モバイル端末10の出力インターフェース画面に表示される。   The output recognition result text after conversion is sent to the mobile terminal 10 via the network N. The sent recognition result text is displayed on the output interface screen of the mobile terminal 10 by the recognition result display unit 102.

ユーザは、表示された認識結果テキストを確認し、誤認識の単語があれば、キー入力やタッチ入力などにより、誤認識箇所を修正する。入力検知部103は、キー入力等により修正された箇所の単語を検出し、その入力情報(その単語の前にどの単語があるかなどの予測変換に利用される情報も含む)を、ネットワークNを介して音声認識サーバ20に送付する。送られてきた入力情報は、予測変換候補順位決定部205により、予測変換の順位に反映される。反映された予測変換情報は、予測変換情報格納部208の予測変換辞書に格納され、次回以降の予測変換を行う際に、予測変換部207にて利用される。こうして、出力されてきた変換後認識結果テキストに誤りがあった場合は、ユーザがキー入力等で修正することになるが、修正されたテキストを予測変換に反映することで、次回以降に同じ文章の発話があった際に、誤認識された単語は予測変換の上位となるため、正しく修正されるようになる。   The user checks the displayed recognition result text, and corrects the misrecognized portion by key input or touch input if there is a misrecognized word. The input detection unit 103 detects a word at a place corrected by key input or the like, and uses the input information (including information used for predictive conversion such as which word is present before the word) in the network N. To the voice recognition server 20 via The transmitted input information is reflected in the prediction conversion rank by the prediction conversion candidate rank determining unit 205. The reflected predictive conversion information is stored in the predictive conversion dictionary of the predictive conversion information storage unit 208, and is used by the predictive conversion unit 207 when performing predictive conversion after the next time. In this way, if there is an error in the output recognition result text after conversion, the user will correct it by key input etc., but by reflecting the corrected text in the predictive conversion, the same sentence will be applied from the next time onwards. When the utterance is uttered, the misrecognized word becomes higher in the predictive conversion, so that it is corrected correctly.

図4〜6は、本実施形態における処理の流れを示すフローチャートである。   4 to 6 are flowcharts showing the flow of processing in the present embodiment.

まず、図4について説明すると、ユーザは、モバイル端末10に認識させたい文章を発話し、モバイル端末10内の音声検知部101において、ユーザより発話された音声を検出する(S1)。検出された音声は音声認識サーバ20に送付され、音声認識エンジン21により音声認識処理が実行される。音声認識処理実行時に、認識結果テキストの各単語の信頼度と、信頼度が出力された単語に次ぐ上位所定数の候補の単語と、を含む上位信頼度単語を出力する(S2)。次に低信頼度単語変換部204は、出力された認識結果テキストのすべての単語の信頼度が閾値以上となるかを判定する(S3)。S3において、すべての単語の信頼度が閾値以上の場合(S3:はい)、認識結果テキストをそのままモバイル端末10に送信し、認識結果テキストを出力インターフェースに表示する(S8)。S3において、一つでも信頼度が閾値未満の単語がある場合(S3:いいえ)、信頼度が閾値未満となる単語の中で認識結果テキストの先頭となる単語があるか、すなわち、認識結果テキストの先頭の単語の信頼値が閾値未満であるかを判定する(S4)。信頼度が閾値未満となる単語の中で認識テキストの先頭となる単語がある場合(S4:はい)、図5に記載の処理S9に進む。S4において、信頼度が閾値未満となる単語の中で認識テキストの先頭となる単語がない場合(S4:いいえ)、テキストの先頭から、信頼度が閾値未満となる単語の一つ前の単語までのテキスト(予測変換元テキスト)を基に予測変換を行う(S5)。ただし、閾値未満の信頼度の単語が複数ある場合は、閾値未満の信頼度の単語の中で最も先頭の単語の前のテキストから、予測変換を行う。S5の後、予測変換候補の中で、上位信頼度単語とその後に続くテキストが一致する候補があるかを判定する(S6)。S6において、一致する候補がない場合(S6:いいえ)、認識結果テキストをそのまま変換後認識結果テキストとしてモバイル端末10に送り、出力インターフェースに表示する(S8)。S6において、一致する候補がある場合(S6:はい)、一致した候補の中で、一致する単語数が最も多い予測変換候補を変換後認識結果テキストとして、モバイル端末10の出力インターフェースに表示する(S7)。ただし、一致する単語数が同数の場合は、候補順位が上位の予測変換候補を選択する。   First, referring to FIG. 4, the user speaks a sentence that the mobile terminal 10 wants to recognize, and the voice detection unit 101 in the mobile terminal 10 detects the voice spoken by the user (S1). The detected voice is sent to the voice recognition server 20, and voice recognition processing is executed by the voice recognition engine 21. When the speech recognition process is executed, an upper reliability word including the reliability of each word of the recognition result text and the upper predetermined number of candidate words after the word for which the reliability is output is output (S2). Next, the low reliability word conversion unit 204 determines whether or not the reliability of all the words in the output recognition result text is equal to or higher than a threshold (S3). In S3, when the reliability of all the words is equal to or higher than the threshold (S3: Yes), the recognition result text is transmitted as it is to the mobile terminal 10, and the recognition result text is displayed on the output interface (S8). In S3, if there is at least one word whose reliability is less than the threshold (S3: No), whether there is a word that is the head of the recognition result text among the words whose reliability is less than the threshold, that is, the recognition result text It is determined whether the confidence value of the first word is less than a threshold value (S4). If there is a word that is the head of the recognized text among words whose reliability is less than the threshold (S4: Yes), the process proceeds to S9 shown in FIG. In S4, when there is no word that becomes the beginning of the recognized text among words whose reliability is less than the threshold (S4: No), from the beginning of the text to the word immediately before the word whose reliability is less than the threshold Prediction conversion is performed based on the text (prediction conversion source text) (S5). However, when there are a plurality of words having a reliability level lower than the threshold value, predictive conversion is performed from the text preceding the first word among the reliability level words lower than the threshold value. After S5, it is determined whether there is a candidate that matches the higher reliability word and the subsequent text among the prediction conversion candidates (S6). In S6, when there is no matching candidate (S6: No), the recognition result text is sent as it is to the mobile terminal 10 as the converted recognition result text and displayed on the output interface (S8). In S6, when there is a matching candidate (S6: Yes), the predicted conversion candidate having the largest number of matching words among the matched candidates is displayed on the output interface of the mobile terminal 10 as a post-conversion recognition result text ( S7). However, if the number of matching words is the same, the prediction conversion candidate with the highest candidate rank is selected.

次に図5に付いて説明すると、処理S4において、信頼度が閾値未満となる単語の中でテキストの先頭となる単語が存在する場合(S4:はい)、テキストの先頭となる信頼度が閾値未満となる単語の各上位信頼度単語から、予測変換を行う(S9)。その後、各上位信頼度単語からの予測変換候補で、上位信頼度単語とその後に続きテキストが一致する候補があるかを判定する(S10)。ここで、一致する候補がない場合(S10:いいえ)、認識結果テキストをそのまま変換後認識結果テキストとして、モバイル端末10の出力インターフェースに表示する(S14)。S10において、一致する候補が存在する場合(S10:はい)、一致した予測変換候補は、正しいテキストとして確定する(S11)。その後、確定したテキスト以降で、信頼度閾値未満となる単語があるかを判定する(S12)。確定したテキスト以降で信頼度が閾値未満の単語がない場合(S12:いいえ)、確定されたテキストを変換後認識結果テキストとして、モバイル端末10の出力インターフェースに表示する(S13)。S12において、確定したテキスト以降で信頼度が閾値未満の単語が存在する場合(S12:はい)、S5で、確定したテキストから信頼度が閾値未満の単語の一つ前の単語までのテキストを元に予測変換を行い、その後、S6以降の処理を実行し、変換後認識結果テキストをモバイル端末10の出力インターフェースに表示する。   Next, with reference to FIG. 5, when there is a word at the beginning of the text among the words whose reliability is less than the threshold in step S4 (S4: Yes), the reliability at the beginning of the text is the threshold. Predictive conversion is performed from each higher reliability word of words that are less than (S9). Thereafter, it is determined whether or not there is a candidate for predictive conversion from each higher reliability word that matches the higher reliability word and the subsequent text (S10). Here, when there is no matching candidate (S10: No), the recognition result text is displayed on the output interface of the mobile terminal 10 as the converted recognition result text as it is (S14). In S10, when there is a matching candidate (S10: Yes), the matching prediction conversion candidate is determined as a correct text (S11). Thereafter, it is determined whether there is a word that is less than the reliability threshold after the confirmed text (S12). If there is no word whose reliability is less than the threshold value after the confirmed text (S12: No), the confirmed text is displayed on the output interface of the mobile terminal 10 as a converted recognition result text (S13). In S12, when there is a word with a reliability less than the threshold after the confirmed text (S12: Yes), the text from the confirmed text to the word immediately before the word with the reliability less than the threshold is determined in S5. Then, the predictive conversion is performed, and then the processes after S6 are executed, and the converted recognition result text is displayed on the output interface of the mobile terminal 10.

次に図6について説明する。S7、S8、S13、及びS14の各処理ステップで、変換後認識結果テキストがモバイル端末10の出力インターフェースに表示された後、ユーザは表示されたテキストを確認し、誤認識があるかを判定する(S15)。S15において、出力したテキストに誤認識が含まれなかった場合(S15:いいえ)、ユーザは次の音声入力に移る(S19)。S15において、出力したテキストに誤認識が含まれる場合(S15:はい)、ユーザは誤認識の単語をモバイル端末のキー入力等により、誤認識の単語を修正する(S16)。S16の後、キー入力等で修正した単語(当該単語の他、予測変換に利用する当該単語の前の単語も含む)は、入力検知部103で検出する(S17)。S17の後、検出した単語を予測変換候補に反映させる(S18)。S18の後、ユーザは次の音声入力に移る(S19)。   Next, FIG. 6 will be described. In each processing step of S7, S8, S13, and S14, after the converted recognition result text is displayed on the output interface of the mobile terminal 10, the user checks the displayed text and determines whether there is a misrecognition. (S15). In S15, when the erroneous recognition is not included in the output text (S15: No), the user moves to the next voice input (S19). In S15, if the output text includes misrecognition (S15: Yes), the user corrects the misrecognized word by key input of the mobile terminal or the like (S16). After S16, a word corrected by key input or the like (including the word before the word used for predictive conversion in addition to the word) is detected by the input detection unit 103 (S17). After S17, the detected word is reflected in the prediction conversion candidate (S18). After S18, the user moves to the next voice input (S19).

図7〜9は、本実施形態による音声入力変換の実施例を示す図である。   7 to 9 are diagrams illustrating examples of voice input conversion according to the present embodiment.

図7において、認識結果テキスト701は、音声認識処理部201の音声認識エンジン21における音声認識の結果の一例である。この例では、「今日の天気はあれのち雨です」という認識結果テキストが音声認識の結果として出力されたものである。音声認識処理部201から出力された認識結果テキスト701は単語毎に区切られていて、各区切りに含まれる単語の信頼度702も算出されている。この図の例では、「今日/の/天気/は/あれ/のち/雨/です」と区切られ、各単語の信頼度はそれぞれ、0.90、0.85、0.80、0.70、0.40、0.70、0.90、0.85である。音声認識処理部201は、単語区切り情報を含む認識結果テキスト701と、各単語の信頼度702とに加え、認識結果テキスト701の区切りごとに各最上位信頼度単語に次ぐ信頼度を有する所定数の上位候補の単語を、低信頼度単語変換部204に送る。図7では、単語「あれ」の上位候補として「晴れ」(信頼度0.38)と「雨」(信頼度0.30)が出力されていることが分かる。この例では、上位3単語が出力されているが、これらは、音声認識エンジン21で算出された信頼度の高い順での単語候補、すなわち上位信頼度単語706、である。また、図7では、「あれ」以外の各単語の上位候補の表示を省略している。   In FIG. 7, a recognition result text 701 is an example of a speech recognition result in the speech recognition engine 21 of the speech recognition processing unit 201. In this example, the recognition result text “Today's weather is rain after that” is output as a result of speech recognition. The recognition result text 701 output from the speech recognition processing unit 201 is segmented for each word, and the reliability 702 of the word included in each segment is also calculated. In the example of this figure, it is divided as “Today / No / Weather / Has / After / Rain / Rain”, and the reliability of each word is 0.90, 0.85, 0.80, 0.70, respectively. , 0.40, 0.70, 0.90, and 0.85. In addition to the recognition result text 701 including word delimiter information and the reliability 702 of each word, the speech recognition processing unit 201 has a predetermined number having the second highest reliability after each highest reliability word for each delimitation of the recognition result text 701. Are sent to the low-reliability word conversion unit 204. In FIG. 7, it can be seen that “clear” (reliability 0.38) and “rain” (reliability 0.30) are output as the top candidates for the word “that”. In this example, the top three words are output. These are the word candidates in the descending order of reliability calculated by the speech recognition engine 21, that is, the high reliability word 706. Also, in FIG. 7, the display of the top candidates for each word other than “that” is omitted.

次に、低信頼度単語変換部204は、認識結果テキスト701の最初から信頼度が所定の閾値よりも低い単語の一つ前の単語までを予測変換元テキストとして設定する。例えば、閾値を0.50とすると、本例では、認識結果テキスト701の最初の単語「今日」から、信頼度が閾値よりも低い単語「あれ」の一つ前の単語「は」まで、すなわち、「今日の天気は」が予測変換元テキスト703として設定される。そして、低信頼度単語変換部204から予測変換元テキストを受け取った予測変換部207では、信頼度の高い予測変換元テキスト「今日の天気は」に基づいて予測変換を行う。この予測変換処理においては、予測変換情報格納部208に格納された情報が参照され、「今日の天気は」の後に続く文字列が予測され、複数の予測変換候補が出力される。本例では、上位候補から順に、「今日の天気は雨」、「今日の天気は晴れ」、「今日の天気は晴れみたい」、「今日の天気は晴れのち曇り」、「今日の天気は晴れのち雨」、及び「今日の天気は雨みたい」という6つの予測変換候補が出力される。これら6つの予測変換候補とこれらの候補順位が、予測変換候補一覧704として、単語境界判別部206に渡される。なお、予測変換候補一覧に含まれる予測変換候補の数は6つに限られず、予め適宜設定可能であるし、また、予測変換候補の信頼度に応じて可変であってもよい。   Next, the low-reliability word conversion unit 204 sets the word from the beginning of the recognition result text 701 to the word immediately before the word whose reliability is lower than a predetermined threshold as the predicted conversion source text. For example, when the threshold value is 0.50, in this example, from the first word “today” of the recognition result text 701 to the word “ha” immediately before the word “that” whose reliability is lower than the threshold value, that is, “Today's weather is” is set as the prediction conversion source text 703. The prediction conversion unit 207 that has received the prediction conversion source text from the low reliability word conversion unit 204 performs prediction conversion based on the prediction conversion source text “Today's weather is” with high reliability. In this predictive conversion process, information stored in the predictive conversion information storage unit 208 is referred to, a character string following “Today's weather is” is predicted, and a plurality of predictive conversion candidates are output. In this example, “Today's weather is sunny”, “Today's weather is sunny”, “Today's weather is sunny”, “Today's weather is sunny and cloudy”, and “Today's weather is sunny” After that, six prediction conversion candidates “rain” and “today's weather looks like rain” are output. These six prediction conversion candidates and their candidate ranks are passed to the word boundary determination unit 206 as a prediction conversion candidate list 704. Note that the number of prediction conversion candidates included in the prediction conversion candidate list is not limited to six, and can be appropriately set in advance, or may be variable according to the reliability of the prediction conversion candidates.

単語境界判別部206では、予測変換候補一覧704に含まれる予測変換候補のそれぞれについて単語の境界を判別し、予測変換候補一覧704と各予測変換候補の単語境界情報とが、低信頼度単語変換部204に送られる。低信頼度単語変換部204は、予測変換候補一覧704中の各予測変換候補と、認識結果テキスト701及びその上位信頼度単語706とを比較して、予測変換候補一覧の中から最も認識結果テキストに近い予測変換候補を出力する。より具体的には、認識結果テキスト701において、最上位信頼度単語が閾値よりも低い単語「あれ」における、上位信頼度単語706「あれ」、「晴れ」、「雨」と、この上位信頼度単語より後の文字列「のち雨です」と一致する予測変換候補があるか探索する。一致する変換候補がある場合、より上位の変換候補を変換後認識結果テキストとして出力する。一致する変換候補が複数ある場合、一致する単語数が多い方の候補を選択する。ここで、一致する単語数が同数の場合は、候補順位が上位の方を選択する。また、一致する変換候補がない場合は、そのまま認識結果テキストを変換後認識結果テキストとして出力する。図7に示す例では、予測変換候補一覧704中の各予測変換候補と、認識結果テキスト701及びその上位信頼度単語706とを比較すると、予測変換候補一覧のうち、「今日の天気は雨」、「今日の天気は晴れ」、「今日の天気は晴れのち雨」については、認識結果テキスト701とその上位信頼度単語のいずれかの組み合わせと一致する。一致する候補の中では、「今日の天気は雨」がより上位の候補順位となっているが、「今日の天気は晴れのち雨」の方が一致する単語数が多いので、こちらが変換結果として選択される。こうして、低信頼度単語変換部204は、「今日の天気は晴れのち雨です」を変換後認識結果テキスト705として出力する。   The word boundary determination unit 206 determines word boundaries for each of the prediction conversion candidates included in the prediction conversion candidate list 704, and the prediction conversion candidate list 704 and the word boundary information of each prediction conversion candidate are converted to a low-reliability word conversion. Sent to the unit 204. The low reliability word conversion unit 204 compares each prediction conversion candidate in the prediction conversion candidate list 704 with the recognition result text 701 and its higher reliability word 706, and recognizes the most recognized result text from the prediction conversion candidate list. A prediction conversion candidate close to is output. More specifically, in the recognition result text 701, the higher reliability word 706 “that”, “sunny”, “rain” in the word “that” whose top reliability word is lower than the threshold, and this higher reliability. A search is made for a predictive conversion candidate that matches the character string “After rain” after the word. If there is a matching conversion candidate, a higher conversion candidate is output as a recognition result text after conversion. If there are a plurality of matching conversion candidates, the candidate with the larger number of matching words is selected. Here, if the number of matching words is the same, the higher candidate ranking is selected. If there is no matching conversion candidate, the recognition result text is output as it is as a recognition result text after conversion. In the example illustrated in FIG. 7, when each prediction conversion candidate in the prediction conversion candidate list 704 is compared with the recognition result text 701 and its higher reliability word 706, “Today's weather is rainy” in the prediction conversion candidate list. , “Today's weather is sunny” and “Today's weather is sunny and rainy” coincide with any combination of the recognition result text 701 and its higher reliability word. Among the matching candidates, “Today's weather is rainy” is the higher candidate ranking, but “Today's weather is sunny and rainy” has more words, so here is the conversion result Selected as. In this way, the low-reliability word conversion unit 204 outputs “Today's weather is sunny and rainy” as the post-conversion recognition result text 705.

図8は、本実施形態による音声入力変換の別の実施例を示すものであり、音声認識後の認識結果テキストに低信頼度の単語が複数含まれる場合である。   FIG. 8 shows another example of speech input conversion according to the present embodiment, which is a case where a plurality of words with low reliability are included in the recognition result text after speech recognition.

まず、音声認識を行い、各単語の信頼度も算出する。この例では、認識結果テキスト801として「音声を文章へ変換しま」が得られ、各単語の区切りは「音声/を/文章/へ/変換/し/ま」であり、信頼度802はそれぞれ、0.90、0.85、0.80、0.37、0.90、0.70、0.40である。信頼値が所定の閾値よりも低い単語は「へ」(信頼度0.37)と「ま」(信頼度0.40)である。ここでは例えば、単語「へ」は、発音が曖昧だったために音声認識エンジン21が誤変換したものであり、単語「ま」は、発音が弱かったために最後が切れてしまったものである。図8には、この2つの単語のそれぞれについて、上位候補が一つずつ示されている。単語「へ」に対応する上位信頼度単語806は「に」(信頼度0.33)を含み、単語「ま」に対応する上位信頼度単語807は「ます」(信頼度0.35)を含む。   First, speech recognition is performed and the reliability of each word is also calculated. In this example, “convert voice into sentence” is obtained as the recognition result text 801, each word break is “voice / to / sentence / to / convert / do / ma”, and the reliability 802 is respectively 0.90, 0.85, 0.80, 0.37, 0.90, 0.70, 0.40. Words having a confidence value lower than a predetermined threshold are “he” (reliability 0.37) and “ma” (reliability 0.40). Here, for example, the word “he” has been erroneously converted by the speech recognition engine 21 because the pronunciation is ambiguous, and the word “ma” has been truncated because the pronunciation is weak. FIG. 8 shows one top candidate for each of these two words. The upper reliability word 806 corresponding to the word “to” includes “ni” (reliability 0.33), and the upper reliability word 807 corresponding to the word “ma” is “mas” (reliability 0.35). Including.

次に、予測変換元テキストを生成する。低信頼度の単語が複数ある場合は、その中で最も先頭寄りの単語より一つ前の単語までのテキストを、予測変換元テキストとする。この例では、2つある低信頼度の単語「へ」と「ま」のうち、先頭寄りの単語「へ」の一つ前の単語「文章」までのテキストを基に、予測変換元テキスト803として「音声を文章」を出力する。そして、この「音声を文章」に基づいて予測変換を行った結果、「音声を文章に変換」、「音声を文章に」、「音声を文章に変換します」、「音声を文章に変換する」、「音声を文章にします」、「音声を文章へ」という6つの予測変換候補が予測変換候補一覧804として出力される。   Next, a predictive conversion source text is generated. When there are a plurality of words with low reliability, the text up to the word immediately before the first word is used as the prediction conversion source text. In this example, the prediction conversion source text 803 is based on the text up to the word “sentence” immediately before the first word “to” among the two low reliability words “to” and “ma”. Output "speech to speech". And as a result of predictive conversion based on this "speech to text", "convert voice to text", "speech to text", "convert voice to text", "convert voice to text" "Predictive conversion candidate list 804" is output as six predictive conversion candidates such as "speech into speech" and "speech into text".

この予測変換候補一覧804が、認識結果テキスト801及びその上位信頼度単語806、807と比較され、最も類似する予測変換候補が出力結果として出力される。この例では、単語「ま」は部分的には一致するが単語単位では一致しないので選択されず、単語単位で一致する「ます」が選択される。こうして、「音声を文章に変換します」が変換後認識結果テキスト805として出力される。   This prediction conversion candidate list 804 is compared with the recognition result text 801 and its higher reliability words 806 and 807, and the most similar prediction conversion candidate is output as an output result. In this example, the word “ma” partially matches but is not selected because it does not match in units of words, and “mas” that matches in units of words is selected. In this way, “convert speech into text” is output as post-conversion recognition result text 805.

図9は、本実施形態による音声入力変換のさらに別の実施例を示すものであり、音声認識後の認識結果テキストの最初の単語が低信頼度である場合を示す。   FIG. 9 shows still another example of the speech input conversion according to the present embodiment, and shows a case where the first word of the recognition result text after speech recognition has low reliability.

この例では、音声認識の結果、「恩師を改善しることができた」が認識結果テキスト901として出力される。各単語の区切りは「恩師/を/改善/しる/こと/が/でき/た」であり、信頼度902はそれぞれ、0.43、0.85、0.80、0.38、0.90、0.82、0.80である。信頼度が閾値よりも低い単語は「恩師」と「しる」である。ここでは例えば、単語「恩師」は、「つ」の発音が弱かったため誤変換したものであり、単語「しる」は、発音が曖昧だったため誤変換したものである。図9には、これらの各単語に対応する上位信頼度単語906、907として、それぞれ「音質」と「する」が含まれることが示されている。   In this example, as a result of the speech recognition, “the teacher could be improved” is output as the recognition result text 901. The delimiter for each word is “instructor / do / improve / do / do / do / can / do”, and the reliability 902 is 0.43, 0.85, 0.80, 0.38,. 90, 0.82, and 0.80. The words whose reliability is lower than the threshold are “eminer” and “shiru”. Here, for example, the word “onshi” is erroneously converted because the pronunciation of “tsu” is weak, and the word “shiru” is erroneously converted because the pronunciation is ambiguous. FIG. 9 shows that “sound quality” and “do” are included as higher reliability words 906 and 907 corresponding to these words, respectively.

低信頼度の単語が認識結果テキスト901の最も先頭にある場合、当該先頭の単語に対応する上位信頼度単語906に含まれる各単語、すなわち「恩師」と「音質」のそれぞれから、予測変換を実施する。単語「恩師」からの予測変換の結果、「恩師へ」、「恩師への」、「恩師を」、「恩師に合う」、「恩師への手紙」という5つの予測変換候補が予測変換候補一覧9041として出力される。また、単語「音質」からの予測変換の結果、「音質を上げる」、「音質改善」、「音質が悪い」、「音質を改善」、「音質を」という5つの予測変換候補が予測変換候補一覧9042として出力される。そして、予測変換候補一覧9041と予測変換候補一覧9042に含まれる全ての予測変換候補の中から、認識結果テキスト901とその上位信頼度候補906の組み合わせに最も類似する候補を選択する。一致する予測変換候補が複数ある場合、一致する単語数が多い方の候補を選択する。一致する単語数が多いものが複数ある場合には、候補順位が高い方の候補を選択する。図9の例の場合、「恩師を」より「音質を改善」の方が一致する単語数が多いため、「音質」が選択される。   When the low-reliability word is at the top of the recognition result text 901, predictive conversion is performed from each word included in the higher-reliability word 906 corresponding to the first word, that is, each of “instructor” and “sound quality” carry out. As a result of predictive conversion from the word “instructor”, five predictive conversion candidates “to teacher”, “to teacher”, “to teacher”, “fit to teacher”, and “letter to teacher” are predicted conversion candidate lists. 9041 is output. As a result of predictive conversion from the word “sound quality”, five predictive conversion candidates “enhance sound quality”, “sound quality improvement”, “poor sound quality”, “improve sound quality”, and “sound quality” are predicted conversion candidates. A list 9042 is output. Then, a candidate that is most similar to the combination of the recognition result text 901 and the higher reliability candidate 906 is selected from all the prediction conversion candidates included in the prediction conversion candidate list 9041 and the prediction conversion candidate list 9042. If there are a plurality of matching predictive conversion candidates, the candidate with the larger number of matching words is selected. If there are a plurality of matching words, the candidate with the higher candidate rank is selected. In the case of the example in FIG. 9, “sound quality” is selected because “improving sound quality” has more matching words than “improvement”.

認識結果テキスト901の最初の単語として「音質」が選択されたため、次に現れる低信頼度の単語「しる」の一つ前の単語「改善」まで、すなわち「音質を改善」、を予測変換元テキストとして、さらに予測変換を行う。その結果、「音質を改善」、「音質を改善する」、「音質を改善します」等々の予測変換候補が、予測変換候補一覧9043として出力される。この予測変換候補一覧9043を、認識結果テキスト901とその上位信頼度単語907と比較して、最も一致度の高い「音質を改善する」が選択される。こうして、「音質を改善することができた」が変換後認識結果テキスト905として出力される。   Since “sound quality” is selected as the first word of the recognition result text 901, the word “improvement” immediately before the next low-reliability word “shiru” that appears next, that is, “improve sound quality” is predicted and converted. Predictive conversion is further performed as the original text. As a result, prediction conversion candidates such as “improve sound quality”, “improve sound quality”, “improve sound quality”, and the like are output as a prediction conversion candidate list 9043. The prediction conversion candidate list 9043 is compared with the recognition result text 901 and the higher reliability word 907, and “improve sound quality” having the highest degree of matching is selected. Thus, “sound quality could be improved” is output as the recognition result text 905 after conversion.

なお、音声認識サーバ20が後方一致検索を実装している場合には、低信頼度の単語が先頭になっている場合でも、低信頼度の一つ後ろの高信頼度のテキスト(図9の例では「を改善」)から、後方一致検索により予測変換候補を出力し、先頭の低信頼度の単語を決定するようにしてもよい。   Note that when the speech recognition server 20 implements a backward match search, even if a low-reliability word is at the top, the high-reliability text immediately following the low-reliability (see FIG. 9). In the example, “improvement”) may be used to output a predictive conversion candidate by backward matching search and determine the first low-reliability word.

以上のとおり、本発明の所定の実施形態によれば、既存の予測変換機能を用いて音声認識結果の修正を行うため、音声認識の誤認識を補正するための特別な情報を持っておく必要がなく、音声認識の誤認識を自動的に修正することができる。また、本発明の所定の実施形態においては、予測変換候補と信頼度が上位の候補とを比較し一致する候補を選択するため、誤認識を前後の単語と意味の繋がりが合う単語に修正することができる。さらに、本発明の所定の実施形態においては、ユーザがキー入力等で誤認識箇所を修正した場合に、予測変換に反映されるため、使い込むほど誤認識修正の精度を向上させることができる。また、本発明の所定の実施形態においては、モバイル端末に標準で実装されている予測変換機能を利用することで、比較的容易に本システムを実装することが可能となる。   As described above, according to the predetermined embodiment of the present invention, since the speech recognition result is corrected using the existing predictive conversion function, it is necessary to have special information for correcting misrecognition of speech recognition. Therefore, it is possible to automatically correct misrecognition of voice recognition. Further, in the predetermined embodiment of the present invention, in order to compare the prediction conversion candidate and the candidate having higher reliability and select a matching candidate, the misrecognition is corrected to a word whose meaning is connected to the preceding and following words. be able to. Furthermore, in the predetermined embodiment of the present invention, when a user corrects a misrecognized portion by key input or the like, it is reflected in predictive conversion, so that the accuracy of misrecognition correction can be improved as the user uses it. Further, in the predetermined embodiment of the present invention, the system can be mounted relatively easily by using the predictive conversion function that is mounted in the mobile terminal as a standard.

また、本発明の所定の実施形態によれば、モバイル端末に発話された音声の認識結果テキストにおいて、単語信頼度の低い単語を、その低信頼度の単語よりも前の高信頼度の単語を用いて予測変換を行う。出力された予測変換候補と、低信頼度の単語とその候補単語とを比較して、一致する単語数の多い予測変換候補を修正後のテキストとして出力する。これによりユーザが意図した文章に変換され易くなる。この場合、単語間の並びの情報の統計モデルである言語モデルから出力された信頼度が上位の候補と、予測変換候補を比較しているため、前後の数単語と意味の繋がりが合う候補を選択することができる。一方、前後の単語と意味の繋がりが合わない単語は、候補に入らない。また、出力された音声認識結果テキストが、ユーザの求める結果と違っており、ユーザがキー入力等でテキストを修正した場合、予測変換の候補に反映する。これにより、次回の予測変換時には予測変換候補の上位になるため、よりユーザの求める変換結果を得られることが期待できる。   Further, according to a predetermined embodiment of the present invention, in a speech recognition result text uttered by a mobile terminal, a word with low word reliability is replaced with a word with high reliability before the word with low reliability. To perform predictive conversion. The output predictive conversion candidate is compared with the low reliability word and the candidate word, and the predictive conversion candidate having a large number of matching words is output as the corrected text. This facilitates conversion to the text intended by the user. In this case, since the candidate with the highest reliability output from the language model, which is a statistical model of the information on the alignment between words, is compared with the predictive conversion candidate, the candidate whose semantic connection with the words before and after is compared. You can choose. On the other hand, words whose meanings are not connected to the preceding and following words are not candidates. Further, the output speech recognition result text is different from the result requested by the user, and when the user corrects the text by key input or the like, it is reflected in the prediction conversion candidate. Thereby, since it becomes a high rank of a prediction conversion candidate at the time of the next prediction conversion, it can be anticipated that the conversion result which a user asks can be obtained more.

本発明の利用が考えられる分野としては、モバイル端末(携帯電話、スマートフォン、PDAなどを含む)やパーソナルコンピュータ(PC)など、音声認識によるテキスト入力機能を利用する機器、音声認識を実装するシステム全般、ウェブ検索サイトでの音声での検索ワード入力などがあるが、これらに限定されるものではない。   Fields in which the present invention can be considered include mobile terminals (including mobile phones, smartphones, PDAs, etc.) and personal computers (PCs), devices that use text input functions based on voice recognition, and systems that implement voice recognition in general. There is a search word input by voice on a web search site, but it is not limited thereto.

なお、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。   The present invention is not limited to the above-described embodiment, and can be implemented in various other forms without departing from the gist of the present invention. For this reason, the said embodiment is only a mere illustration in all points, and is not interpreted limitedly.

例えば、認識結果をそのまま出力したテキストと、予測変換を利用した変換後のテキストとをユーザが画面上で、選択できるようなユーザインターフェースも想定される。また、ウェブ検索サイトで音声により検索ワードを入力したい場合、ウェブ検索における予測変換又は履歴変換と連携させることで、本発明の音声認識の精度を向上させることが可能である。さらに、モバイル端末で後方一致検索を実装している場合、低信頼度単語の一つ後ろの高信頼度の単語から、後方検索により本発明を実施することもできる。   For example, a user interface that allows the user to select text on which the recognition result is output as it is and text after conversion using predictive conversion on the screen is also assumed. Moreover, when it is desired to input a search word by voice at a web search site, it is possible to improve the accuracy of voice recognition of the present invention by linking with prediction conversion or history conversion in web search. Furthermore, when the backward matching search is implemented in the mobile terminal, the present invention can also be implemented by backward search from a highly reliable word immediately after the low reliability word.

また、本実施形態および各変形例において示した各処理のステップは処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。さらに本明細書等において、手段とは、単に物理的手段を意味するものではなく、その手段が有する機能をソフトウェアによって実現する場合も含む。さらにまた、1つの手段が有する機能が2つ以上の物理的手段により実現されても、2つ以上の手段の機能が1つの物理的手段により実現されてもよい。また、本発明に係るソフトウェアの開発支援プログラムは、CD−ROMやDVD−ROM等の光学ディスク、磁気ディスク、半導体メモリなどの各種の記録媒体を通じて、又は通信ネットワークなどを介してダウンロードすることにより、コンピュータにインストール又はロードすることができる。   Further, the steps of the processes shown in the present embodiment and each modification can be executed in any order or in parallel as long as the process contents do not contradict each other. Further, in this specification and the like, the term “means” does not simply mean a physical means, but also includes a case where the functions of the means are realized by software. Furthermore, the function of one means may be realized by two or more physical means, or the functions of two or more means may be realized by one physical means. In addition, the software development support program according to the present invention is downloaded through various recording media such as an optical disk such as a CD-ROM and a DVD-ROM, a magnetic disk, and a semiconductor memory, or via a communication network. Can be installed or loaded on a computer.

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限
られない。
A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.

(付記1)入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える音声入力支援システム。   (Supplementary Note 1) A speech recognition engine that converts input speech into text by speech recognition processing and outputs the text, and if there is a low-reliability word among the words in the output text, it is included in the text A speech conversion support system comprising: a prediction conversion module that corrects the text by predictive conversion based on a character string including one or more words with high reliability and outputs the corrected text.

(付記2)前記音声認識エンジンは、入力された音声をテキストに変換する際に、前記テキストに含まれる各単語の信頼度を出力する、ことを特徴とする付記1に記載の音声入力支援システム。   (Supplementary note 2) The voice input support system according to supplementary note 1, wherein the speech recognition engine outputs the reliability of each word included in the text when the inputted speech is converted into text. .

(付記3)前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力する、ことを特徴とする付記2に記載の音声入力支援システム。   (Supplementary note 3) When the converted text includes a word with low reliability, the speech recognition engine outputs one or more candidate words that replace the word. Voice input support system.

(付記4)前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する、ことを特徴とする付記3に記載の音声入力支援システム。   (Supplementary Note 4) The predictive conversion module compares a plurality of predictive conversion candidates based on a character string composed of one or more words with high reliability, the low reliability word, and candidate words of the word, The speech input support system according to appendix 3, wherein a word with low reliability is corrected by selecting a matching candidate.

(付記5)前記信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、前記信頼度の低い単語の一つ前の単語までを含む、ことを特徴とする付記1乃至4のいずれかに記載の音声入力支援システム。   (Additional remark 5) The character string which consists of one or more words with the said high reliability includes from the first word of the text which the speech recognition engine output to the word immediately before the said low reliability word. The voice input support system according to any one of appendices 1 to 4, which is characterized by the following.

(付記6)予測変換を行うための情報が格納され、前記予測変換モジュールによって参照される予測変換情報格納部と、前記予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して前記予測変換情報格納部に格納する予測変換候補順位決定部と、をさらに備えることを特徴とする請求項1乃至5のいずれかに記載の音声入力支援システム。   (Additional remark 6) The information for performing prediction conversion is stored, and when the user corrects the prediction conversion information storage unit referred to by the prediction conversion module and the text output by the prediction conversion module, the corrected content The speech input support system according to claim 1, further comprising: a prediction conversion candidate order determination unit that reflects the prediction conversion order in the prediction conversion information storage unit.

(付記7)音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、前記音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、前記予測変換モジュールが、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力するステップと、を備える音声入力支援方法。   (Supplementary note 7) In a speech input support system including a speech recognition engine and a predictive conversion module, a method for supporting speech input, wherein the speech recognition engine converts input speech into text by speech recognition processing. And when the predictive conversion module includes a word having a low reliability among words in the output text, the prediction conversion module is based on a character string including one or more words having a high reliability included in the text. And correcting the text by predictive conversion and outputting the corrected text.

(付記8)コンピュータに、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、を実現させるための音声入力支援プログラム。   (Supplementary Note 8) When a computer has a speech recognition function that converts input speech into text by speech recognition processing and outputs the text, and when there is a low-reliability word among the words in the output text, A speech input support program for realizing a predictive conversion function that corrects the text by predictive conversion based on a character string composed of one or more words with high reliability included in the text and outputs the corrected text. .

(付記9)コンピュータに、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、を実現させるための音声入力支援プログラムを記録したコンピュータ読み取り可能な記録媒体。   (Supplementary Note 9) When a computer has a speech recognition function that converts input speech into text by speech recognition processing and outputs the text, and when there is a low-reliability word among the words in the output text, A speech input support program for realizing a predictive conversion function that corrects the text by predictive conversion based on a character string composed of one or more words with high reliability included in the text and outputs the corrected text. A computer-readable recording medium on which is recorded.

1…音声入力支援システム、10…モバイル端末、20…音声認識サーバ、21…音声認識エンジン、22…言語モデル、23…音響モデル、24…予測変換モジュール、101…音声検知部、102…認識結果表示部、103…入力検知部、201…音声認識処理部、202…言語モデル格納部、203…音響モデル格納部、204…低信頼度単語変換部、205…予測変換候補順位決定部、206…単語境界判別部、207…予測変換部、208…予測変換情報格納部 DESCRIPTION OF SYMBOLS 1 ... Voice input support system, 10 ... Mobile terminal, 20 ... Speech recognition server, 21 ... Speech recognition engine, 22 ... Language model, 23 ... Acoustic model, 24 ... Prediction conversion module, 101 ... Speech detection part, 102 ... Recognition result Display unit 103 ... Input detection unit 201 ... Speech recognition processing unit 202 ... Language model storage unit 203 ... Acoustic model storage unit 204 ... Low reliability word conversion unit 205 ... Predictive conversion candidate rank determination unit 206 ... Word boundary determination unit, 207... Prediction conversion unit, 208... Prediction conversion information storage unit

Claims (7)

入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、
前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、
を備え
前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、一以上の候補単語を出力し、
前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正す
音声入力支援システム。
A speech recognition engine that converts input speech into text by speech recognition processing and outputs it,
If there is a word with low reliability among the words in the output text, the text is corrected by predictive conversion based on a string of one or more words with high reliability included in the text, A predictive conversion module that outputs the corrected text;
Equipped with a,
The speech recognition engine outputs one or more candidate words if the converted text includes words with low reliability,
The predictive conversion module compares a plurality of predictive conversion candidates based on a character string composed of one or more words with high reliability, the low reliability word, and candidate words of the word, and finds a matching candidate. by selecting, voice input support system that modifies the low reliability word.
前記音声認識エンジンは、入力された音声をテキストに変換する際に、前記テキストに含まれる各単語の信頼度を出力する、
ことを特徴とする請求項1に記載の音声入力支援システム。
The speech recognition engine outputs the reliability of each word included in the text when converting the input speech into text.
The voice input support system according to claim 1.
前記信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、前記信頼度の低い単語の一つ前の単語までを含む、
ことを特徴とする請求項1又は2に記載の音声入力支援システム。
The character string composed of one or more words with high reliability includes from the first word of the text output by the speech recognition engine to the word immediately before the word with low reliability.
The voice input support system according to claim 1 or 2 , characterized by the above.
予測変換を行うための情報が格納され、前記予測変換モジュールによって参照される予測変換情報格納部と、
前記予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して前記予測変換情報格納部に格納する予測変換候補順位決定部と、
をさらに備えることを特徴とする請求項1乃至のいずれかに記載の音声入力支援システム。
Information for performing prediction conversion is stored, and a prediction conversion information storage unit referred to by the prediction conversion module;
When the user corrects the text output by the predictive conversion module, the predictive conversion candidate rank determining unit that stores the corrected content in the predictive conversion information storage unit while reflecting the corrected content in the predictive conversion rank;
Audio input support system according to any one of claims 1 to 3, further comprising a.
音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、
前記音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、
前記予測変換モジュールが、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力するステップと、
を備え
前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、一以上の候補単語を出力し、
前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正す
音声入力支援方法。
In a voice input support system including a voice recognition engine and a predictive conversion module, a method for supporting voice input,
The speech recognition engine converts the input speech into text by speech recognition processing and outputs the text; and
When there is a word with low reliability in the words in the output text, the prediction conversion module performs the prediction conversion based on a character string composed of one or more words with high reliability included in the text. A step of correcting the text and outputting the corrected text;
Equipped with a,
The speech recognition engine outputs one or more candidate words if the converted text includes words with low reliability,
The predictive conversion module compares a plurality of predictive conversion candidates based on a character string composed of one or more words with high reliability, the low reliability word, and candidate words of the word, and finds a matching candidate. by selecting, voice input support how to modify the low reliability word.
コンピュータに、
入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能であって、変換したテキストに信頼度の低い単語が含まれる場合には、一以上の候補単語を出力する音声認識機能と、
前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能であって、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する予測変換機能と、
を実現させるための音声入力支援プログラム。
On the computer,
A speech recognition function that converts input speech into text by speech recognition processing and outputs it, and if the converted text contains words with low reliability, speech recognition that outputs one or more candidate words Function and
If there is a word with low reliability among the words in the output text, the text is corrected by predictive conversion based on a string of one or more words with high reliability included in the text, A predictive conversion function for outputting a corrected text , wherein a plurality of predictive conversion candidates based on a character string composed of one or more words with high reliability, the low reliability words, and candidate words of the words A predictive conversion function that corrects words with low confidence by comparing and selecting matching candidates ,
Voice input support program to realize
コンピュータに、
入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能であって、変換したテキストに信頼度の低い単語が含まれる場合には、一以上の候補単語を出力する音声認識機能と、
前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能であって、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する予測変換機能と、
を実現させるための音声入力支援プログラムを記録したコンピュータ読み取り可能な記録媒体。
On the computer,
A speech recognition function that converts input speech into text by speech recognition processing and outputs it, and if the converted text contains words with low reliability, speech recognition that outputs one or more candidate words Function and
If there is a word with low reliability among the words in the output text, the text is corrected by predictive conversion based on a string of one or more words with high reliability included in the text, A predictive conversion function for outputting a corrected text , wherein a plurality of predictive conversion candidates based on a character string composed of one or more words with high reliability, the low reliability words, and candidate words of the words A predictive conversion function that corrects words with low confidence by comparing and selecting matching candidates ,
The computer-readable recording medium which recorded the audio | voice input assistance program for implement | achieving.
JP2010224961A 2010-10-04 2010-10-04 Voice input support device Active JP5688677B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010224961A JP5688677B2 (en) 2010-10-04 2010-10-04 Voice input support device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010224961A JP5688677B2 (en) 2010-10-04 2010-10-04 Voice input support device

Publications (2)

Publication Number Publication Date
JP2012078650A JP2012078650A (en) 2012-04-19
JP5688677B2 true JP5688677B2 (en) 2015-03-25

Family

ID=46238959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010224961A Active JP5688677B2 (en) 2010-10-04 2010-10-04 Voice input support device

Country Status (1)

Country Link
JP (1) JP5688677B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102003255B1 (en) * 2012-06-29 2019-07-24 삼성전자 주식회사 Method and apparatus for processing multiple inputs
JP5749230B2 (en) * 2012-08-07 2015-07-15 日本電信電話株式会社 Speech recognition apparatus, method and program thereof
KR102217292B1 (en) * 2015-02-26 2021-02-18 네이버 주식회사 Method, apparatus and computer-readable recording medium for improving a set of at least one semantic units by using phonetic sound
JP7143665B2 (en) 2018-07-27 2022-09-29 富士通株式会社 Speech recognition device, speech recognition program and speech recognition method
KR102281515B1 (en) 2019-07-23 2021-07-26 엘지전자 주식회사 Artificial intelligence apparatus for recognizing speech of user using personalized language model and method for the same
JP7521855B2 (en) 2020-11-20 2024-07-24 エーエヌテイ インク Method, device and computer program for automatically generating standardized research record data for learning artificial intelligence models
JP7482459B2 (en) 2022-09-05 2024-05-14 ダイキン工業株式会社 System, support method, server device and communication program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4340056B2 (en) * 2002-11-29 2009-10-07 富士通株式会社 Speech recognition apparatus and method
JP4241423B2 (en) * 2004-02-18 2009-03-18 株式会社東芝 Writing device

Also Published As

Publication number Publication date
JP2012078650A (en) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5688677B2 (en) Voice input support device
US8423351B2 (en) Speech correction for typed input
JP6251958B2 (en) Utterance analysis device, voice dialogue control device, method, and program
US8606582B2 (en) Multimodal disambiguation of speech recognition
KR101255402B1 (en) Redictation 0f misrecognized words using a list of alternatives
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
KR101109265B1 (en) Method for entering text
KR101590724B1 (en) Method for modifying error of speech recognition and apparatus for performing the method
US20060293889A1 (en) Error correction for speech recognition systems
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
EP1751737A2 (en) Multimodal disambiguation of speech recognition
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
JP2007041319A (en) Speech recognition device and speech recognition method
WO2007069762A1 (en) Similar sentence search method, similar sentence search system, and similar sentence search program
JP5396530B2 (en) Speech recognition apparatus and speech recognition method
JP4966324B2 (en) Speech translation apparatus and method
JP2012003090A (en) Speech recognizer and speech recognition method
JP2011007862A (en) Voice recognition device, voice recognition program and voice recognition method
JP4622861B2 (en) Voice input system, voice input method, and voice input program
JP4347716B2 (en) Speech recognition server, speech input system, and speech input method
US11514899B2 (en) Using multiple languages during speech to text input
KR102392992B1 (en) User interfacing device and method for setting wake-up word activating speech recognition
KR101830210B1 (en) Method, apparatus and computer-readable recording medium for improving a set of at least one semantic unit
KR20090000858A (en) Apparatus and method for searching information based on multimodal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150105

R150 Certificate of patent or registration of utility model

Ref document number: 5688677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150118