JP2015206998A - Portable terminal, editing guiding program, and editing guiding method - Google Patents
Portable terminal, editing guiding program, and editing guiding method Download PDFInfo
- Publication number
- JP2015206998A JP2015206998A JP2015083313A JP2015083313A JP2015206998A JP 2015206998 A JP2015206998 A JP 2015206998A JP 2015083313 A JP2015083313 A JP 2015083313A JP 2015083313 A JP2015083313 A JP 2015083313A JP 2015206998 A JP2015206998 A JP 2015206998A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- voice
- reliability
- editing
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
この発明は、携帯端末に関し、特にたとえば音声認識によって文字列を入力する、携帯端末に関する。 The present invention relates to a mobile terminal, and more particularly to a mobile terminal that inputs a character string by voice recognition, for example.
従来、特にたとえば音声認識によって文字列を入力する、携帯端末が知られており、この種の装置の一例が、特許文献1に開示されている。この背景技術の発声認識装置では、単音節毎の音声認識を行うと共に、認識結果の信頼度が高いときは単音節の文字画像をそのまま表示し、認識結果の信頼度が低いときは、その母音の文字画像とその画像の横に子音認識不能を表わす「?」の画像とを表示する。そして、さらに認識結果が低いときは、次の音節入力を促すことを表わす「*」を表示する。
2. Description of the Related Art Conventionally, a portable terminal that inputs a character string by voice recognition, for example, is known, and an example of this type of device is disclosed in
また、特許文献2に開示されている、発音練習支援システムは携帯電話を利用して英会話等の発音練習のコンテンツを供給することが可能である。学習者が携帯電話に対して音声信号を入力すると、音声信号は携帯電話から回線通話制御装置に送信され、回線通話制御装置によって音声データ信号に変換された後に、発音評定サーバに送信される。発声評定サーバでは、学習者の発話単語または文章とデータパターンとのマッチングを行うことで、発話の基本周波数パターンの似ている程度を評定する。そして、評定結果がデータベースサーバに送信されると評定結果に応じてコンテンツが編集され、携帯電話の画面に表示される。これにより、学習者は、携帯電話に音声信号を入力することで、入力した音声信号における発音の正しさが通知される。
しかし、特許文献1における音声認識装置では、ユーザは単音節単位で発話するため、長い文章などを入力するには不向きである。また、長い文章を入力したとしても、単音節毎の信頼度が低いと、「*」や「?」が混じった文字列となり、使用者は文章として読解することが困難になる。
However, in the speech recognition apparatus in
また、特許文献2における発音練習支援システムでは、単語単位で音声を入力することができるが、音声認識によって文章作成を行う機能などについては開示されていない。
Moreover, in the pronunciation practice support system in
それゆえに、この発明の主たる目的は、新規な、携帯端末およびこのような携帯端末のプロセサに適用される編集誘導プログラムを提供することである。 Therefore, a main object of the present invention is to provide a novel portable terminal and an editing guide program applied to a processor of such a portable terminal.
この発明の他の目的は、音声認識による文章作成の効率をあげることが可能な、携帯端末およびこのような携帯端末のプロセサに適用される編集誘導プログラムを提供することである。 Another object of the present invention is to provide a portable terminal and an editing guide program applied to a processor of such a portable terminal capable of increasing the efficiency of sentence creation by voice recognition.
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。 The present invention employs the following configuration in order to solve the above problems. The reference numerals in parentheses, supplementary explanations, and the like indicate the corresponding relationship with the embodiments described in order to help understanding of the present invention, and do not limit the present invention.
第1の発明は、音声信号を取り込む取込手段および取込手段によって取り込まれた音声信号から文字列を生成する音声認識手段を有する携帯端末であって、音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記録する記録手段、データを参照して所定値以下の信頼度の文字列を特定する特定手段、および特定手段によって特定された文字列を、他の文字列とは異なる形態で表示する表示手段を備える、携帯端末である。 1st invention is a portable terminal which has a voice recognition means which produces | generates a character string from the audio | voice signal taken in by the taking-in means and the audio | voice signal taken in by the taking-in means, Comprising: A recording means for recording data indicating the reliability, a specifying means for specifying a character string having a reliability equal to or lower than a predetermined value with reference to the data, and a character string specified by the specifying means are referred to as other character strings. It is a portable terminal provided with the display means to display with a different form.
第1の発明では、携帯端末(10)は音声認識用のマイクなどの取込手段(16b)を有し、取込手段によって取り込まれた音声信号から、音声認識手段(20a,20b,30)によって、文字列が生成される。この音声認識手段は、たとえばCPU(20a)、DSP(20b)および音声辞書データを記憶するROM(30)から構成される。 In the first invention, the portable terminal (10) has capturing means (16b) such as a microphone for speech recognition, and the speech recognition means (20a, 20b, 30) is obtained from the speech signal captured by the capturing means. A character string is generated. This voice recognition means is composed of, for example, a CPU (20a), a DSP (20b) and a ROM (30) for storing voice dictionary data.
また、記録手段(20a,S147)は、音声認識手段によって文字列が生成される際に算出される尤度を認識の信頼度とし、生成された文字列と、その文字列に対応する信頼度とをデータ(336)として記録する。また、そのデータにおいて、信頼度が所定値(閾値)以下の文字列は、誤認識された文字列(誤認識文字列)の候補として、特定手段(20a,S161)によって特定される。そして、表示手段(20a,26,S163,S165)は、特定された文字列のみ、たとえば背景色を青色に色彩して表示するなどして、使用者による編集を誘導する。 The recording means (20a, S147) uses the likelihood calculated when the character string is generated by the speech recognition means as the recognition reliability, and the generated character string and the reliability corresponding to the character string. Are recorded as data (336). In the data, a character string having a reliability level equal to or lower than a predetermined value (threshold value) is specified by the specifying means (20a, S161) as a candidate of a misrecognized character string (misrecognized character string). The display means (20a, 26, S163, S165) guides editing by the user by displaying only the specified character string, for example, the background color is displayed in blue.
第1の発明によれば、誤認識文字列の候補が、一目で判断できるように表示されるため、使用者は候補の文字列に対する編集の要否を判断しやすくなる。そのため、使用者は、音声認識を利用した文章を効率よく作成できるようになる。 According to the first aspect, since the candidate for the misrecognized character string is displayed so that it can be determined at a glance, the user can easily determine whether the candidate character string needs to be edited. Therefore, the user can efficiently create a sentence using voice recognition.
第2の発明は、第1の発明に従属し、特定された文字列のみを選択するカーソルを表示するカーソル表示手段をさらに備える。 A second invention is dependent on the first invention, and further includes cursor display means for displaying a cursor for selecting only the specified character string.
第2の発明では、カーソル(CUb)は、カーソル表示手段(20a,S201,S289)によって特定された文字列のみを選択するように表示される。 In the second invention, the cursor (CUb) is displayed so as to select only the character string specified by the cursor display means (20a, S201, S289).
第2の発明によれば、カーソルは、低信頼度文字列のみを選択することが可能であるため、使用者が行う編集操作の操作性を向上させることができる。 According to the second invention, since the cursor can select only the low reliability character string, the operability of the editing operation performed by the user can be improved.
第3の発明は、第2の発明に従属し、カーソルを移動するための操作を受けつける操作手段をさらに備え、カーソルは、操作手段によって操作結果に応じて文字列を選択する。 A third invention is according to the second invention and further comprises operation means for receiving an operation for moving the cursor, and the cursor selects a character string according to the operation result by the operation means.
第3の発明では、カーソルは、たとえば上下方向および左右方向を入力可能な方向キーなどの操作手段(22d)の操作結果に応じて移動する。 In the third invention, the cursor moves according to the operation result of the operation means (22d) such as a direction key capable of inputting, for example, the vertical direction and the horizontal direction.
第3の発明によれば、カーソルは方向キーによって操作することが可能であるため、使用者は信頼性の高いカーソル操作を行うことができる。 According to the third aspect, since the cursor can be operated with the direction keys, the user can perform a highly reliable cursor operation.
第4の発明は、第2の発明に従属し、文字列が生成された後に新たに音声認識された新たな文字列と一致する文字列を検索する検索手段さらに備え、カーソルは、検索手段によって検索された文字列を選択する。 The fourth invention is dependent on the second invention and further comprises search means for searching for a character string that matches a new character string that is newly voice-recognized after the character string is generated, and the cursor is provided by the search means. Select the searched string.
第4の発明では、検索手段(20a,S331)は、文字列が生成された後に、再入力された音声によって新たに認識された文字列を、特定された文字列の中から検索する。そして、カーソルは、検索手段による検索結果に基づいて文字列を選択する。 In the fourth invention, the search means (20a, S331) searches the character string newly identified by the re-input voice from the specified character string after the character string is generated. The cursor selects a character string based on the search result by the search means.
第4の発明によれば、使用者は、誤った文字列を発話するだけでカーソルを操作できるようになる。したがって、使用者には、音声認識による文書の作成に都合のいいカーソルの操作方法が提供される。 According to the fourth invention, the user can operate the cursor only by uttering an incorrect character string. Therefore, the user is provided with a cursor operation method that is convenient for creating a document by voice recognition.
第5の発明は、第2の発明ないし第4の発明のいずれかに従属し、カーソルによって選択された文字列を、音声認識手段によって新たに生成された文字列に基づいて編集する音声編集手段(20a,S149,S319)をさらに備える。 A fifth invention is dependent on any one of the second to fourth inventions, and edits a character string selected by a cursor based on a character string newly generated by a voice recognition means. (20a, S149, S319).
第5の発明では、音声編集手段(20a,S149,S319)は、たとえば、カーソルによって選択された文字列を、再入力された音声によって新たに認識された文字列に置き換える。 In the fifth invention, the voice editing means (20a, S149, S319) replaces, for example, a character string selected by the cursor with a character string newly recognized by the re-input voice.
第5の発明によれば、使用者は、音声認識を利用して、誤認識した文字列を容易に編集することができる。したがって、使用者には、音声認識よる文章の編集に都合がいい編集操作が提供される。 According to the fifth aspect, the user can easily edit the misrecognized character string using voice recognition. Therefore, the user is provided with an editing operation that is convenient for editing text by voice recognition.
第6の発明は、第5の発明に従属し、音声認識手段によって生成される文字列の候補を一覧的に表示する一覧表示手段をさらに備え、音声編集手段は、候補一覧表示手段によって表示された候補が選択されたとき、その選択された候補を新たに生成された文字列として編集する。 A sixth invention is according to the fifth invention, further comprising list display means for displaying a list of character string candidates generated by the voice recognition means, wherein the voice editing means is displayed by the candidate list display means. When the selected candidate is selected, the selected candidate is edited as a newly generated character string.
第6の発明では、一覧表示手段(20a,S315)は、たとえば、音声認識手段が算出する尤度が所定値以上の文字列を全て表示する。そして、一覧的に表示された文字列のうち、使用者によって選択された文字列が、カーソルによって選択された文字列と置き換えられる。 In the sixth invention, the list display means (20a, S315) displays, for example, all character strings whose likelihood calculated by the speech recognition means is a predetermined value or more. Of the character strings displayed in a list, the character string selected by the user is replaced with the character string selected by the cursor.
第6の発明によれば、音声認識の候補を一覧的に表示されるため、使用者は、再入力した音声の認識精度が高くなくても、編集することができる。 According to the sixth aspect, since the voice recognition candidates are displayed as a list, the user can edit even if the recognition accuracy of the re-input voice is not high.
第7の発明は、第2の発明ないし第4の発明のいずれかに従属し、文字列を入力する文字入力手段、およびカーソルによって選択された文字列を、文字入力手段によって入力された文字列に基づいて編集する文字編集手段をさらに備える。 A seventh invention is according to any one of the second to fourth inventions, the character input means for inputting a character string, and the character string selected by the cursor, the character string input by the character input means. Is further provided with character editing means for editing based on the above.
第7の発明では、文字入力手段(22e)は、たとえば平仮名を入力する文字入力キーであり、文字編集手段(20a,S211,S215)は、入力された平仮名を漢字や片仮名などに変換して、カーソルによって選択された文字列と置き換える。 In the seventh invention, the character input means (22e) is, for example, a character input key for inputting hiragana, and the character editing means (20a, S211, S215) converts the input hiragana into kanji or katakana. Replace with the string selected by the cursor.
第7の発明によれば、使用者は、電車の中や周囲が騒がしい場所など、音声認識に不適切な環境であれば、文字入力キーを利用して、文章の編集をすることができる。また、使用者は、文字入力キーを利用して、信頼性の高い編集操作を行うこともできる。 According to the seventh invention, the user can edit the text using the character input key in an environment that is inappropriate for voice recognition, such as in a train or around a noisy place. The user can also perform highly reliable editing operations using the character input keys.
第8の発明は、第1の発明に従属し、音声認識手段によって新たに生成された文字列と類似する文字列を検索する類似検索手段および類似検索手段によって検索された文字列を、音声認識手段によって新たに生成された文字列に置換する置換手段をさらに備える。 An eighth invention is dependent on the first invention, and a similar search means for searching for a character string similar to a character string newly generated by the voice recognition means and a character string searched by the similar search means for voice recognition Substitution means for substituting a character string newly generated by the means is further provided.
第8の発明では、類似検索手段(20a,S283,S285)は、特定された文字列の中から、新たに生成された文字列を認識するときの音声を利用して、新たに生成された文字列と類似する文字列を検索する。そして、置換手段(20a,S293)は、新たに生成された文字列と類似する文字列を、新たに生成された文字列に置換する。 In the eighth invention, the similarity search means (20a, S283, S285) is newly generated using the voice when recognizing a newly generated character string from among the specified character strings. Search for a string that is similar to the string. Then, the replacement means (20a, S293) replaces the character string similar to the newly generated character string with the newly generated character string.
第8の発明によれば、使用者は、編集するための文字列を発話するだけで、文字列を編集することができる。したがって、使用者には、音声認識による文章の編集に都合がよい編集操作が提供される。 According to the eighth aspect, the user can edit the character string only by speaking the character string for editing. Therefore, the user is provided with an editing operation that is convenient for editing text by voice recognition.
第9の発明は、第2の発明に従属し、音声認識手段によって新たに生成された文字列と類似する文字列を検索する類似検索手段をさらに備え、カーソルは、類似検索手段によって検索された文字列を選択する。 A ninth invention is according to the second invention, further comprising a similarity search means for searching for a character string similar to the character string newly generated by the speech recognition means, wherein the cursor is searched by the similarity search means Select a string.
第9の発明では、カーソルは、新たに生成された文字列と類似する文字列を選択する。 In the ninth invention, the cursor selects a character string similar to the newly generated character string.
第9の発明によれば、使用者は、再入力された音声の音声認識の結果によらず、意図する文字列を選択することができる。したがって、第4の発明と同様に、使用者には、音声認識による文書の作成に都合のいいカーソルの操作方法が提供される。 According to the ninth aspect, the user can select an intended character string regardless of the result of speech recognition of the re-input speech. Therefore, similarly to the fourth invention, the user is provided with a cursor operation method that is convenient for creating a document by voice recognition.
第10の発明は、第9の発明に従属し、カーソルによって選択された文字列を、音声認識手段によって新たに生成された文字列に基づいて編集する音声編集手段をさらに備える。 A tenth invention is according to the ninth invention, and further comprises voice editing means for editing the character string selected by the cursor based on the character string newly generated by the voice recognition means.
第10の発明によれば、第5の発明と同様に、使用者には、音声認識よる文章の編集に都合がいい編集操作が提供される。 According to the tenth invention, similar to the fifth invention, the user is provided with an editing operation that is convenient for editing text by voice recognition.
第11の発明は、第10の発明に従属し、音声認識手段によって生成される文字列の候補を一覧的に表示する一覧表示手段をさらに備え、音声編集手段は、候補一覧表示手段によって表示された候補が選択されたとき、その選択された候補を新たに生成された文字列として編集する。 An eleventh invention is according to the tenth invention, further comprising list display means for displaying a list of character string candidates generated by the speech recognition means, wherein the speech editing means is displayed by the candidate list display means. When the selected candidate is selected, the selected candidate is edited as a newly generated character string.
第11の発明によれば、第6の発明と同様に、音声認識の候補を一覧的に表示されるため、使用者は、再入力した音声の認識精度が高くなくても、正しく編集することができる。 According to the eleventh aspect, similar to the sixth aspect, since the voice recognition candidates are displayed in a list, the user can edit correctly even if the recognition accuracy of the re-input voice is not high. Can do.
第12の発明は、第9の発明に従属し、文字列を入力する文字入力手段、およびカーソルによって選択された文字列を、文字入力手段によって入力された文字列に基づいて編集する文字編集手段をさらに備える。 A twelfth invention is according to the ninth invention, and is a character input means for inputting a character string, and a character editing means for editing a character string selected by a cursor based on the character string input by the character input means. Is further provided.
第12の発明によれば、第7の発明と同様に、電車の中や周囲が騒がしい場所など、音声認識に不適切な環境であれば、文字入力キーを利用して、文章の編集をすることができる。 According to the twelfth invention, similar to the seventh invention, text editing is performed using the character input key in an environment that is inappropriate for voice recognition, such as in a train or around a noisy place. be able to.
第13の発明は、第8の発明ないし第12の発明のいずれかに従属し、取込手段によって取り込まれた音声とその音声から生成された文字列とを音声辞書として記録する音声辞書記録手段をさらに備え、類似検索手段は、音声辞書記録手段によって記録された音声のそれぞれと、新たに入力された音声との相関値を算出することで、類似する文字列を検索する。 A thirteenth invention is dependent on any of the eighth to twelfth inventions, and a voice dictionary recording means for recording a voice captured by the fetching means and a character string generated from the voice as a voice dictionary. The similarity search unit searches for a similar character string by calculating a correlation value between each of the voices recorded by the voice dictionary recording unit and the newly input voice.
第13の発明では、音声辞書記録手段(20a、S251)によって記録された音声辞書には、特定された文字列と、その特定された文字列に対応する音声あるいは音声データの特徴パターンとが含まれる。そして、類似検索手段は、音声辞書を構成する音声データの特徴パターンと、新たに入力された音声の特徴パターンとの相関値を算出することで、類似する文字列を検索する。 In the thirteenth invention, the speech dictionary recorded by the speech dictionary recording means (20a, S251) includes the identified character string and the feature pattern of speech or speech data corresponding to the identified character string. It is. The similarity search means searches for a similar character string by calculating a correlation value between the feature pattern of the speech data constituting the speech dictionary and the feature pattern of the newly input speech.
第13の発明によれば、類似する文字列を検索するために、相関関数を利用することができる。 According to the thirteenth aspect, a correlation function can be used to search for a similar character string.
第14の発明は、第1の発明ないし第13の発明に従属し、複数の文字列の少なくとも一部を表示する表示手段、および表示手段によって表示された文字列の表示位置をスクロールさせるスクロール手段をさらに備える。 A fourteenth invention is dependent on the first to thirteenth inventions, a display means for displaying at least a part of a plurality of character strings, and a scroll means for scrolling the display position of the character strings displayed by the display means. Is further provided.
第14の発明では、LCDモニタなどの表示手段(26)に音声認識手段によって生成された複数の文字列の一部が表示されている場合に、スクロール手段(20a,S201,S237,S261)は、表示されていない文字列などを表示するように表示位置をスクロールさせる。 In the fourteenth invention, when a part of a plurality of character strings generated by the voice recognition means is displayed on the display means (26) such as an LCD monitor, the scroll means (20a, S201, S237, S261) The display position is scrolled to display a character string that is not displayed.
第14の発明によれば、使用者は、表示される文字列の内容をスクロールさせることで、特定された文字列を探すことができるようになる。 According to the fourteenth aspect, the user can search for the specified character string by scrolling the contents of the displayed character string.
第15の発明は、音声信号を取り込む取込手段(16a,16b)および取込手段によって取り込まれた音声信号から文字列を生成する音声認識手段(20a,20b,30)を有する携帯端末(10)のプロセサ(20a)を、音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記録する記録手段(S147)、データを参照して所定値以下の信頼度の文字列を特定する特定手段(S161)、および特定手段によって特定された文字列を、他の文字列とは異なる形態で表示する表示手段(26,S163,S165)として機能させる、編集誘導プログラムである。 A fifteenth aspect of the present invention is a portable terminal (10) having capturing means (16a, 16b) for capturing a speech signal and speech recognition means (20a, 20b, 30) for generating a character string from the speech signal captured by the capturing means. ) Processor (20a), recording means (S147) for recording the character strings generated by the speech recognition means and data indicating their reliability, and specifying the character string having a reliability below a predetermined value with reference to the data And an editing guidance program that causes the character string specified by the specifying means to function as display means (26, S163, S165) for displaying in a form different from other character strings.
第15の発明でも、第1の発明と同様に、使用者は、音声認識を利用した文章を効率よく作成できるようになる。 In the fifteenth invention, similarly to the first invention, the user can efficiently create a sentence using voice recognition.
第16の発明は、音声信号を取り込む取込手段(16a,16b)および取込手段によって取り込まれた音声信号から文字列を生成する音声認識手段(20a,20b,30)を有する編集装置であって、音声認識手段によって生成される文字列およびそれらの信頼度を示すデータ(信頼度テーブル)を記録する記録手段(20a,S147)、データを参照して所定値以下の信頼度の文字列を特定する特定手段(20a,S161)、および特定手段によって特定された文字列を、他の文字列とは異なる形態で表示する表示手段(20a,26,S163,S165)を備える、編集装置である。 A sixteenth aspect of the invention is an editing apparatus having capturing means (16a, 16b) for capturing a speech signal and speech recognition means (20a, 20b, 30) for generating a character string from the speech signal captured by the capturing means. Recording means (20a, S147) for recording character strings generated by the speech recognition means and data indicating their reliability (reliability table), and referring to the data, a character string having a reliability equal to or lower than a predetermined value. An editing device comprising: specifying means (20a, S161) for specifying, and display means (20a, 26, S163, S165) for displaying the character string specified by the specifying means in a form different from other character strings. .
第16の発明でも、第1の発明と同様に、使用者は、音声認識を利用した文章を効率よく作成できるようになる。 In the sixteenth invention, as in the first invention, the user can efficiently create a sentence using voice recognition.
この発明によれば、誤認識文字列の候補が一目で判断できるように表示されるため、使用者は、音声認識を利用して効率よく文章を作成できる。 According to this invention, since the candidate for the misrecognized character string is displayed so that it can be determined at a glance, the user can efficiently create a sentence using voice recognition.
この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features, and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
図1を参照して、携帯端末10は、制御部20およびキー入力装置22を含み、制御部20は、CPU(プロセサまたはコンピュータと呼ばれることもある。)20aおよびDSP(Digital Signal Processor)20bを含む。ここで、キー入力装置22によって発呼操作が行われると、制御部20に含まれるCPU20aは、CDMA方式に対応する無線通信回路14を制御して発呼信号を出力する。出力された発呼信号は、アンテナ12から送出され、基地局を含む移動通信網に送信される。通話相手が応答操作を行うと、通話可能状態が確立される。
Referring to FIG. 1,
通話可能状態に移行した後にキー入力装置22によって通話終了操作が行われると、CPU20aは、無線通信回路14を制御して、通話相手に通話終了信号を送信する。そして、通話終了信号の送信後、CPU20aは、通話処理を終了する。また、先に通話相手から通話終了信号を受信した場合も、CPU20aは、通話処理を終了する。さらに、通話相手によらず、移動通信網から通話終了信号を受信した場合も、CPU20aは通話処理を終了する。
When a call end operation is performed by the
携帯端末10が起動している状態で通話相手からの発呼信号がアンテナ12によって捉えられると、無線通信回路14は着信をCPU20aに通知する。また、CPU20aは、LCDドライバ24によって表示手段であるLCDモニタ26を制御し、着信通知に記述された発信元情報をLCDモニタ26に表示させる。そして、CPU20aは、図示しない着信通知用スピーカから着信音を出力させる。
When a call signal from a call partner is captured by the
通話可能状態では、次のような処理が実行される。通話相手から送られてきた変調音声信号(高周波信号)は、アンテナ12によって受信される。受信された変調音声信号は、無線通信回路14によって復調処理および復号処理を施される。そして、得られた受話音声信号は、スピーカ18から出力される。一方、取込手段である第1マイク16aによって取り込まれた送話音声信号は、無線通信回路14によって符号化処理および変調処理を施される。そして、生成された変調音声信号は、上述と同様、アンテナ12を利用して通話相手に送信される。
In the call ready state, the following processing is executed. The modulated audio signal (high frequency signal) sent from the other party is received by the
また、携帯端末10は、文字列の入力や削除を行う文書編集機能を備えており、音声認識による文字入力を行うことができる。つまり、使用者が文章を読み上げ、音声を第2マイク16bに入力すると、LCDモニタ26には音声認識された文章が表示される。具体的には、第2マイク16bによって取り込まれた音声信号はDPS20bによって音声データに変換され、CPU20aおよびDSP20bは音声データから特徴パターン(特徴量)を抽出する。また、CPU20aおよびDSP20bは、音声認識用の音声辞書を構成する参照音声データをROM32から読み出し、参照音声データの特徴パターン(以下、参照パターンと言う。)を抽出するか、ROM32から参照パターンを直接読み出す。そして、CPU20aおよびDSP20bは、特徴パターンの照合による音声認識の手法または統計的決定理論に基づく音声認識の手法によって、特徴パターンと各参照パターンとを照合することで、音声データと一致する参照音声データを特定する。この音声辞書は参照音声データとその参照音声データが表わす文字列とが対応付けられているため、CPU20aおよびDSP20bは特定した参照音声データに対応する文字列を読み出すことで、当該音声データを文字列に変換する。
Further, the
特徴パターンの照合による音声認識の手法では、CPU20aおよびDSP20bは、マルチテンプレート法、NN(Nearest Neighbor)識別法またはk−NN識別法などの手法によって、各参照パターンと特徴パターンとの尤度を算出し、最も尤度が高い参照パターンを特定する。
In the speech recognition method based on feature pattern matching, the
また、統計的決定理論に基づく音声認識の手法では、音声認識の手法として広く利用されているHMM(Hidden Markov Model:隠れマルコフモデル)を利用して、各参照音声データと特徴パターンとの尤度を算出し、特徴パターンの照合による音声認識の手法と同様に、CPU20aおよびDSP20bは最も尤度の高い参照音声データを特定する。
Further, in the speech recognition method based on the statistical decision theory, the likelihood between each reference speech data and the feature pattern using an HMM (Hidden Markov Model) widely used as a speech recognition method. And the
なお、本実施例では、上述した尤度を音声認識における認識の信頼度とする。また、携帯端末10は、CPU20a、DSP20bおよびROM32を音声認識手段として機能させる。
In the present embodiment, the likelihood described above is used as the reliability of recognition in speech recognition. Further, the
携帯端末10は、メール機能を備えており、図示しないメールサーバとのデータ通信を行い、メールの送受信を行うことができる。なお、データ通信中における、アンテナ12および無線通信回路14は通信手段として機能し、メールサーバなどは有線または無線でネットワークと接続されている。
The
図2は携帯端末10の外観を示す図解図である。図2を参照して、携帯端末10は、板状に形成されたケースCを有する。アンテナ12は、伸縮可能に構成された伸縮アンテナであり、ケースCの上側面に突出して設けられる。なお、アンテナ12は内蔵アンテナであってもよく、ケースCに内蔵される場合も考えられる。
FIG. 2 is an illustrative view showing an appearance of the
図2では図示しない第1マイク16aおよびスピーカ18はケースCに内蔵される。内蔵された第1マイク16aに通じる開口op1は、ケースCの長さ方向一方の主面に設け
られ、内蔵されたスピーカ18に通じる開口op2は、ケースCの長さ方向他方の主面に設けられる。また、図2では図示しない第2マイク16bもケースCに内蔵される。内蔵された第2マイク16bに通じる開口op3は、開口op1と並ぶようにケースCの長さ方向一方の主面に設けられる。
The
つまり、通話者は、開口op1を通じて第1マイク16aに送話音声を入力し、開口op2を通じてスピーカ18から受話音声を聞く。また、使用者は、開口op3を通じて第2マイク16bに音声認識用の音声を入力する。なお、第1マイク16aは音声認識用として兼用可能である。そして、第1マイク16aと第2マイク16bとの音声信号の差分により、遠方音源である周囲雑音をキャンセルする技術を現実でき、音声認識率の向上に寄与する。
That is, the caller inputs the transmission voice to the
キー入力装置22は第1メニューキー22a、第2メニューキー22b、決定キー22c、方向キー22d(操作手段とも言う)および複数の文字入力キー22e(文字入力手段とも言う)などを含み、ケースCの主面に設けられる。また、LCDモニタ26は、モニタ画面がケースCの主面に露出するように取り付けられる。なお、キー入力装置22には、通話キーおよび終話キーも含まれる。
The
第1メニューキー22a、第2メニューキー22bおよび決定キー22cはLCDモニタ26に表示されるソフトキーにそれぞれ対応しており、LCDモニタ26内に表示されるソフトキーを操作する際に利用される。また、方向キー22dは、LCDモニタ26に表示されるGUI(Graphical User Interface)に対して上下方向または左右方向の入力操作を行うために用いられる。なお、決定キー22cは方向キー22dによるGUIの操作結果を決定するためにも用いられる。
The first menu key 22a, the second menu key 22b, and the
そして、使用者は、文書編集機能が実行されている状態では、複数の文字入力キー22eを利用することで文字列をキー入力することができる。たとえば、複数の文字入力キー22eは「あ」行〜「わ」行までの文字キーから構成されており、各文字キーを操作する回数によって入力する文字(平仮名)を指定することができる。具体的には、「あ」文字キーは、「あ、い、う、え、お」の文字を入力するためのキーであり、使用者は「あ」行文字キーを押下すれば、「あ」の文字を入力することができ、さらにもう一度押下すれば、「い」の文字を入力することができる。また、使用者は方向キー22dおよび決定キー22cを利用することで平仮名を、漢字や片仮名に変換することができる。
The user can input a character string by using the plurality of
なお、使用者は、文書編集機能のGUIを操作することで、文字入力キーに割り当てられた文字を英数字や記号に切り替え、英数字または記号を入力することができる。また、複数の文字入力キー22eは0〜9の数字キーとしても利用することが可能であり、たとえば、「あ」行文字キーは数字の「1」、「か」行文字キーは数字の「2」となるようにそれぞれ対応する。つまり、使用者は、電話番号を入力して発信する場合に、複数の文字入力キー22eを利用して電話番号を入力し、通話キーによって発信操作を行うことができる。
Note that the user can switch the characters assigned to the character input keys to alphanumeric characters or symbols by operating the GUI of the document editing function, and can input alphanumeric characters or symbols. The plurality of
ここで、音声認識によって文字列を入力することが可能な文書編集機能について、LCDモニタ26に表示される各画像やGUIなどを用いて詳細に説明する。
Here, a document editing function capable of inputting a character string by voice recognition will be described in detail using each image displayed on the
図3(A)を参照して、LCDモニタ26には、状態表示領域50、機能表示領域52およびキー表示領域54が設定されている。状態表示領域50はLCDモニタ26の上側に設定され、アンテナ12による電波受信状態、充電池(バッテリィ)の残電池容量および現在日時などを表示する。また、機能表示領域52は、実行される機能に応じて表示内容が変化し、ここでは送信メールの本文編集画面が表示され、現在の文字入力位置を示す
カーソルCUaが表示される。
With reference to FIG. 3A, a
そして、キー表示領域54は複数のソフトキーが表示されており、実行される機能に応じて表示状態が変化し、ソフトキーの表示が必要ない機能では、キー表示領域54は表示されない。たとえば、送信メールの本文を編集するために文書編集機能が実行されている場合には、通常入力キー56a、完了キー56bおよびサブメニューキー56cが表示される。そして、通常入力キー56aには第1メニューキー22aが対応し、完了キー56bには決定キー22cが対応し、サブメニューキー56cには第2メニューキー22bが対応し、使用者は第1メニューキー22a、決定キー22cおよび第2メニューキー22bを押下することで、それぞれに対応するソフトキーを操作することができる。
A plurality of soft keys are displayed in the
なお、他の表示例(図面)であっても、左側に表示されるソフトキーは第1メニューキー22aに対応し、中央に表示されるソフトキーは決定キー22cに対応し、右側に表示されるソフトキーは第2メニューキー22bに対応する。
In other display examples (drawings), the soft key displayed on the left side corresponds to the first menu key 22a, and the soft key displayed on the center corresponds to the
まず、通常入力キー56aが操作されると、文字列の入力モードを切り替えることができる。文字列の入力モードの表示は、モード表示58に表示されており、図3(A)の状態では、「音声入力モード」に設定されている。この状態で、通常入力キー56aが操作されると、複数の文字入力キー22eを利用して文字列を入力する「通常入力モード」に切り替わり、図3(B)のように、通常入力キー56aの代わりに音声入力キー56dが表示される。通常入力モードは、複数の文字入力キー22eに対するキー入力によって文字を入力するモードであり、音声入力モードは、音声認識によって文字列を入力するモードである。そして、通常入力キー56aおよび音声入力キー56dを操作することで、使用者は入力モードを任意に切り換えることができる。なお、音声入力モードにおいて所定時間(2秒)の未入力状態が検出された場合にも、音声入力モードから通常入力モードに切り替わる。
First, when the normal input key 56a is operated, the character string input mode can be switched. The display of the character string input mode is displayed on the
次に、完了キー56bが操作されると、文書編集機能による送信メールの本文編集を終了し、送信メールの宛先や題名を入力するためのGUIが表示される。さらに、サブメニューキー56cが操作されると、送信メールの作成または文書編集機能の初期設定を変更するためのサブメニューが表示される。 Next, when the completion key 56b is operated, the text editing of the outgoing mail by the document editing function is finished, and a GUI for inputting the destination and title of the outgoing mail is displayed. Further, when the sub menu key 56c is operated, a sub menu for changing the initial setting of the outgoing mail creation or the document editing function is displayed.
音声入力モードが設定された状態で、第2マイク16bに対して文章を意味する音声が入力されると、図3(B)に示すように、機能表示領域52には音声認識された結果の文章が表示される。そして、信頼度の低い文字列(以下、低信頼度文字列または低信頼度部位と言う。)は背景色を青色に彩色される。つまり、低信頼度文字列は、誤認識されている文字列(以下、誤認識文字列と言う。)である可能性が高いため、使用者による編集を誘導するために、他の文字列とは異なる形態で表示される。
When a voice meaning a sentence is input to the
さらに、携帯端末10は、編集するための手段を確認するために、図3(C)に示すように、ウインドウWaを機能表示領域52上に表示する。このウインドウWaには、「1.カーソル指定モード」、「2.音声指定モード」、「3.音声検索モード」および「4.通常入力モード」の4つモードを選択する編集メニューが含まれる。また、各編集メニューの選択には、対応する数字キーを操作すればよく、複数の文字入力キー22eを利用する。
Furthermore, the
たとえば、「1」に対応する「あ」行文字キーが押下されると、図3(D)に示すように、任意の低信頼度文字列が編集カーソルCUbによって指定された状態で表示され、モード表示58には、カーソル指定モードと表示される。また、図3(D)では、中央のソフトキーとして編集キー56eが表示されるようになる。そして、編集カーソルCUbは
、低信頼度文字列である「経済」を選択した状態となる。この編集カーソルCUbは、低信頼度文字列のみを選択することが可能であるため、編集する操作の操作性を向上させることができる。
For example, when the “A” line character key corresponding to “1” is pressed, an arbitrary low-reliability character string is displayed in a state designated by the editing cursor CUb, as shown in FIG. The
なお、編集キー56eについては後述するため、ここでの詳細な説明は簡単のため省略する。
Since the
ここで、4つのモードのそれぞれについて概要を説明する。まず、カーソル指定モードは、低信頼度文字列のそれぞれを、方向キー22dによって操作可能な編集カーソルCUb(図3(D)参照)によって指定(選択)して、その指定した文字列を編集するモードである。たとえば、図3(D)の状態で、右方向の入力が方向キー22dにされると、「経済」に代わって「医術」が選択される。また、さらに右方向の入力が方向キー22dにされると、「医術」に代わって「いたない」が選択される。さらに、「いたない」が選択される状態で、左方向の入力が方向キー22dにされると、「いたない」に代わって「医術」が選択される。なお、左右方向の代わりに、上下方向の操作がされると、下方向は右方向に対応し、上方向は左方向に対応して編集カーソルCUbが移動するようにしてもよい。 Here, an outline of each of the four modes will be described. First, in the cursor designation mode, each low-reliability character string is designated (selected) by the edit cursor CUb (see FIG. 3D) that can be operated by the direction key 22d, and the designated character string is edited. Mode. For example, in the state of FIG. 3D, when the right direction input is made with the direction key 22d, “medicine” is selected instead of “economy”. Further, when the direction key 22d is further input to the right direction, "Dai" is selected instead of "Medical technique". Further, in the state where “don't care” is selected, if the left direction input is made with the direction key 22d, “medical technique” is selected instead of “not good”. If an operation in the vertical direction is performed instead of the horizontal direction, the editing cursor CUb may move so that the downward direction corresponds to the right direction and the upward direction corresponds to the left direction.
このように、編集カーソルCUbは、方向キー22dによって操作することが可能であるため、使用者は信頼性の高いカーソル操作を行うことができる。 Thus, since the edit cursor CUb can be operated by the direction key 22d, the user can perform a highly reliable cursor operation.
次に、音声指定モードでは、低信頼度文字列が誤認識文字列である場合に、文字列を表わす音声が再入力されると、その再入力した音声が表わす文字列と類似する文字列が選択される。また、この類似する文字列を指定するためには、最初に入力された音声データを、形態素毎に分割して記憶しておくことで実現可能である。具体的には、分割された各音声データにおいて、低信頼度文字列に対応する各音声データと、対応する低信頼度文字列とから低信頼度音声辞書を作成する。そして、CPU20aは、特徴パターンの照合による音声認識の手法を用いて、再入力された音声データと最も尤度が高い参照音声データを特定することで、低信頼度文字列を選択する。そして、選択された文字列は、再入力した音声が音声認識された文字列と置き換えられる。つまり、選択された誤認識文字列は、新たに音声認識された文字列と置き換えられる。このように、使用者は、編集するための文字列を発話するだけで、誤認識した文字列を編集することができる。つまり、使用者は、音声認識よる文章の編集に都合がいい編集操作を行うことができる。
Next, in the voice designation mode, when the low-reliability character string is a misrecognized character string and the voice representing the character string is re-input, a character string similar to the character string represented by the re-input voice is obtained. Selected. Moreover, in order to designate this similar character string, it is realizable by dividing and memorize | storing the audio | voice data input initially for every morpheme. Specifically, in each divided speech data, a low reliability speech dictionary is created from each speech data corresponding to a low reliability character string and a corresponding low reliability character string. Then, the
また、音声検索モードでは、音声指定モードと同様に、低信頼度文字列が誤認識文字列である場合に、誤認識文字列を表わす音声を再入力することで、各誤認識文字列から再入力された音声に対応する誤認識文字列を検索する。そして、検索結果は、編集カーソルCUbによって示される。なお、誤認識文字列を検索する際には、音声指定モードと同様に、特徴パターンの照合による音声認識の手法を利用して指定してもよいし、再入力した音声の認識結果と一致する文字列を指定するようにしてもよい。このように、使用者は、誤った文字列を発話するだけで編集カーソルCUbを操作できるようになる。つまり、使用者は、音声認識による文書の作成に都合のいいカーソルの操作を実行することができる。 Also, in the voice search mode, as in the voice designation mode, when the low-reliability character string is a misrecognized character string, the voice representing the misrecognized character string is re-input to re-start from each misrecognized character string. A misrecognized character string corresponding to the input voice is searched. The search result is indicated by the edit cursor CUb. When searching for a misrecognized character string, as in the voice designation mode, it may be designated using a voice recognition technique based on feature pattern matching, or it matches the recognition result of the re-input voice. A character string may be specified. In this way, the user can operate the editing cursor CUb simply by speaking the wrong character string. That is, the user can execute a cursor operation that is convenient for creating a document by voice recognition.
なお、図3(C)に示す通常入力モードとは、先述した通常入力モードのことであり、使用者は、音声認識によって入力した文字列(文章)に対して、カーソルCUaを方向キー22dによって文章(文字列)を編集する位置を任意に決め、複数の文字入力キー22eによって文字を入力する。
The normal input mode shown in FIG. 3C is the above-described normal input mode, and the user moves the cursor CUa to the character string (sentence) input by voice recognition using the direction key 22d. A position for editing a sentence (character string) is arbitrarily determined, and characters are input by a plurality of
続いて、低信頼度文字列を編集する操作について、説明する。図4(A)を参照して、モード表示58には、カーソル指定モードと表示されており、編集カーソルCUbによっ
て、低信頼度文字列である「多少」が指定(選択)されている。また、キー表示領域54では、左側に通常入力キー56a、中央に編集キー56e、右側に終了キー56fが表示されている。そして、編集キー56eが操作されると、編集カーソルCUb部に対する音声認識文字入力あるいは文字入力キー22e等による文字入力を受けつける。
Next, an operation for editing the low reliability character string will be described. Referring to FIG. 4A, the
たとえば、複数の文字入力キー22eによって「箇所」の文字列が入力されると、図4(B)に示すように、指定された低信頼度文字列「多少」が「箇所」の文字列に置き換えられる。つまり、使用者は、電車の中や周囲が騒がしい場所など、音声認識に不適切な環境であれば、複数の文字入力キー22eを利用して、文章の編集をすることができる。また、使用者は、複数の文字入力キー22eを利用して、信頼性の高い編集操作を行うこともできる。
For example, when a character string “location” is input by a plurality of
また、文字入力キー22eの押下されなければ、第2マイク16bを利用した音声認識によって文字列を入力することが可能であり、「箇所」を表わす音声が入力されると、文字入力と同様に、指定された低信頼度文字列「多少」が「箇所」の文字列に置き換えられる。つまり、使用者は、音声認識を利用して容易に編集することができる。
If the character input key 22e is not pressed, it is possible to input a character string by voice recognition using the
そして、編集した後に確定キー56gが操作されると、再入力された文字列は、背景色が他の文字列と同じ色で彩色され、さらに下線が付加されて表示されるようになる。なお、このように下線が付加された文字列を確定文字列と言うことにする。また、確定文字列は、編集カーソルCUbにより選択後、編集キー56eが再び操作されれば、編集可能な状態になる。
When the
また、低信頼度文字列であっても誤入力でなければ、編集カーソルCUbによって選択した後に、編集キー56eと確定キー56gとを続けて操作することで、確定文字列とすることができる。さらに、低信頼度文字列が表示されている状態で終了キー56fが選択されると、現在のモード(ここでは、カーソル指定モード)を終了して、他のモードを選択することが可能になる。たとえば、図3(D)のいずれかの画面で終了キー56fが操作されると、図3(C)に示すウインドウWaが表示される。
Further, even if it is a low-reliability character string, if it is not an erroneous input, it can be made a confirmed character string by operating the
そして、全ての低信頼度文字列が確定文字列に置き換えられると、図4(C)に示すように、ウインドウWbが表示される。ウインドウWbには、「通常入力を行いますか?」の文字列が表示されると共に、「1.YES」および「2.NO」が表示される。 When all the low reliability character strings are replaced with the confirmed character strings, a window Wb is displayed as shown in FIG. In the window Wb, a character string “Do you normally input?” And “1. YES” and “2. NO” are displayed.
たとえば、ウインドウWbが表示されている状態で、「1」の数字キーが操作されると、確定文字列に付加された下線が消去され、他の文字列と同じ表示になる。そして、カーソルCUaの表示位置に基づいて、複数の文字入力キー22eによる文字入力を行うことができる状態になる。一方、「2」の数字キーが操作されると、送信メールの本文編集を終了して、送信メールの宛先や題名を入力可能なGUIが表示される画面に遷移する。 For example, when the number key “1” is operated while the window Wb is displayed, the underline added to the confirmed character string is deleted, and the same display as that of the other character strings is obtained. And based on the display position of cursor CUa, it will be in the state which can perform the character input by the several character input key 22e. On the other hand, when the number key “2” is operated, the text editing of the outgoing mail is finished, and the screen is changed to a screen on which a GUI capable of inputting the destination and title of the outgoing mail is displayed.
なお、編集キー56eあるいは確定キー56gに対応する決定キー22cを長押しすることで、低信頼度文字列が全て確定文字列にされてもよい。また、カーソル指定モードについて説明したが、音声検索モードであっても、編集カーソルCUbを移動させる操作が異なるだけであり、低信頼度文字列に対する編集操作は同じである。
Note that all of the low-reliability character strings may be changed to the confirmed character string by long pressing the
続いて、低信頼度文字列を、他の文字列とは異なる形態で表示するための信頼度テーブルについて説明する。図5を参照して、信頼度テーブルには、音声認識された各文字列を記録する文字列の列と、その各文字列に対応する信頼度を記録する信頼度の列とから構成されている。たとえば、文字列の列には、使用者が発話した文章が形態素単位に分割されて格納されており、「経済」、「の」および「医術」などの文字列が格納されている。一
方、信頼度の列には、信頼度を百分率で表した数値が記録されており、音声認識の結果に基づいてそれぞれ記録される。つまり、「経済」の音声認識における信頼度が50%であれば、「経済」の欄に対応して「50%」が記録される。また、「の」の信頼度が80%であれば、「の」の欄に対応して「80%」が記録され、「医術」の信頼度が40%であれば、「医術」の欄に対応して「40%」が記録される。
Next, a reliability table for displaying a low reliability character string in a form different from other character strings will be described. Referring to FIG. 5, the reliability table is composed of a character string column for recording each character string recognized by speech recognition and a reliability column for recording the reliability corresponding to each character string. Yes. For example, in a character string column, a sentence uttered by a user is divided into morpheme units and stored, and character strings such as “economy”, “no”, and “medicine” are stored. On the other hand, in the reliability column, a numerical value representing the reliability as a percentage is recorded, and is recorded based on the result of speech recognition. In other words, if the reliability in speech recognition of “economy” is 50%, “50%” is recorded corresponding to the “economy” column. If the reliability of “NO” is 80%, “80%” is recorded corresponding to the “NO” column, and if the reliability of “Medical” is 40%, the “Medical” column is recorded. "40%" is recorded corresponding to
そして、信頼度テーブルの信頼度の列において60%以下の文字列が、低信頼度文字列として表示されるようになる。つまり、「経済」および「医術」に対応する信頼度が60%以下であるため、図3(B)などに示すように、「経済」および「医術」の背景色が青色に彩色されて表示される。 Then, a character string of 60% or less in the reliability column of the reliability table is displayed as a low reliability character string. That is, since the reliability corresponding to “economy” and “medical technique” is 60% or less, the background color of “economic” and “medical technique” is displayed in blue as shown in FIG. Is done.
続いて、低信頼度文字列を音声入力によって編集するときの他の実施例について説明する。図6を参照して、低信頼度文字列「いたない」が編集カーソルCUbで指定され、使用者によって新たに音声が入力されると、音声認識によって生成された文字列の候補がプルダウンPDによって一覧的に表示される。このプルダウンPDに表示される一覧は、尤度(信頼度)が高い順に上から表示されるため、最も尤度が高い文字列が最上部に表示される。つまり、ここでは、「満たない」および「汚い」の文字列が、認識の候補としてプルダウンPD内に表示される。そして、表示される文字列に対応する数字が選択されると、指定されている低信頼度文字列が選択された文字列と置き換えられる。たとえば、「1」の数字キーが操作されると、「いたない」が「満たない」に置き換えられる。なお、方向キー22dによるカーソル移動と確定キー56gの操作とによる選択であってもよい。 Next, another embodiment when editing a low-reliability character string by voice input will be described. Referring to FIG. 6, when a low-reliability character string “Daitai” is designated by the edit cursor CUb and a new voice is input by the user, a character string candidate generated by voice recognition is displayed by a pull-down PD. Displayed in a list. Since the list displayed on the pull-down PD is displayed from the top in the descending order of likelihood (reliability), the character string having the highest likelihood is displayed at the top. That is, here, the character strings “not satisfied” and “dirty” are displayed in the pull-down PD as recognition candidates. When a number corresponding to the displayed character string is selected, the designated low reliability character string is replaced with the selected character string. For example, when the number key “1” is operated, “not” is replaced with “not satisfied”. The selection may be made by moving the cursor with the direction key 22d and operating the confirmation key 56g.
このように、音声認識の候補を一覧的に表示することで、再入力した音声の認識精度が高くなくても、使用者は正しく編集することができる。 In this way, by displaying a list of voice recognition candidates in a list, the user can edit correctly even if the recognition accuracy of the re-input voice is not high.
なお、プルダウンPDを利用して低信頼度文字列を編集するのは、カーソル指定モードだけに限らず、音声検索モードや音声指定モードでも実行可能である。また、一定値(たとえば40%)以下の文字列はプルダウンPDに表示されない。 Note that editing the low-reliability character string using the pull-down PD can be executed not only in the cursor designation mode but also in the voice search mode and the voice designation mode. In addition, character strings below a certain value (for example, 40%) are not displayed on the pull-down PD.
続いて、図3(A)−図3(C)に示すサブメニューキー56cが操作された場合について説明する。図7(A)を参照して、機能表示領域52にはウインドウWcが表示され、そのウインドウWc内には、「1.新規保存」、「2.編集内容確認」および「3.信頼度閾値」の3つのサブメニューが表示される。なお、各メニューは、他のメニューを選択する操作と同様に、数字キーなどを操作することで選択することができる。
Next, a case where the sub menu key 56c shown in FIGS. 3A to 3C is operated will be described. Referring to FIG. 7A, window Wc is displayed in
たとえば、「新規保存」のメニューが選択されると、送信メールのデータをRAM30に保存(記憶)する処理が実行される。また、「編集内容確認」のメニューが選択されると、作成した送信メールの宛先、題名および本文などを同時に確認する画面を表示する処理が実行される。
For example, when the “New Save” menu is selected, a process of saving (storing) the data of the outgoing mail in the
そして、「信頼度閾値」のメニューが選択されると、低信頼度文字列と判断される閾値を変更するGUIが表示される。つまり、「3」の数字キーが操作されると、図7(B)に示すウインドウWdが表示され、さらにウインドウWdには、「1.高い」、「2.普通」および「3.低い」の閾値メニューが表示される。そして、使用者は、任意の閾値メニューを選択することで、閾値を変化させることができる。たとえば、「高い」が選択されると閾値は70%に設定され、「普通」が選択されると閾値は60%に設定され、「低い」が選択されると閾値は50%に設定される。そして、図7(A),(B)における戻るキー56hが操作されると、サブメニューの処理を終了して、図3(A)などに示す画面に戻る。 When the “reliability threshold value” menu is selected, a GUI for changing a threshold value determined to be a low reliability character string is displayed. That is, when the number key “3” is operated, a window Wd shown in FIG. 7B is displayed, and “1. High”, “2. Normal”, and “3. Low” are further displayed in the window Wd. The threshold menu is displayed. The user can change the threshold by selecting an arbitrary threshold menu. For example, when “high” is selected, the threshold is set to 70%, when “normal” is selected, the threshold is set to 60%, and when “low” is selected, the threshold is set to 50%. . Then, when the return key 56h in FIGS. 7A and 7B is operated, the submenu processing is terminated and the screen returns to the screen shown in FIG. 3A and the like.
なお、信頼度の閾値は、3段階だけに限らず、2段階または4段階以上であってもよい。また、信頼度の閾値は任意の数値で指定されるようにしてあってもよい。また、サブメニューの処理は、送信メールの本文を作成するときだけに限らず、宛先や題名を入力するときでも、実行可能である。 The reliability threshold is not limited to three levels, and may be two levels or four or more levels. Further, the reliability threshold value may be designated by an arbitrary numerical value. Further, the processing of the submenu can be executed not only when the body of the outgoing mail is created but also when the destination and the title are input.
図8は、RAM30のメモリマップを示す図解図である。図8を参照して、RAM30のメモリマップ300には、プログラム記憶領域302およびデータ記憶領域304が含まれる。プログラムおよびデータの一部は、フラッシュメモリ28から一度に全部または必要に応じて部分的にかつ順次的に読み出され、RAM30に記憶されてからCPU20などで処理される。
FIG. 8 is an illustrative view showing a memory map of the
プログラム記憶領域302は、携帯端末10を動作させるためのプログラムを記憶する。携帯端末10を動作させるためのプログラムは、メール機能プログラム310および文書編集プログラム312などから構成される。メール機能プログラム310は、送信メールおよび返信を作成したり、受信メールを表示したりするためのプログラムであり、さらに送信メール作成プログラム310aおよびサブメニュープログラム310bなどから構成されている。送信メール作成プログラム310aは、送信メールの宛先、題名および本文を作成(入力)するためのプログラムであり、サブメニュープログラム310bは、送信メールを保存するためのプログラムである。
The
また、文書編集プログラム312は、送信メールの本文などを編集するときに実行されるプログラムであり、さらに信頼度閾知設定プログラム312a、任意カーソル編集プログラム312b、音声認識入力プログラム312c、低信頼度部位編集プログラム312d、カーソル指定プログラム312e、音声指定プログラム312f、音声検索プログラム312gおよび変換部位検索プログラム312hから構成されている。
The
信頼度閾値設定プログラム312aは、使用者によって信頼度の閾値を任意に設定させるためのプログラムである。任意カーソル編集プログラム312bは、カーソルCUaによって決められた位置に基づいて、キー入力または音声入力によって文章を編集、つまり文字列を入力するためのプログラムである。音声認識入力プログラム312cは、音声認識によって文字列を入力するための処理であり、音声入力モードなどで実行されるプログラムである。
The reliability
低信頼度部位編集プログラム312dは、低信頼度文字列をキー入力または音声入力などによって編集するためのプログラムである。カーソル指定プログラム312eは、低信頼度文字列を編集カーソルCUbによって選択して編集するためのプログラムである。音声指定プログラム312fは、新たに入力した音声と相関の高い部位の文字列を編集するためのプログラムである。音声検索プログラム312gは、新たに入力した音声によって編集カーソルCUbを操作して、低信頼度文字列を編集するためのプログラムである。そして、変換部位検索プログラム312hは、音声指定プログラム312fおよび音声検索プログラム312gのサブルーチンであり、新たに入力された音声に基づいて低信頼度文字列を検索するためのプログラムである。
The low reliability
なお、図示は省略するが、携帯端末10を動作させるためのプログラムは、通話を行うためのプログラム、ネットワークを通じてメールデータを取得するプログラムなども含む。
In addition, although illustration is abbreviate | omitted, the program for operating the
続いて、図9を参照して、データ記憶領域304には、音声認識バッファ330、入力文字バッファ332が設けられ、さらに、設定閾値データ334、信頼度テーブルデータ336、低信頼度音声辞書データ338、メールデータ340が記憶されると共に、カー
ソル指定フラグ342、音声指定フラグ344および音声検索フラグ346が設けられる。
Next, referring to FIG. 9, the
音声認識バッファ330は、音声認識の処理を実行する際に利用されるバッファであり、たとえば、DSP20bによって変換された音声認識用の音声データが一時的に格納される。入力文字バッファ332は、文書編集プログラム312が実行されることで編集(作成)されている文字列を一時的に格納するバッファである。なお、入力文字バッファ332に格納されたデータを利用して、文字列がLCDモニタ26に表示される。設定閾値データ334は、信頼度閾知設定プログラム312aの処理によって決定した閾値のデータであり、たとえば「60%」や「70%」などを表わす数字列から構成されている。信頼度テーブルデータ336は、図5に示す信頼度テーブルのデータである。
The
低信頼度音声辞書データ338は、使用者によって入力された音声データのうち、低信頼度文字列に対応する音声データと、その低信頼度文字列文字列とから構成されており、音声指定モードや音声検索モードなどで入力された音声が表わす文字列に類似する文字列を検索するために利用される。メールデータ340は、送信メールの本文(文字列)のデータや、受信メール、送信済みメールおよび未送信メールなどのデータから構成されるデータである。
The low-reliability
カーソル指定フラグ342は、カーソル指定モードであるか否かを判断するためのフラグである。たとえば、カーソル指定フラグ342は1ビットのレジスタで構成され、カーソル指定フラグ342がオン(成立)されると、レジスタにはデータ値「1」が設定される。一方、カーソル指定フラグ342がオフ(不成立)されると、レジスタにはデータ値「0」が設定される。また、音声指定フラグ344は、音声指定モードであるか否かを判断するためのフラグである。そして、音声検索フラグ346は、音声検索モードであるか否かを判断するためのフラグである。なお、音声指定フラグ344および音声検索フラグ346の構成は、カーソル指定フラグ342と同じであるため、構成についての詳細な説明は省略する。
The
また、図示は省略するが、データ記憶領域304には、状態表示領域50に表示する画像や文字列などを表示するためのデータが記憶されると共に、携帯端末10の動作に必要な他のカウンタやフラグも設けられる。
Although not shown, the
CPU20aは、「Linux」および「REX」などのRTOS(real−time operating system)の制御下で、図10に示す送信メール作成処理、図11に示すサブメニュー処理、図12に示す信頼度閾値設定処理、図13に示す文字編集処理、図14に示す任意カーソル編集処理、図15に示す音声認識入力処理、図16に示す低信頼度部位編集処理、図17に示すカーソル指定処理、図18に示す音声指定処理、図19に示す音声検索処理および図20に示す変換部位検索処理などを含む複数のタスクを並列的に実行する。
Under the control of an RTOS (real-time operating system) such as “Linux” and “REX”, the
図10は、送信メール作成処理を示すフロー図である。たとえば、使用者が送信メールを作成する操作を行うと、CPU20aはステップS1で、終了操作か否かを判断する。つまり、送信メールの作成を終了するための操作か否かを判断する。ステップS1で“YES”であれば、送信メール作成処理を終了し、上位処理であるメール機能処理に戻る。一方、ステップS1で“NO”であれば、ステップS3は送信操作か否かを判断する。つまり、送信メールをネットワークに送信するための操作であるか否かを判断する。ステップS3で“YES”であれば、ステップS5で送信処理を実行し、送信メール作成処理を終了する。つまり、ステップS5では、送信メールのデータをネットワークに送信する。
FIG. 10 is a flowchart showing the outgoing mail creation process. For example, when the user performs an operation of creating a transmission mail, the
ステップS5で“NO”であれば、つまり送信操作でなければ、ステップS7でサブメニューの設定か否かを判断する。つまり、キー表示領域54に表示されているサブメニューキー56cが操作されたか否かを判断する。ステップS7で“YES”であれば、つまりサブメニューキー56cが操作されていれば、ステップS9でサブメニュー処理を実行し、ステップS1に戻る。また、ステップS9で実行されるサブメニュー処理については後述するため、ここでの詳細な説明は省略する。一方、ステップS7で“NO”であれば、つまりサブメニューキー56cが操作されていなければ、ステップS11で題名の編集であるか否かを判断する。つまり、送信メールの題名を編集するための操作であるか否かを判断する。
If “NO” in the step S5, that is, if the transmission operation is not performed, it is determined whether or not the sub menu is set in a step S7. That is, it is determined whether or not the sub menu key 56c displayed in the
ステップS11で“YES”であれば、つまり題名を編集する操作であれば、ステップS13で文書編集処理を実行し、さらにステップS15で題名を設定する処理した後にステップS1に戻る。一方、ステップS11で“NO”であれば、つまり題名を編集する操作でなければ、ステップS17で本文の編集であるか否かを判断する。つまり、ステップS17では送信メールの本文を編集する操作であるか否かを判断する。ステップS17で“YES”であれば、ステップS13と同様にステップS19で文書編集処理を実行し、さらにステップS21で本文を設定した後に、ステップS1に戻る。一方、ステップS17で“NO”であれば、つまり本文を編集する操作でなければ、ステップS23で宛先の設定であるか否かを判断する。なお、ステップS13またはステップS19で実行される文書編集処理については、図13に示す文書編集処理を示すフロー図を用いて詳細に説明する。 If “YES” in the step S11, that is, if the operation is to edit the title, the document editing process is executed in a step S13, and after the process of setting the title in a step S15, the process returns to the step S1. On the other hand, if “NO” in the step S11, that is, if the operation is not an operation for editing the title, it is determined whether or not the text is edited in a step S17. That is, in step S17, it is determined whether or not the operation is to edit the text of the outgoing mail. If “YES” in the step S17, the document editing process is executed in a step S19 similarly to the step S13, and the text is set in a step S21, and then the process returns to the step S1. On the other hand, if “NO” in the step S17, that is, if it is not an operation for editing the text, it is determined whether or not the destination is set in a step S23. The document editing process executed in step S13 or step S19 will be described in detail with reference to the flowchart showing the document editing process shown in FIG.
ステップS23で“YES”であれば、つまり宛先を設定する処理であれば、ステップS25で宛先の設定処理を実行し、ステップS1に戻る。一方、ステップS23で“NO”であれば、つまり宛先を設定する操作でなければ、ステップS27でデータの添付か否かを判断する。つまり、送信メールにデータを添付するための操作がされたか否かを判断する。ステップS27で“YES”であれば、つまりデータを添付する操作であれば、ステップS29でデータの添付処理を実行し、ステップS1に戻る。一方、ステップS27で“NO”であれば、つまりデータを添付する操作でなければ、ステップS1に戻る。 If “YES” in the step S23, that is, if the process is to set a destination, the destination setting process is executed in a step S25, and the process returns to the step S1. On the other hand, if “NO” in the step S23, that is, if the operation is not an operation for setting a destination, it is determined whether or not data is attached in a step S27. That is, it is determined whether or not an operation for attaching data to the outgoing mail has been performed. If “YES” in the step S27, that is, if the operation is an operation for attaching data, a data attaching process is executed in a step S29, and the process returns to the step S1. On the other hand, if “NO” in the step S27, that is, if it is not an operation for attaching data, the process returns to the step S1.
図11はステップS9(図10参照)で実行されるサブメニュー処理を示すフロー図である。CPU20aは、ステップS9の処理が実行されると、LCDモニタ26には図7(A)に示すようにウインドウWcが表示され、ステップS41で戻る操作であるか否かを判断する。つまり、戻るキー56hが操作されたか否かを判断する。ステップS41で“YES”であれば、つまり戻るキー56hが操作されれば、サブメニュー処理を終了し、送信メール作成処理に戻る。一方、ステップS41で“NO”であれば、つまり戻るキー56hが操作されなければステップS43で新規保存の操作か否かを判断する。たとえば、「1」の数字キーが操作されたか否かを判断する。ステップS43で“YES”であれば、ステップS45で作成中のメールを保存する処理を実行した後に、ステップS41に戻る。つまり、ステップS45では送信メールを未送信メールとしてRAM30に保存(記憶)させる。
FIG. 11 is a flowchart showing the submenu process executed in step S9 (see FIG. 10). When the process of step S9 is executed, the
ステップS43で“NO”であれば、つまり新規保存の操作でなければ、ステップS47で編集内容の確認操作であるか否かを判断する。つまり、「2」の数字キーが操作されたか否かを判断する。 If “NO” in the step S43, that is, if the operation is not a new saving operation, it is determined whether or not an editing content confirmation operation is performed in a step S47. That is, it is determined whether or not the numeric key “2” has been operated.
ステップS47で“YES”であれば、ステップS49で送信メールの確認表示処理を実行し、ステップS41に戻る。つまり、ステップS49では、送信メールの宛先、題名および本文のそれぞれが同一の画面で確認することが可能な、確認表示の処理を実行する。また、ステップS47で“NO”であれば、ステップS51で信頼度閾値の設定操作か
否かを判断する。つまり、「3」の数字キーが操作されたか否かを判断する。ステップS51で“YES”であれば、ステップS53で信頼度閾値設定処理を実行し、ステップS41に戻る。このステップS53の処理については後述するため、ここでの詳細な説明は省略する。また、ステップS51で“NO”であれば、そのままステップS41に戻る。
If “YES” in the step S47, a sent mail confirmation display process is executed in a step S49, and the process returns to the step S41. That is, in step S49, a confirmation display process is executed in which the destination, title, and body of the outgoing mail can be confirmed on the same screen. If “NO” in the step S47, it is determined whether or not a reliability threshold value setting operation is performed in a step S51. That is, it is determined whether or not the numeric key “3” has been operated. If “YES” in the step S51, a reliability threshold setting process is executed in a step S53, and the process returns to the step S41. Since the process of step S53 will be described later, detailed description thereof is omitted here. If “NO” in the step S51, the process returns to the step S41 as it is.
なお、サブメニュー処理は送信メールの本文を作成する処理と並列的に実行されてもよく、サブメニューキー56cが表示されている状態であれば、実行できるようにしてあってもよい。 The submenu process may be executed in parallel with the process of creating the text of the outgoing mail, and may be executed as long as the submenu key 56c is displayed.
図12は、ステップS53(図11参照)で実行される信頼度閾知設定処理を示すフロー図である。CPU20aはステップS71で信頼度設定画面を表示する。たとえば、図7(B)に示すように、ウインドウWdを表示する。続いて、ステップS73では戻る操作か否かを判断する。つまり、戻るキー56hが操作されたか否かを判断する。ステップS73で“YES”であれば、つまり戻るキー56hが操作されれば、信頼度閾知設定処理を終了して、サブメニュー処理に戻る。一方、ステップS73で“NO”であれば、つまり戻るキー56hが操作されなければ、ステップS75で信頼度の変更操作か否かを判断する。たとえば、「1」〜「3」の数字キーのいずれか1つが操作されたか否かを判断する。ステップS75で“NO”であれば、つまり信頼度の変更操作がされなければステップS73に戻る。一方、ステップS75で信頼度の変更操作がされれば、ステップS77で変更操作に応じて信頼度を設定し、信頼度閾値設定処理を終了する。たとえば、「1」の数字キーが操作されれば信頼度の閾値は70%(高い)に設定され、「2」の数字キーが操作されれば信頼度の閾値は60%(普通)に設定され、「3」の数字キーが操作されれば信頼度の閾値は50%(低い)に設定される。また、設定された信頼度の閾値を示すデータは、設定閾値データ334としてRAM30に記憶される。
FIG. 12 is a flowchart showing the reliability threshold setting process executed in step S53 (see FIG. 11). In step S71, the
図13はステップS13またはステップS19(図10参照)で実行される文書編集処理を示すフロー図である。CPU20aは、ステップS13またはステップS19の処理が実行されると、ステップS91で完了操作か否かを判断する。つまり、図3(A)などに示す完了キー56bが操作されたか否かを判断する。ステップS91で“YES”であれば、つまり完了キー56bが操作されれば、文書編集処理を終了して、送信メール作成処理に戻る。一方、ステップS91で“NO”であれば、つまり完了キー56bが操作されなければ、低信頼度部位があるか否かを判断する。つまり、信頼度テーブルデータ336を参照して、設定閾値データ334が示す閾値以下の信頼度が記録されているか否かを判断する。
FIG. 13 is a flowchart showing the document editing process executed in step S13 or step S19 (see FIG. 10). When the process of step S13 or step S19 is executed, the
ステップS93で“NO”であれば、つまり低信頼度部位がなければ、ステップS95で任意カーソル編集処理を実行し、ステップS91に戻る。また、このステップS95の処理は後述するため、ここでの詳細な説明は省略する。また、ステップS93で“YES”であれば、つまり低信頼度部位があれば、ステップS97で低信頼度部位編集処理を実行する。また、このステップS97の処理は後述するため、ここでの詳細な説明は省略する。 If “NO” in the step S93, that is, if there is no low reliability portion, an arbitrary cursor editing process is executed in a step S95, and the process returns to the step S91. Further, since the process of step S95 will be described later, detailed description thereof is omitted here. If “YES” in the step S93, that is, if there is a low reliability part, a low reliability part editing process is executed in a step S97. Further, since the process of step S97 will be described later, detailed description thereof is omitted here.
続いて、ステップ99では、モードの再選択操作か否かを判断する。つまり、低信頼度文字列が表示されている状態で終了キー56f(図4(A)参照)が操作されたか否かを判断する。ステップS99で“YES”であれば、つまりモードの再選択操作であれば、ステップ97に戻る。一方、ステップS99で“NO”であれば、つまりモードの再選択操作でなければ、ステップS101で任意カーソル編集を行うか否かを判断する。つまり、図4(C)に示すウインドウWbに示される「YES」または「NO」を選択する操作結果によって判断する。ステップS101で“YES”であれば、つまり「YES」が選ばれれば、ステップS95に進む。一方、ステップS101で“NO”であれば、つまり
「NO」が選ばれれば文書編集処理を終了して、送信メール作成処理に戻る。
Subsequently, in
図14はステップS95(図13参照)で実行される任意カーソル編集処理を示すフロー図である。CPU20aは、ステップS95の処理が実行されると、ステップS111で、確定状態か否かを判断する。つまり、変換されていない平仮名が確定されたか否かを判断する。ステップS111で“YES”であれば、つまり平仮名が変換されて確定されれば、任意カーソル編集処理を終了し、文書編集処理に戻る。一方、ステップS111で“NO”であれば、つまり未確定の文字列が確定されていなければ、ステップS113で、文字列の表示を行う。つまり、入力文字バッファ332に格納されている文字列を読み出して、機能表示領域52に表示する。なお、入力文字バッファ332に文字列が格納されていなければ、カーソルCUaのみが表示される。
FIG. 14 is a flowchart showing the arbitrary cursor editing process executed in step S95 (see FIG. 13). When the process of step S95 is executed, the
続いて、ステップS115では、音声認識操作か否かを判断する。つまり、通常入力モードで、音声入力キー56dが操作されたか否かを判断する。ステップS115で“YES”であれば、つまり音声入力キー56dが操作されれば、ステップS117で音声認識入力処理を実行し、ステップS111に戻る。また、このステップS117の処理は後述するため、ここでの詳細な説明は省略する。 Subsequently, in step S115, it is determined whether or not a voice recognition operation is performed. That is, it is determined whether or not the voice input key 56d is operated in the normal input mode. If “YES” in the step S115, that is, if the voice input key 56d is operated, a voice recognition input process is executed in a step S117, and the process returns to the step S111. Further, since the process of step S117 will be described later, detailed description thereof is omitted here.
また、ステップS115で“NO”であれば、つまり音声入力キー56dが操作されていなければ、ステップS119で方向キー操作か否かを判断する。つまり、カーソルCUaを移動させるために方向キー22dが操作されたか否かを判断する。なお、機能表示領域52にカーソルCUaのみが表示されている状態では、カーソルCUaの表示位置は変化しない。ステップS119で“YES”であれば、つまり方向キー22dが操作されれば、ステップS121でカーソル移動の処理を実行し、ステップS111に戻る。一方、ステップS119で“NO”であれば、つまり、方向キー22dが操作されていなければ、ステップS123で文字入力操作か否かを判断する。つまり、複数の文字入力キー22eのいずれか1つが操作されたか否かを判断する。
If “NO” in the step S115, that is, if the voice input key 56d is not operated, it is determined whether or not the direction key is operated in a step S119. That is, it is determined whether or not the direction key 22d has been operated to move the cursor CUa. In the state where only the cursor CUa is displayed in the
ステップS123で“YES”であれば、つまり文字入力操作であればステップS125で文字の入力処理を実行し、ステップS111に戻る。つまり、ステップS125では、押下された文字キー応じて平仮名を表示し、さらにその表示した平仮名のデータを入力文字バッファ332に格納する。一方、ステップS123で“NO”であれば、つまり文字入力操作でなければステップS127で変換操作か否かを判断する。つまり、未確定の平仮名を変換する操作がされたか否かを判断する。ステップS127で“YES”であれば、つまり変換操作であれば、ステップS129で文字の変換処理を実行する。一方、ステップS127で“NO”であれば、つまり変換操作でなければ、ステップS111に戻る。
If “YES” in the step S123, that is, if a character input operation is performed, a character input process is executed in a step S125, and the process returns to the step S111. That is, in step S 125, hiragana is displayed according to the pressed character key, and the displayed hiragana data is stored in the
図15はステップS117(図14参照)、後述するステップS207(図17参照)または後述するステップS269(図19参照)で実行される音声認識入力処理を示すフロー図である。CPU20aは、ステップS117、ステップS207またはステップS263のいずれかが実行されると、ステップS141で音声が入力されたか否かを判断する。つまり、第2マイク16bに対して音声が入力されたか否かを判断する。ステップS141で“NO”であれば、つまり第2マイク16bに音声が入力されなければ、ステップS141の処理を繰り返し実行する。一方、ステップS141で“YES”であれば、つまり第2マイク16bに対して音声が入力されれば、ステップS143で入力された音声を音声データに変換する。つまり、第2マイク16bに対して入力された音声は、DSP20bによって音声データに変換され、その音声データは音声認識バッファ330に格納される。
FIG. 15 is a flowchart showing the speech recognition input process executed in step S117 (see FIG. 14), later-described step S207 (see FIG. 17) or later-described step S269 (see FIG. 19). When any of step S117, step S207, or step S263 is executed, the
続いて、ステップS145では、音声辞書から音声データに対応する文字列を抽出する。つまり、ROM32に記憶されている音声辞書から、音声認識バッファ330に格納されている音声データと対応する参照音声データを特定することで、音声データを文字列に変換する。なお、音声データと対応する参照音声データを特定する手法は、先述した特徴パターンの照合による音声認識の手法または統計的決定理論に基づく音声認識の手法を利用する。
Subsequently, in step S145, a character string corresponding to the voice data is extracted from the voice dictionary. That is, the voice data is converted into a character string by specifying the reference voice data corresponding to the voice data stored in the
続いて、ステップS147では、抽出した各文字列のそれぞれに対応する信頼度テーブルを作成する。つまり、形態素単位で変換された各文字列と、各文字列のそれぞれに対応する尤度とを、信頼度テーブルデータ336としてRAM30に記憶させる。なお、ステップS147の処理を実行するCPU20aは記録手段として機能する。
In step S147, a reliability table corresponding to each extracted character string is created. That is, each character string converted in morpheme units and the likelihood corresponding to each character string are stored in the
続いて、ステップS149では、カーソルCUa(または編集カーソルCUb)の位置に基づいて、抽出した文字列を表示する。つまり、ステップS149では、カーソルCUaが示す文字列に基づいて、変換された各文字列を入力文字バッファ332に格納する。続いて、ステップS151では、低信頼度音声辞書データ338を作成し、音声認識入力処理を終了した後に、メインルーチンの処理に戻る。つまり、ステップS151の処理を実行するCPU20aは、文字列に変換するときに、形態素単位で分割された文字列と対応する各音声データから信頼度が閾値以下の文字列に対応する音声データのみを選出して、選出された音声データと、その選出された音声データに対応する文字列とを低信頼度音声辞書データ338としてRAM30に記憶させる。なお、ステップS151の処理を実行するCPU20aは音声辞書記録手段として機能する。
Subsequently, in step S149, the extracted character string is displayed based on the position of the cursor CUa (or edit cursor CUb). That is, in step S149, the converted character strings are stored in the
図16はステップS97(図13参照)で実行される低信頼度部位編集処理を示すフロー図である。CPU20aは、ステップS97の処理が実行されると、ステップS161では、低信頼度の文字列を特定する。つまり、信頼度テーブルデータ336内における閾値以下の文字列を特定する。なお、ステップS161の処理を実行するCPU20aは特定手段として機能する。
FIG. 16 is a flowchart showing the low reliability part editing process executed in step S97 (see FIG. 13). When the process of step S97 is executed, the
続いて、ステップS163では特定された文字列の背景色を変更して表示する。つまり、入力文字バッファ332に格納されている各文字列から、信頼度テーブルにおいて信頼度が閾値以下の文字列を特定し、LCDモニタ26に表示されている画像データを変更する。たとえば、信頼度が閾値以下の文字列が「経済」であれば、入力文字バッファ332に格納されている「経済」の文字列を特定し、その「経済」を表示するための画像データを変更する。続いて、ステップS165では、モード選択のGUIを表示する。たとえば、図3(C)のように、カーソル指定モード、音声指定モード、音声検索モードおよび通常入力モードを数字に対するキーによって選択させるウインドウWaを表示する。なお、ステップS163およびステップS165の処理を実行するCPU20aは編集誘導手段として機能する。
Subsequently, in step S163, the background color of the specified character string is changed and displayed. That is, a character string having a reliability level equal to or lower than the threshold value is specified in the reliability table from each character string stored in the
続いて、ステップS167では、カーソル指定モードか否かを判断する。つまり、カーソル指定モードと対応する数字キーが操作されたか否かを判断する。ステップS167で“YES”であれば、つまりカーソル指定モードを選択する操作であれば、カーソル指定フラグ342をオンにし、ステップS169でカーソル指定処理を実行する。さらに、ステップS169の処理が終了すると、カーソル指定フラグ342をオフにし、低信頼度部位編集処理を終了して、文書編集処理に戻る。また、ステップS169の処理は後述するため、ここでの詳細な説明は省略する。
Subsequently, in step S167, it is determined whether or not the cursor designation mode is set. That is, it is determined whether or not a numeric key corresponding to the cursor designation mode has been operated. If “YES” in the step S167, that is, if the operation is for selecting the cursor designation mode, the
また、ステップS167で“NO”であれば、つまりカーソル指定モードを選択する操作でなければ、ステップS171で音声して音声指定モードか否かを判断する。つまり、
音声指定モードと対応する数字キーが操作されたか否かを判断する。ステップS171で“YES”であれば、つまり音声指定モードを選択する操作がされれば、音声指定フラグ344をオンにし、ステップS173で音声指定処理を実行する。さらに、ステップS173の処理が終了すると、音声指定フラグ344をオフにし、低信頼度部位編集処理を終了する。また、ステップS173の処理は後述するため、ここでの詳細な説明は省略する。
If “NO” in the step S167, that is, if the operation is not an operation for selecting the cursor designation mode, it is determined whether or not the voice designation mode is made in a voice in a step S171. That means
It is determined whether or not a numeric key corresponding to the voice designation mode has been operated. If “YES” in the step S171, that is, if an operation for selecting the voice designation mode is performed, the
また、ステップS171で“NO”であれば、つまり音声指定モードを選択する操作がされなければ、ステップS175で音声検索モードか否かを判断する。つまり、音声検索モードに対応する数字キーが操作されたか否かを判断する。ステップS175で“YES”であれば、つまり音声検索モードを選択する操作がされれば、音声検索フラグ346をオンにし、ステップS177で音声検索処理を実行する。さらに、ステップS177の処理が終了すると、音声検索フラグ346をオフにし、低信頼度部位編集処理を終了する。また、このステップS177の処理は後述するため、ここでの詳細な説明は省略する。
If “NO” in the step S171, that is, if an operation for selecting the voice designation mode is not performed, it is determined whether or not the voice search mode is set in a step S175. That is, it is determined whether or not a numeric key corresponding to the voice search mode has been operated. If “YES” in the step S175, that is, if an operation for selecting the voice search mode is performed, the
また、ステップS175で“NO”であれば、つまり音声検索モードを選択する操作がされなければ、ステップS179で通常入力モードか否かを判断する。つまり、通常入力モードを選択するために数字キーが操作されたか否かを判断する。ステップS175で“YES”であれば、つまり通常入力モードが選択されれば、ステップS181で信頼度テーブルを更新し、低信頼度部位編集処理を終了する。つまり、低信頼度テーブルに記録される閾値以下の信頼度を100%に変更する。これにより、使用者は、複数の低信頼度文字列が誤認識されていないと判断すれば、通常入力モードを選択することで、通常の文字入力を再開することができる。また、ステップS179で“NO”であれば、つまり通常入力モードを選択する操作でなければ、ステップS167に戻る。 If “NO” in the step S175, that is, if the operation for selecting the voice search mode is not performed, it is determined whether or not the normal input mode is selected in a step S179. That is, it is determined whether or not the numeric key has been operated to select the normal input mode. If “YES” in the step S175, that is, if the normal input mode is selected, the reliability table is updated in a step S181, and the low reliability part editing process is ended. That is, the reliability below the threshold value recorded in the low reliability table is changed to 100%. Thereby, if the user determines that a plurality of low-reliability character strings are not erroneously recognized, the user can resume normal character input by selecting the normal input mode. If “NO” in the step S179, that is, if the operation is not an operation for selecting the normal input mode, the process returns to the step S167.
図17はステップS169(図16参照)で実行されるカーソル指定処理を示すフロー図である。なお、ステップS207の処理については、ステップS117と同様であり、ステップS211−S215の処理については、ステップS125−S129と同様であるため、詳細な説明は省略する。CPU20aは、ステップS169の処理が実行されると、ステップS191で確定操作か否かを判断する。たとえば、図4(A)に示す編集キー56eが長押しされた、あるいは確定キー56gが操作されたか否かを判断する。ステップS191で“NO”であれば、つまり確定操作がされていなければ、ステップS197に進む。一方、ステップS191で“YES”であれば、つまり確定操作がされていれば、ステップS193で信頼度テーブルを更新する。
FIG. 17 is a flowchart showing the cursor designation process executed in step S169 (see FIG. 16). The process of step S207 is the same as that of step S117, and the process of steps S211 to S215 is the same as that of steps S125 to S129, and thus detailed description thereof is omitted. When the process of step S169 is executed, the
たとえば、編集カーソルCUbによって選択された文字列の信頼度を100%に変更する。また、編集キー56eまたは確定キー56gが長押しされた場合には、編集カーソルCUbが選択する文字列に関係なく、信頼度テーブルにおける信頼度の列の値を全て100%に変更する。続いて、ステップS195では、低信頼度部位があるか否かを判断する。つまり、信頼テーブルデータ338に、閾値以下の信頼度が記録されているか否かを判断する。ステップS195で“NO”であれば、つまり閾値以下の信頼度が記録されていなければ、カーソル指定処理を終了し、低信頼度部位編集処理に戻る。
For example, the reliability of the character string selected by the editing cursor CUb is changed to 100%. When the
また、ステップS195で“YES”であれば、つまり閾値以下の信頼度が記録されていれば、ステップS197で終了操作か否かを判断する。つまり、図4(A)、図4(B)に示す終了キー56fが操作されたか否かを判断する。ステップS197で“YES”であれば、つまり終了キー56fが操作されていれば、カーソル指定処理を終了する。一方、ステップS197で“NO”であれば、つまり終了キー56fが操作されていなければ、ステップS199で方向キー操作か否かを判断する。つまり、方向キー22dが操作されたか否かを判断する。 If “YES” in the step S195, that is, if a reliability equal to or lower than the threshold is recorded, it is determined whether or not the end operation is performed in a step S197. That is, it is determined whether or not the end key 56f shown in FIGS. 4A and 4B has been operated. If “YES” in the step S197, that is, if the end key 56f is operated, the cursor designation processing is ended. On the other hand, if “NO” in the step S197, that is, if the end key 56f is not operated, it is determined whether or not the direction key is operated in a step S199. That is, it is determined whether or not the direction key 22d has been operated.
ステップS199で“YES”であれば、つまり方向キー22dが操作されればステップS201で編集カーソルCUbの表示位置を更新し、ステップS191に戻る。つまり、ステップS201では、信頼度テーブルデータ336を参照し、入力された方向に応じて、他の低信頼度文字列を選択する。たとえば、図3(D)を参照して、「経済」が現在選択されている低信頼度文字列であり、右方向(または下方向)の操作がされると、「経済」の次に記録されている低信頼度文字列、つまり「医術」が編集カーソルCUbによって選択された状態となる。また、「医術」が現在選択されている低信頼度文字列であり、左方向(または上方向)の操作がされると、「医術」の前に記録されている低信頼度文字列、つまり「経済」が編集カーソルCUbによって選択された状態となる。
If “YES” in the step S199, that is, if the direction key 22d is operated, the display position of the editing cursor CUb is updated in a step S201, and the process returns to the step S191. That is, in step S201, the
なお、信頼度テーブルにおいて、最上位に記録されている低信頼度文字列が選択されている状態で、上方向の操作がされた場合には、編集カーソルCUbの表示位置を更新しなくてもよいし、信頼度テーブルの最下位に記録されている信頼度文字列が選択されるようにしてもよい。また、編集カーソルCUbよって選択される低信頼度文字列が機能表示領域52に表示されていない場合には、表示される文字列を更新して、編集カーソルCUbおよび選択された低信頼度文字列が表示されるようにする。
In the reliability table, when the low reliability character string recorded at the top is selected and an upward operation is performed, the display position of the edit cursor CUb need not be updated. Alternatively, the reliability character string recorded at the bottom of the reliability table may be selected. If the low-reliability character string selected by the edit cursor CUb is not displayed in the
また、ステップS199で“NO”であれば、つまり方向キー22dが操作されていなければ、ステップS203で編集操作か否かを判断する。つまり、編集キー56eが操作されたか否かを判断する。ステップS203で“NO”であればステップS191に戻る。一方、ステップS203で“YES”であれば、ステップS205で音声認識操作か否かを判断する。たとえば、編集キー56eが操作された後に、音声入力の有無を判断する。ステップS205で“YES”であれば、つまり音声認識操作であれば、以降、音声認識モードであることを記憶して、ステップS207で音声認識入力処理を実行した後に、ステップS191に戻る。たとえば、CPU20aは、音声認識モードであることを記憶するために、音声認識モードフラグ(図9では図示せず)をオンにする。
If “NO” in the step S199, that is, if the direction key 22d is not operated, it is determined whether or not the editing operation is performed in a step S203. That is, it is determined whether or not the edit key 56e has been operated. If “NO” in the step S203, the process returns to the step S191. On the other hand, if “YES” in the step S203, it is determined whether or not a voice recognition operation is performed in a step S205. For example, after the
また、ステップS205で“NO”であれば、つまり音声認識操作でなければ、ステップS209で文字入力操作か否かを判断する。たとえば、編集キー56eが操作された後に、文字入力キー22eが操作されたか否かを判断する。ステップS209で“YES”であれば、以降、文字入力モードであることを記憶し、ステップS211で文字の入力処理を実行した後に、ステップS191に戻る。たとえば、CPU20aは文字入力モードであることを記憶するために、文字入力モードフラグ(図9では図示せず)をオンにする。
If “NO” in the step S205, that is, if it is not a voice recognition operation, it is determined whether or not a character input operation is performed in a step S209. For example, it is determined whether or not the character input key 22e has been operated after the
一方、ステップS209で“NO”であれば、つまり文字入力操作でなければ、ステップS213で変換操作か否かを判断する。ステップS213で“YES”であれば、ステップS215で文字の変換処理を実行して、ステップS191に戻る。一方、ステップS213で“NO”であれば、そのままステップS191に戻る。 On the other hand, if “NO” in the step S209, that is, if it is not a character input operation, it is determined whether or not it is a conversion operation in a step S213. If “YES” in the step S213, a character conversion process is executed in a step S215, and the process returns to the step S191. On the other hand, if “NO” in the step S213, the process returns to the step S191 as it is.
なお、ステップS211およびステップS215を実行するCPU20aは文字編集手段として機能する。 In addition, CPU20a which performs step S211 and step S215 functions as a character editing means.
図18はステップS173(図16参照)で実行される音声指定処理を示すフロー図である。なお、ステップS231およびステップS233の処理はステップS197およびステップS195の処理と同じであるため、詳細な説明は省略する。CPU20aは、ステップS173の処理が実行されると、ステップS231で、終了操作か否かを判断する。ステップS231で“YES”であれば、音声指定処理を終了し、低信頼度部位編集処理に戻る。一方、ステップS231で“NO”であれば、ステップS233で低信頼度部
位があるか否かを判断する。ステップS233で“NO”であれば、音声指定処理を終了する。
FIG. 18 is a flowchart showing the voice designation process executed in step S173 (see FIG. 16). In addition, since the process of step S231 and step S233 is the same as the process of step S197 and step S195, detailed description is abbreviate | omitted. When the process of step S173 is executed, the
一方、ステップS233で“YES”であれば、ステップS235で方向キー操作か否かを判断する。つまり、方向キー22dが操作されたか否かを判断する。ステップS235で“YES”であれば、つまり方向キー22dが操作されれば、ステップS237で表示のスクロール処理を実行し、ステップS231に戻る。つまり、ステップS237では、入力された方向に応じて、機能表示領域52内に表示される文字列をスクロール(変化)させる。たとえば、下方向の入力がされれば、まだ表示されていない送信メールの本文を表示するように下方向にスクロールする。また、上方向の入力がされれば、すでに表示された送信メールの本文を表示するように上方向にスクロールする。
On the other hand, if “YES” in the step S233, it is determined whether or not a direction key operation is performed in a step S235. That is, it is determined whether or not the direction key 22d has been operated. If “YES” in the step S235, that is, if the direction key 22d is operated, a display scrolling process is executed in a step S237, and the process returns to the step S231. That is, in step S237, the character string displayed in the
このように、使用者は、LCDモニタ26に表示される文字列の内容をスクロールさせることで、容易に他の低信頼度文字列を探すことができるようになる。
As described above, the user can easily search for other low-reliability character strings by scrolling the contents of the character strings displayed on the
なお、表示されていない文字列がない場合には、方向キー22dに対する入力がされても、機能表示領52内の表示は変化しない。また、左右方向キーが入力された場合も同様に、機能表示領52内の表示は変化しない。
If there is no character string that is not displayed, the display in the
また、ステップS235で“NO”であれば、つまり方向キー22dが操作されなければ、ステップS239で音声が入力されたか否かを判断する。つまり、第2マイク16bに音声が入力されたか否かを判断する。ステップS239で“YES”であれば、つまり音声が入力されれば、ステップS241で変換部位検索処理を実行した後に、ステップS231に戻る。このステップS241の処理は後述するため、ここでの詳細な説明は省略する。一方、ステップS239で“NO”であれば、つまり音声が入力されなければ、ステップS231に戻る。
If “NO” in the step S235, that is, if the direction key 22d is not operated, it is determined whether or not a sound is input in a step S239. That is, it is determined whether or not sound is input to the
図19はステップS177(図16参照)で実行される音声検索処理を示すフロー図である。なお、ステップS251−S257の処理はステップS191−S197の処理と同じであり、ステップS259,S261の処理はステップS235,S237と同じであり、ステップS265の処理はステップS241と同じであり、ステップS269の処理はステップS117またはステップS207と同じであるため、詳細な説明は省略する。 FIG. 19 is a flowchart showing the voice search process executed in step S177 (see FIG. 16). Note that the processing of steps S251 to S257 is the same as the processing of steps S191 to S197, the processing of steps S259 and S261 is the same as steps S235 and S237, the processing of step S265 is the same as step S241, and step S269. Since this process is the same as step S117 or step S207, detailed description thereof is omitted.
ステップS177の処理が実行されると、CPU20aは、ステップS251で、確定操作か否かを判断する。ステップS251で“NO”であれば、ステップS257に進み、一方、“YES”であれば、ステップS253で信頼度テーブルを更新する。続いて、ステップS255では、低信頼度部位があるか否かを判断し、“NO”であれば音声検索処理を終了して、低信頼度編集処理に戻る。一方、ステップS255で“YES”であれば、ステップS257で、終了操作か否かを判断する。ステップS257で“YES”であれば、音声検索処理を終了し、“NO”であればステップS259で方向キー操作か否かを判断する。
When the process of step S177 is executed, the
ステップS259で“YES”であれば、ステップS261で表示のスクロール処理を実行して、ステップS251に戻る。一方、ステップS259で“NO”であれば、ステップS263で音声が入力されたか否かを判断する。つまり、第2マイク16bによって、音声が入力されたか否かを判断する。ステップS263で“YES”であれば、つまり音声が入力されれば、ステップS265で変換部位検索処理を実行して、ステップS251に戻る。たとえば、任意の低信頼度文字列を表わす音声が入力されれば、ステップS265の処理が終了すると、任意の低信頼度文字列が編集カーソルCUbによって選択され
た状態となる。
If “YES” in the step S259, the display scroll process is executed in a step S261, and the process returns to the step S251. On the other hand, if “NO” in the step S259, it is determined whether or not a voice is input in a step S263. That is, it is determined whether or not sound is input by the
また、ステップS263で“NO”であれば、つまり音声が入力されなければ、ステップS267で入力操作か否かを判断する。たとえば、編集キー56eが操作されたか否かを判断する。ステップS267で“YES”であれば、つまり入力操作がされれば、ステップS269で音声認識入力処理を実行して、ステップS251に戻る。また、ステップS267で“NO”であれば、ステップS251に戻る。たとえば、ステップS269の処理が終了すると、編集キー56eが操作された後に入力された音声が文字列に変換されて、選択されている低信頼度文字列と置き換えられる。 If “NO” in the step S263, that is, if no sound is input, it is determined whether or not an input operation is performed in a step S267. For example, it is determined whether or not the edit key 56e has been operated. If “YES” in the step S267, that is, if an input operation is performed, a voice recognition input process is executed in a step S269, and the process returns to the step S251. If “NO” in the step S267, the process returns to the step S251. For example, when the process of step S269 ends, the voice input after the editing key 56e is operated is converted into a character string, and is replaced with the selected low-reliability character string.
なお、編集キー56eが操作された後には、音声入力ではなく、通常入力によって低信頼度文字列を編集してもよい。つまり、ステップS267で“YES”と判断された後に、S269の代わりに、ステップS205−S215の処理を実行するようにしてもよい。そして、ステップS207,S211,S215の処理が終了した後には、ステップS251に戻るようにする。
Note that after the
図20はステップS241(図18参照)またはステップS265(図19参照)で実行される変換部位検索処理を示すフロー図である。CPU20aは、ステップS241またはステップS265が実行されると、ステップS281で、入力された音声を音声データに変換する。つまり、入力された音声はDSP20aによって音声データに変換される。続いて、ステップS283では、低信頼度音声辞書データ338を読み込む。つまり、低信頼度音声辞書データ338を構成する各音声データを、参照音声データとして読み込む。
FIG. 20 is a flowchart showing conversion site search processing executed in step S241 (see FIG. 18) or step S265 (see FIG. 19). When step S241 or step S265 is executed, the
続いて、ステップS285では、高相関部位の検索を行う。具体的には、参照音声データと入力された音声データとから、一定時間毎に変化する複数の特徴パターンを取得し、さらに、参照音声データと入力された音声データとのそれぞれの特徴パターンから相関値を算出する。そして、最も大きい相関値と対応する参照音声データが表わす文字列を抽出することで、信頼度テーブルデータ336から、抽出された文字列と一致する低信頼度文字列を検索する。このようにして、本実施例では、類似する文字列を検索するために、相関関数を利用することができる。なお、ステップS283およびステップS285の処理を実行するCPU20aは類似検索手段として機能する。
Subsequently, in step S285, a highly correlated part is searched. Specifically, a plurality of feature patterns that change at fixed time intervals are acquired from the reference speech data and the input speech data, and further, correlation is performed from each feature pattern of the reference speech data and the input speech data. Calculate the value. Then, by extracting the character string represented by the reference speech data corresponding to the largest correlation value, the low reliability character string that matches the extracted character string is searched from the
続いて、ステップS287では、音声検索モードか否かを判断する。つまり、音声検索フラグ346がオンであるか否かを判断する。ステップS287で“YES”であれば、つまり音声検索モードであれば、ステップS289で検索結果に応じて、編集カーソルCUbの表示位置を更新し、変換部位検索処理を終了した後に、音声検索処理に戻る。たとえば、類似する文字列が「医術」であれば、編集カーソルCUbによって「医術」が選択される。このように、再入力された音声の音声認識の結果によらず、使用者が意図する低信頼度文字列を選択することができる。そして、先述したとおり、使用者は、音声認識による文書の作成に都合のいいカーソルの操作を実行することができるようになる。
Subsequently, in step S287, it is determined whether or not the voice search mode is set. That is, it is determined whether or not the
また、ステップS287で“NO”であれば、つまり音声検索フラグ346がオフであり、かつ音声指定フラグ344がオンであれば、ステップS291で音声辞書から音声データに対応する文字列を抽出する。つまり、ステップS145と同様に、ROM32に記憶された音声辞書から文字列を抽出する。
If “NO” in the step S287, that is, if the
続いて、ステップS293では、高相関部位に基づいて、抽出した文字列を表示する。つまり、入力文字バッファ332から、ステップS285の処理による検索結果が示す文字列を特定し、音声辞書から抽出された文字列に置き換える。たとえば、検索結果の低信
頼度文字列が「経済」であり、音声辞書から抽出された文字列が「現在」であれば、機能表示領域52では「経済」の文字列が「現在」の文字列に置き換えられる。続いて、ステップS295では、信頼度テーブルを更新し、変換部位検索処理を終了した後に、音声指定処理に戻る。たとえば、ステップS295では、信頼度テーブルに記録される「経済」を「現在」に置き換え、「現在」を音声認識した際に算出された尤度を信頼度として記録する。
Subsequently, in step S293, the extracted character string is displayed based on the highly correlated part. That is, the character string indicated by the search result obtained in step S285 is identified from the
なお、ステップS201またはステップS289の処理を実行するCPU20aはカーソル表示手段として機能する。また、ステップS293の処理を実行するCPU20aは置換手段として機能する。さらに、ステップS201、ステップS239およびステップS261の処理を実行するCPU20aはスクロール手段として機能する。
The
ここで、図6に示すプルダウンPDを利用した文字列の編集について、図21に示す音声認識処理のフロー図を用いて詳細に説明する。なお、ステップS141−S151の処理については、すでに詳細に説明しているため、ここでは詳細な説明を省略し、ステップS311の処理から説明する。 Here, the editing of the character string using the pull-down PD shown in FIG. 6 will be described in detail with reference to the flowchart of the speech recognition process shown in FIG. In addition, since the process of step S141-S151 has already been demonstrated in detail, detailed description is abbreviate | omitted here and it demonstrates from the process of step S311.
ステップS311では、低信頼度文字列の編集か否かを判断する。つまり、カーソル指定フラグ342、音声指定フラグ344または音声検索フラグ346のいずれかがオンであるか否かを判断する。ステップS311で“NO”であれば、つまり低信頼度文字列の編集でなければ、ステップS145以下の処理を実行する。一方、ステップS311で“YES”であれば、音声辞書から音声データに対応する複数の文字列を抽出する。つまり、尤度が最も高い文字列だけでなく、一定値以上の尤度の文字列を全て抽出する。
In step S311, it is determined whether or not the low-reliability character string is to be edited. That is, it is determined whether any of the
続いて、ステップS315では、プルダウンメニューを表示する。つまり、図6に示すプルダウンPDを表示し、そのプルダウンPD内に、抽出した複数の文字列を表示する。なお、ステップS315の処理を実行するCPU20aは一覧表示手段として機能する。続いて、ステップS317では、選択された文字列に対応する信頼度を記録する。つまり、信頼度テーブルに選択された文字列の尤度、つまり信頼度を記録する。なお、信頼度を記録する際には、編集カーソルCUbによって選択されている文字列および対応する信頼度を上書きする。
In step S315, a pull-down menu is displayed. That is, the pull-down PD shown in FIG. 6 is displayed, and a plurality of extracted character strings are displayed in the pull-down PD. The
続いて、ステップS319では、選択された文字列を表示し、音声認識入力処理を終了する。つまり、入力文字バッファ332に格納されている低信頼度文字列を、選択された文字列と置き換える。たとえば、図6を参照して、プルダウンPD内の「満たない」が選択されていれば、「いたない」は「満たない」に置き換えられる。
Subsequently, in step S319, the selected character string is displayed, and the speech recognition input process is terminated. That is, the low reliability character string stored in the
また、音声検索モードにおいて、類似する文字列を検索するのではなく、新たに音声認識された文字列と一致する低信頼度文字列を検索する処理について、図22を用いて詳細に説明する。なお、ステップS149およびステップS319の処理を実行するCPU20aは音声編集手段として機能する。
In addition, a process for searching for a low-reliability character string that matches a newly recognized character string instead of searching for a similar character string in the voice search mode will be described in detail with reference to FIG. Note that the
図22を参照して、他の実施例では、変換部位検索処理におけるステップS281−S287,S291−S295における処理内容は同じであるため、詳細な説明は省略する。 Referring to FIG. 22, in another embodiment, the processing contents in steps S281-S287 and S291-S295 in the conversion site search processing are the same, and thus detailed description thereof is omitted.
CPU20aは、ステップS281で入力された音声を音声データに変換し、次にステップS291で音声辞書から音声データに対応する文字列を抽出する。そして、ステップS291の処理が終了すると、ステップS287で音声検索モードか否かを判断する。
The
ステップS287で“NO”であれば、つまり音声検索モードではなく、音声指定モードあれば、ステップS283,S285,S293およびS295の順に、処理を実行し、変換部位検索処理を終了する。一方、ステップS287で“YES”であれば、つまり音声検索モードであれば、ステップS331で抽出した文字列と一致する低信頼度文字列を検索する。つまり、信頼度テーブルにおける文字列の列から、ステップS291で抽出された文字列を検索する。なお、ステップS331の処理を実行するCPU20aは検索手段として機能する。
If “NO” in the step S287, that is, if the voice designation mode is not the voice search mode, the process is executed in the order of steps S283, S285, S293, and S295, and the conversion site search process is ended. On the other hand, if “YES” in the step S287, that is, if the voice search mode is set, a low-reliability character string that matches the character string extracted in the step S331 is searched. That is, the character string extracted in step S291 is searched from the character string column in the reliability table. The
続いて、ステップS289では、検索結果に応じて編集カーソルCUbの表示位置を更新する。つまり、ステップS331の処理における検索結果に応じて、編集カーソルCUbの表示位置を更新する。たとえば、新たに入力された音声の認識結果が「経済」であれば、低認識文字列である「経済」が検索結果となる。そして、「経済」が編集カーソルCUbによって選択される。 Subsequently, in step S289, the display position of the edit cursor CUb is updated according to the search result. That is, the display position of the edit cursor CUb is updated according to the search result in the process of step S331. For example, if the recognition result of the newly input voice is “economy”, “economy”, which is a low recognition character string, becomes the search result. Then, “economy” is selected by the editing cursor CUb.
以上の説明から分かるように、携帯端末10は、使用者の音声を取り込む第2マイク16bを含み、第2マイク16bに入力された音声を音声認識して文字列を生成する。また、音声認識によって文字列を生成する際には、算出される尤度を音声認識の信頼度とし、生成する文字列とその文字列に対応する信頼度とを信頼度テーブルに記録する。そして、信頼度テーブルに基づいて、閾値以下の信頼度である文字列が特定され、特定された低信頼度文字列の背景色は、青色に彩色されて、LCDモニタ26に表示される。
As can be understood from the above description, the
これによって、誤認識文字列の候補が一目で判断できるように表示されるため、使用者は、編集の要否を判断しやすくなり、音声認識を利用して効率よく文章を作成できる。 As a result, the misrecognized character string candidates are displayed so that they can be determined at a glance, so that the user can easily determine whether or not editing is necessary, and can efficiently create a sentence using voice recognition.
なお、音声認識における辞書データ(ROM32に記憶される音声辞書および低信頼度音声辞書データを含む)を構成する参照音声データのそれぞれに、尤度を算出する関数(式)が設定されていれば、類似する文字列を検索するために尤度を算出する各関数を利用してもよい。つまり、各関数にそれぞれを識別するための関数IDが設定し、低信頼度文字列の信頼度を算出するために利用した関数IDをそれぞれ記録する。そして、新たに入力された音声を音声認識する際に利用した関数IDを、記録された各関数IDから検索することで、類似する低信頼度文字列を検索することが可能である。 It should be noted that if a function (expression) for calculating likelihood is set for each of reference speech data constituting dictionary data in speech recognition (including speech dictionary and low-reliability speech dictionary data stored in ROM 32). Each function for calculating likelihood may be used to search for a similar character string. That is, a function ID for identifying each function is set, and the function ID used for calculating the reliability of the low reliability character string is recorded. Then, it is possible to search for a similar low-reliability character string by searching the function ID used when recognizing the newly input voice from the recorded function IDs.
また、音声認識に利用するマイクは、第2マイク16bだけに限らず、第1マイク16aであってもよい。さらに、マイクを備えない携帯端末10であっても、市販のマイクを後付けし、図10−図22に示す各処理を実行可能なプログラムをインストールすることで、本実施例の効果を得られるようにしてもよい。
Further, the microphone used for voice recognition is not limited to the
また、本実施例の文書編集機能は、送信メールの本文を編集するだけに限らす、メモ帳機能などの文字列を入力する機能であれば適用可能である。 In addition, the document editing function of the present embodiment is applicable to any function for inputting a character string such as a memo pad function, which is not limited to editing the text of the outgoing mail.
また、ウインドウWa−Wdで選択可能な各メニューは、数字キーによって選択するのではなく、メニューを選択するための専用カーソルによって選択されてもよい。 Further, each menu that can be selected in the windows Wa-Wd may be selected by a dedicated cursor for selecting a menu, instead of being selected by a numeric key.
また、携帯端末10の通信方式には、CDMA方式に限らず、W‐CDMA方式、TDMA方式、PHS方式およびGSM方式などを採用してもよい。また、本実施例における携帯端末10のCPU20aによって実行される各処理は、携帯端末10のみに限らず、PDA(Personal Degital Assistant)などの携帯情報端末や、パーソナルコンピュータ(PC)などであってもよい。
Further, the communication method of the
10 … 携帯端末
16a … 第1マイク
16b … 第2マイク
20a … CPU
20b … DSP
22 … キー入力装置
26 … LCDモニタ
30 … RAM
32 … ROM
DESCRIPTION OF
20b DSP
22 ...
32 ... ROM
この発明は、携帯端末、編集誘導プログラムおよび編集誘導方法に関し、特にたとえば音声認識によって文字列を入力する、携帯端末、編集誘導プログラムおよび編集誘導方法に関する。 The present invention relates to a mobile terminal , an edit guide program, and an edit guide method , and more particularly to a mobile terminal , an edit guide program, and an edit guide method for inputting a character string by voice recognition, for example.
それゆえに、この発明の主たる目的は、新規な、携帯端末、編集誘導プログラムおよび編集誘導方法を提供することである。 Therefore, a main object of the present invention is to provide a novel portable terminal , editing guide program, and editing guide method .
この発明の他の目的は、音声認識による文章作成の効率をあげることが可能な、携帯端末、編集誘導プログラムおよび編集誘導方法を提供することである。 Another object of the present invention is to provide a portable terminal , an editing guide program, and an editing guide method that can increase the efficiency of sentence creation by voice recognition.
第1の発明は、文字入力キー、マイクおよびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段を有し、文字入力キーに対するキー入力が可能な第1モードまたはマイクに対する音声入力が可能な第2モードによって文字を入力可能な、携帯端末であって、第1モードへの切り替え操作を受け付ける第1受付手段、第2モードへの切り替え操作を受け付ける第2受付手段、音声認識手段によって生成された文字列を記憶する記憶手段、および第2モードに切り替えられた状態で、記憶手段によって記憶された文字列を表示する表示手段を備え、第2モードに切り替えられた状態で、所定時間の未入力状態が検出されたとき、第1モードに切り替える、携帯端末である。 A first aspect of the present invention is a character input key, have a voice recognition unit for generating a character string from the speech signal captured by the microphone and the microphone, the voice input to the first mode or a microphone capable key input to the character input key A portable terminal capable of inputting characters in a possible second mode, by a first receiving means for receiving a switching operation to the first mode, a second receiving means for receiving a switching operation to the second mode, and a voice recognition means storage means for storing the generated character string, in a state of being switched to the contact and a second mode, the character string stored by the storage means includes a table Shimesuru display means, in a state of switched on second mode, The portable terminal is switched to the first mode when a non-input state for a predetermined time is detected .
第1の発明では、携帯端末(10)は、文字入力キー(22e)、音声認識用のマイク(16a,16b)およびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段(20a,20b,30)を有する。この音声認識手段は、たとえばCPU(20a)、DSP(20b)および音声辞書データを記憶するROM(32)を含む。また、携帯端末は、文字入力キーに対するキー入力が可能な第1モードまたはマイクに対する音声入力が可能な第2モードによって任意の文字が入力可能である。第1受付手段は、第1モードへの切り替え操作を受け付ける。第2受付手段は、第2モードへの切り替え操作を受け付ける。記憶手段は、音声認識手段によって生成された文字列を記憶する。表示手段は、第2モードに切り替えられた状態で、記憶手段によって記憶された文字列を表示する。そして、第2モードに切り替えられた状態で、所定時間の未入力状態が検出されたとき、第1モードに切り替える。 In the first invention, the mobile terminal (10) is a character input key (22e), microphone (16a, 16b) for speech recognition and speech recognition means for generating a character string from the audio signal captured by a microphone (20a , 20b, 30) . This voice recognition means includes, for example, a CPU (20a), a DSP (20b), and a ROM ( 32 ) for storing voice dictionary data. The portable terminal can input arbitrary characters in the first mode in which key input with respect to the character input key is possible or in the second mode in which voice input with respect to the microphone is possible. The first accepting unit accepts a switching operation to the first mode. The second accepting unit accepts a switching operation to the second mode. The storage means stores the character string generated by the voice recognition means. A display means displays the character string memorize | stored by the memory | storage means in the state switched to the 2nd mode. Then, when an uninput state for a predetermined time is detected in the state switched to the second mode, the mode is switched to the first mode.
第1の発明によれば、使用者は、音声認識を利用した文章を効率よく作成できるようになる。 According to the first invention, using a person will be able to efficiently create a sentence that uses speech recognition.
第2の発明は、第1の発明に従属し、表示手段によって表示された文字列を編集する編集手段をさらに備える。 The second invention is dependent on the first invention, and further comprises editing means for editing the character string displayed by the display means.
第3の発明は、文字入力キー、マイク(16a,16b)およびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段(20a,20b,30)を有し、文字入力キーに対するキー入力が可能な第1モードまたはマイクに対する音声入力が可能な第2モードによって文字を入力可能な、携帯端末(10)のプロセッサ(20a)を、第1モードへの切り替え操作を受け付ける第1受付手段、第2モードへの切り替え操作を受け付ける第2受付手段、音声認識手段によって生成された文字列を記憶する記憶手段、および第2モードに切り替えられた状態で、記憶手段によって記憶された文字列を表示する表示手段として機能させ、第2モードに切り替えられた状態で、所定時間の未入力状態が検出されたとき、第1モードに切り替える、編集誘導プログラムである。 A third invention is a character input key, have a microphone (16a, 16b) and speech recognition means for generating a character string from the audio signal captured by a microphone (20a, 20b, 30), the key input to the character input keys A first receiving means for receiving a processor (20a) of the portable terminal (10) capable of inputting characters in the first mode capable of inputting voice or in the second mode capable of inputting voice to the microphone ; second receiving means for receiving a switching operation to the second mode, storage means for storing a string generated by the speech recognition means, in a state of being switched contact and the second mode, the character string stored by the storage means to function as a table Shimesuru display means, in a state of switched on second mode, when the non-input state of the predetermined time is detected, the first mode Ri frogs, is editing induction program.
第3の発明でも、第1の発明と同様に、使用者は、音声認識を利用した文章を効率よく作成できるようになる。 In the third invention, similarly to the first invention, the user can efficiently create a sentence using voice recognition.
第4の発明は、文字入力キー、マイクおよびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段(20a,20b,30)を有し、文字入力キーに対するキー入力が可能な第1モードまたはマイクに対する音声入力が可能な第2モードによって文字を入力可能な、携帯端末における編集誘導方法であって、携帯端末のプロセッサが、第1モードへの切り替え操作を受け付ける第1受付ステップ、第2モードへの切り替え操作を受け付ける第2受付ステップ、音声認識手段によって生成された文字列を記憶する記憶ステップ、および第2モードに切り替えられた状態で、記憶ステップによって記憶された文字列を表示する表示ステップを実行し、第2モードに切り替えられた状態で、所定時間の未入力状態が検出されたとき、第1モードに切り替える、編集誘導方法である。 4th invention has the voice recognition means (20a, 20b, 30) which produces | generates a character string from the audio | voice signal taken in by the character input key, the microphone, and the microphone, and the 1st key input with respect to a character input key is possible An edit guiding method in a portable terminal capable of inputting characters in a second mode in which voice input to the mode or the microphone can be performed, wherein the processor of the portable terminal accepts a switching operation to the first mode; A second receiving step for accepting an operation for switching to the two mode; a storing step for storing the character string generated by the voice recognition means; and a character string stored by the storing step in a state switched to the second mode. When a non-input state for a predetermined time is detected while the display step is executed and the mode is switched to the second mode Switches to the first mode, a edit induction method.
第4の発明でも、第1の発明と同様に、使用者は、音声認識を利用した文章を効率よく作成できるようになる。 In the fourth invention as well, as in the first invention, the user can efficiently create a sentence using voice recognition.
また、携帯端末10は、文字列の入力や削除を行う文書編集機能を備えており、音声認識による文字入力を行うことができる。つまり、使用者が文章を読み上げ、音声を第2マイク16bに入力すると、LCDモニタ26には音声認識された文章が表示される。具体的には、第2マイク16bによって取り込まれた音声信号はDSP20bによって音声データに変換され、CPU20aおよびDSP20bは音声データから特徴パターン(特徴量)を抽出する。また、CPU20aおよびDSP20bは、音声認識用の音声辞書を構成する参照音声データをROM32から読み出し、参照音声データの特徴パターン(以下、参照パターンと言う。)を抽出するか、ROM32から参照パターンを直接読み出す。そして、CPU20aおよびDSP20bは、特徴パターンの照合による音声認識の手法または統計的決定理論に基づく音声認識の手法によって、特徴パターンと各参照パターンとを照合することで、音声データと一致する参照音声データを特定する。この音声辞書は参照音声データとその参照音声データが表わす文字列とが対応付けられているため、CPU20aおよびDSP20bは特定した参照音声データに対応する文字列を読み出すことで、当該音声データを文字列に変換する。
Further, the
つまり、通話者は、開口op1を通じて第1マイク16aに送話音声を入力し、開口op2を通じてスピーカ18から受話音声を聞く。また、使用者は、開口op3を通じて第2マイク16bに音声認識用の音声を入力する。なお、第1マイク16aは音声認識用として兼用可能である。そして、第1マイク16aと第2マイク16bとの音声信号の差分により、遠方音源である周囲雑音をキャンセルする技術を実現でき、音声認識率の向上に寄与する。
That is, the caller inputs the transmission voice to the
次に、音声指定モードでは、低信頼度文字列が誤認識文字列である場合に、文字列を表わす音声が再入力されると、その再入力した音声を表わす文字列と類似する文字列が選択される。また、この類似する文字列を指定するためには、最初に入力された音声データを、形態素毎に分割して記憶しておくことで実現可能である。具体的には、分割された各音声データにおいて、低信頼度文字列に対応する各音声データと、対応する低信頼度文字列とから低信頼度音声辞書を作成する。そして、CPU20aは、特徴パターンの照合による音声認識の手法を用いて、再入力された音声データと最も尤度が高い参照音声データを特定することで、低信頼度文字列を選択する。そして、選択された文字列は、再入力した音声が音声認識された文字列と置き換えられる。つまり、選択された誤認識文字列は、新たに音声認識された文字列と置き換えられる。このように、使用者は、編集するための文字列を発話するだけで、誤認識した文字列を編集することができる。つまり、使用者は、音声認識よる文章の編集に都合がいい編集操作を行うことができる。
Next, in the audio designation mode, when low confidence string is erroneously recognized character strings, the speech representing the character string is re-entered, a character string similar to a string that represents the audio that the reenter Selected. Moreover, in order to designate this similar character string, it is realizable by dividing and memorize | storing the audio | voice data input initially for every morpheme. Specifically, in each divided speech data, a low reliability speech dictionary is created from each speech data corresponding to a low reliability character string and a corresponding low reliability character string. Then, the
また、文字入力キー22eが押下されなければ、第2マイク16bを利用した音声認識によって文字列を入力することが可能であり、「箇所」を表わす音声が入力されると、文字入力と同様に、指定された低信頼度文字列「多少」が「箇所」の文字列に置き換えられる。つまり、使用者は、音声認識を利用して容易に編集することができる。
If the character input key 22e is not pressed, it is possible to input a character string by speech recognition using the
図8は、RAM30のメモリマップを示す図解図である。図8を参照して、RAM30のメモリマップ300には、プログラム記憶領域302およびデータ記憶領域304が含まれる。プログラムおよびデータの一部は、フラッシュメモリ28から一度に全部または必要に応じて部分的にかつ順次的に読み出され、RAM30に記憶されてからCPU20aなどで処理される。
FIG. 8 is an illustrative view showing a memory map of the
また、文書編集プログラム312は、送信メールの本文などを編集するときに実行されるプログラムであり、さらに信頼度閾値設定プログラム312a、任意カーソル編集プログラム312b、音声認識入力プログラム312c、低信頼度部位編集プログラム312d、カーソル指定プログラム312e、音声指定プログラム312f、音声検索プログラム312gおよび変換部位検索プログラム312hから構成されている。
The
続いて、図9を参照して、データ記憶領域304には、音声認識バッファ330、入力文字バッファ332が設けられ、さらに、設定信頼度データ334、信頼度テーブルデータ336、低信頼度音声辞書データ338、メールデータ340が記憶されると共に、カーソル指定フラグ342、音声指定フラグ344および音声検索フラグ346が設けられる。
Subsequently, referring to FIG. 9, the
音声認識バッファ330は、音声認識の処理を実行する際に利用されるバッファであり、たとえば、DSP20bによって変換された音声認識用の音声データが一時的に格納される。入力文字バッファ332は、文書編集プログラム312が実行されることで編集(作成)されている文字列を一時的に格納するバッファである。なお、入力文字バッファ332に格納されたデータを利用して、文字列がLCDモニタ26に表示される。設定信頼度データ334は、信頼度閾値設定プログラム312aの処理によって決定した閾値のデータであり、たとえば「60%」や「70%」などを表わす数字列から構成されている。信頼度テーブルデータ336は、図5に示す信頼度テーブルのデータである。
The
CPU20aは、「Linux(登録商標)」および「REX」などのRTOS(real−time operating system)の制御下で、図10に示す送信メール作成処理、図11に示すサブメニュー処理、図12に示す信頼度閾値設定処理、図13に示す文字編集処理、図14に示す任意カーソル編集処理、図15に示す音声認識入力処理、図16に示す低信頼度部位編集処理、図17に示すカーソル指定処理、図18に示す音声指定処理、図19に示す音声検索処理および図20に示す変換部位検索処理などを含む複数のタスクを並列的に実行する。
The
ステップS3で“NO”であれば、つまり送信操作でなければ、ステップS7でサブメニューの設定か否かを判断する。つまり、キー表示領域54に表示されているサブメニューキー56cが操作されたか否かを判断する。ステップS7で“YES”であれば、つまりサブメニューキー56cが操作されていれば、ステップS9でサブメニュー処理を実行し、ステップS1に戻る。また、ステップS9で実行されるサブメニュー処理については後述するため、ここでの詳細な説明は省略する。一方、ステップS7で“NO”であれば、つまりサブメニューキー56cが操作されていなければ、ステップS11で題名の編集であるか否かを判断する。つまり、送信メールの題名を編集するための操作であるか否かを判断する。
If "NO" in the
図12は、ステップS53(図11参照)で実行される信頼度閾値設定処理を示すフロー図である。CPU20aはステップS71で信頼度設定画面を表示する。たとえば、図7(B)に示すように、ウインドウWdを表示する。続いて、ステップS73では戻る操作か否かを判断する。つまり、戻るキー56hが操作されたか否かを判断する。ステップS73で“YES”であれば、つまり戻るキー56hが操作されれば、信頼度閾値設定処理を終了して、サブメニュー処理に戻る。一方、ステップS73で“NO”であれば、つまり戻るキー56hが操作されなければ、ステップS75で信頼度の変更操作か否かを判断する。たとえば、「1」〜「3」の数字キーのいずれか1つが操作されたか否かを判断する。ステップS75で“NO”であれば、つまり信頼度の変更操作がされなければステップS73に戻る。一方、ステップS75で信頼度の変更操作がされれば、ステップS77で変更操作に応じて信頼度を設定し、信頼度閾値設定処理を終了する。たとえば、「1」の数字キーが操作されれば信頼度の閾値は70%(高い)に設定され、「2」の数字キーが操作されれば信頼度の閾値は60%(普通)に設定され、「3」の数字キーが操作されれば信頼度の閾値は50%(低い)に設定される。また、設定された信頼度の閾値を示すデータは、設定信頼度データ334としてRAM30に記憶される。
Figure 12 is a flow diagram illustrating a reliability threshold value setting process executed in step S53 (see FIG. 11). In step S71, the
図13はステップS13またはステップS19(図10参照)で実行される文書編集処理を示すフロー図である。CPU20aは、ステップS13またはステップS19の処理が実行されると、ステップS91で完了操作か否かを判断する。つまり、図3(A)などに示す完了キー56bが操作されたか否かを判断する。ステップS91で“YES”であれば、つまり完了キー56bが操作されれば、文書編集処理を終了して、送信メール作成処理に戻る。一方、ステップS91で“NO”であれば、つまり完了キー56bが操作されなければ、低信頼度部位があるか否かを判断する。つまり、信頼度テーブルデータ336を参照して、設定信頼度データ334が示す閾値以下の信頼度が記録されているか否かを判断する。
FIG. 13 is a flowchart showing the document editing process executed in step S13 or step S19 (see FIG. 10). When the process of step S13 or step S19 is executed, the
たとえば、編集カーソルCUbによって選択された文字列の信頼度を100%に変更する。また、編集キー56eまたは確定キー56gが長押しされた場合には、編集カーソルCUbが選択する文字列に関係なく、信頼度テーブルにおける信頼度の列の値を全て100%に変更する。続いて、ステップS195では、低信頼度部位があるか否かを判断する。つまり、信頼度テーブルデータ336に、閾値以下の信頼度が記録されているか否かを判断する。ステップS195で“NO”であれば、つまり閾値以下の信頼度が記録されていなければ、カーソル指定処理を終了し、低信頼度部位編集処理に戻る。
For example, the reliability of the character string selected by the editing cursor CUb is changed to 100%. When the
なお、表示されていない文字列がない場合には、方向キー22dに対する入力がされても、機能表示領域52内の表示は変化しない。また、左右方向キーが入力された場合も同様に、機能表示領域52内の表示は変化しない。
If there is no character string is not displayed, be the input to the direction key 22 d, the display of the
なお、音声認識における辞書データ(ROM32に記憶される音声辞書および低信頼度音声辞書データを含む)を構成する参照音声データのそれぞれに、尤度を算出する関数(式)が設定されていれば、類似する文字列を検索するために尤度を算出する各関数を利用してもよい。つまり、各関数にそれぞれを識別するための関数IDを設定し、低信頼度文字列の信頼度を算出するために利用した関数IDをそれぞれ記録する。そして、新たに入力された音声を音声認識する際に利用した関数IDを、記録された各関数IDから検索することで、類似する低信頼度文字列を検索することが可能である。 It should be noted that if a function (expression) for calculating likelihood is set for each of reference speech data constituting dictionary data in speech recognition (including speech dictionary and low-reliability speech dictionary data stored in ROM 32). Each function for calculating likelihood may be used to search for a similar character string. In other words, a function ID for identifying each function is set, and the function ID used for calculating the reliability of the low-reliability character string is recorded. Then, it is possible to search for a similar low-reliability character string by searching the function ID used when recognizing the newly input voice from the recorded function IDs.
また、携帯端末10の通信方式には、CDMA方式に限らず、W‐CDMA方式、TDMA方式、PHS方式およびGSM(登録商標)方式などを採用してもよい。また、本実施例における携帯端末10のCPU20aによって実行される各処理は、携帯端末10のみに限らず、PDA(Personal Degital Assistant)などの携帯情報端末や、パーソナルコンピュータ(PC)などであってもよい。
Further, the communication method of the
Claims (16)
前記音声認識手段によって生成される前記文字列およびそれらの信頼度を示すデータを記録する記録手段、
前記データを参照して所定値以下の信頼度の文字列を特定する特定手段、および
前記特定手段によって特定された文字列を、他の文字列とは異なる形態で表示する表示手段を備える、携帯端末。 A portable terminal having a capturing means for capturing a speech signal and a speech recognition means for generating a character string from the speech signal captured by the capturing means,
Recording means for recording the character strings generated by the speech recognition means and data indicating their reliability;
A portable unit comprising: a specifying unit that specifies a character string having a reliability equal to or lower than a predetermined value with reference to the data; and a display unit that displays the character string specified by the specifying unit in a form different from other character strings. Terminal.
前記カーソルは、前記操作手段によって操作結果に応じて文字列を選択する、請求項2記載の携帯端末。 An operation means for receiving an operation for moving the cursor;
The portable terminal according to claim 2, wherein the cursor selects a character string according to an operation result by the operation means.
前記カーソルは、前記検索手段によって検索された前記文字列を選択する、請求項2記載の携帯端末。 Search means for searching for the character string that matches a new character string that is newly voice-recognized after the character string is generated,
The mobile terminal according to claim 2, wherein the cursor selects the character string searched by the search means.
前記音声編集手段は、前記候補一覧表示手段によって表示された候補が選択されたとき、その選択された候補を新たに生成された文字列として編集する、請求項5記載の携帯端末。 A list display means for displaying a list of character string candidates generated by the voice recognition means;
The portable terminal according to claim 5, wherein when the candidate displayed by the candidate list display unit is selected, the voice editing unit edits the selected candidate as a newly generated character string.
前記カーソルによって選択された文字列を、前記文字入力手段によって入力された文字列に基づいて編集する文字編集手段をさらに備える、請求項2ないし4のいずれかに記載の携帯端末。 The character input means for inputting a character string, and the character edit means for editing the character string selected by the cursor based on the character string input by the character input means. The portable terminal as described in.
前記類似検索手段によって検索された文字列を、前記音声認識手段によって新たに生成された文字列に置換する置換手段をさらに備える、請求項1記載の携帯端末。 Similar search means for searching for a character string similar to the character string newly generated by the voice recognition means, and the character string searched by the similarity search means as a character string newly generated by the voice recognition means The mobile terminal according to claim 1, further comprising replacement means for replacing.
前記カーソルは、前記類似検索手段によって検索された文字列を選択する、請求項2記載の携帯端末。 Similarity search means for searching for a character string similar to the character string newly generated by the voice recognition means,
The portable terminal according to claim 2, wherein the cursor selects a character string searched by the similarity search unit.
前記音声編集手段は、前記候補一覧表示手段によって表示された候補が選択されたとき、その選択された候補を新たに生成された文字列として編集する、請求項10記載の携帯端末。 A list display means for displaying a list of character string candidates generated by the voice recognition means;
The portable terminal according to claim 10, wherein when the candidate displayed by the candidate list display unit is selected, the voice editing unit edits the selected candidate as a newly generated character string.
前記カーソルによって選択された文字列を、前記文字入力手段によって入力された文字列に基づいて編集する文字編集手段をさらに備える、請求項9記載の携帯端末。 The portable terminal according to claim 9, further comprising: a character input unit that inputs a character string; and a character editing unit that edits the character string selected by the cursor based on the character string input by the character input unit.
前記類似検索手段は、音声辞書記録手段によって記録された音声のそれぞれと、新たに入力された音声との相関値を算出することで、類似する文字列を検索する、請求項8ないし12のいずれかに記載の携帯端末。 Voice dictionary recording means for recording the voice captured by the capture means and the character string generated from the voice as a voice dictionary;
The similarity search means searches for a similar character string by calculating a correlation value between each of the voices recorded by the voice dictionary recording means and the newly input voice. The mobile terminal according to Crab.
前記表示手段によって表示された文字列の表示位置をスクロールさせるスクロール手段をさらに備える、請求項1ないし13のいずれかに記載の携帯端末。 The portable terminal according to claim 1, further comprising: a display unit that displays at least a part of the plurality of character strings; and a scroll unit that scrolls a display position of the character string displayed by the display unit. .
前記音声認識手段によって生成される前記文字列およびそれらの信頼度を示すデータを記録する記録手段、
前記データを参照して所定値以下の信頼度の文字列を特定する特定手段、および
前記特定手段によって特定された文字列を、他の文字列とは異なる形態で表示する表示手段として機能させる、編集誘導プログラム。 A portable terminal processor having a capturing means for capturing a speech signal and a speech recognition means for generating a character string from the speech signal captured by the capturing means,
Recording means for recording the character strings generated by the speech recognition means and data indicating their reliability;
A specifying means for specifying a character string having a reliability equal to or lower than a predetermined value with reference to the data, and a function for displaying the character string specified by the specifying means in a form different from other character strings; Editing guidance program.
前記音声認識手段によって生成される前記文字列およびそれらの信頼度を示すデータを記録する記録手段、
前記データを参照して所定値以下の信頼度の文字列を特定する特定手段、および
前記特定手段によって特定された文字列を、他の文字列とは異なる形態で表示する表示手段を備える、編集装置。 An editing apparatus having a capturing means for capturing a speech signal and a speech recognition means for generating a character string from the speech signal captured by the capturing means,
Recording means for recording the character strings generated by the speech recognition means and data indicating their reliability;
Editing means comprising: specifying means for specifying a character string having a reliability equal to or lower than a predetermined value with reference to the data; and display means for displaying the character string specified by the specifying means in a form different from other character strings. apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015083313A JP2015206998A (en) | 2015-04-15 | 2015-04-15 | Portable terminal, editing guiding program, and editing guiding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015083313A JP2015206998A (en) | 2015-04-15 | 2015-04-15 | Portable terminal, editing guiding program, and editing guiding method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013143215A Division JP5893588B2 (en) | 2013-07-09 | 2013-07-09 | Mobile terminal, editing guide program, and editing guide method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015206998A true JP2015206998A (en) | 2015-11-19 |
Family
ID=54603810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015083313A Pending JP2015206998A (en) | 2015-04-15 | 2015-04-15 | Portable terminal, editing guiding program, and editing guiding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015206998A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017221501A1 (en) * | 2016-06-23 | 2017-12-28 | ソニー株式会社 | Information processing device and information processing method |
JP2019144310A (en) * | 2018-02-16 | 2019-08-29 | キヤノンマーケティングジャパン株式会社 | Information processor, information processing system, control method and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0285918A (en) * | 1988-09-22 | 1990-03-27 | Asahi Chem Ind Co Ltd | Input device |
JPH08180022A (en) * | 1994-12-22 | 1996-07-12 | Matsushita Electric Ind Co Ltd | Information storage and conversion device |
-
2015
- 2015-04-15 JP JP2015083313A patent/JP2015206998A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0285918A (en) * | 1988-09-22 | 1990-03-27 | Asahi Chem Ind Co Ltd | Input device |
JPH08180022A (en) * | 1994-12-22 | 1996-07-12 | Matsushita Electric Ind Co Ltd | Information storage and conversion device |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017221501A1 (en) * | 2016-06-23 | 2017-12-28 | ソニー株式会社 | Information processing device and information processing method |
JPWO2017221501A1 (en) * | 2016-06-23 | 2019-04-18 | ソニー株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD |
JP2019144310A (en) * | 2018-02-16 | 2019-08-29 | キヤノンマーケティングジャパン株式会社 | Information processor, information processing system, control method and program |
JP7231806B2 (en) | 2018-02-16 | 2023-03-02 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing system, control method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010197669A (en) | Portable terminal, editing guiding program, and editing device | |
JP5048174B2 (en) | Method and apparatus for recognizing user utterance | |
KR101777807B1 (en) | Sign language translator, system and method | |
CN100403828C (en) | Portable digital mobile communication apparatus and voice control method and system thereof | |
KR101542136B1 (en) | Method for inputting character message and mobile terminal using the same | |
JP4135307B2 (en) | Voice interpretation service method and voice interpretation server | |
US7363224B2 (en) | Method for entering text | |
JP2006031092A (en) | Voice character input program and portable terminal | |
KR20140105673A (en) | Supporting Method And System For communication Service, and Electronic Device supporting the same | |
JP3624733B2 (en) | Sign language mail device and sign language information processing device | |
JP5893588B2 (en) | Mobile terminal, editing guide program, and editing guide method | |
WO2010000322A1 (en) | Method and device for converting speech | |
JP2002125047A (en) | Method and device for interpretation service | |
CN111862940A (en) | Earphone-based translation method, device, system, equipment and storage medium | |
CN111325039A (en) | Language translation method, system, program and handheld terminal based on real-time call | |
CN109215660A (en) | Text error correction method and mobile terminal after speech recognition | |
JP2002116793A (en) | Data input system and method | |
US20040176139A1 (en) | Method and wireless communication device using voice recognition for entering text characters | |
JP2005065252A (en) | Cell phone | |
KR101579292B1 (en) | Apparatus and method for universal control using speech recognition | |
JP2008090624A (en) | Input character edition device, input character edition method, input character edition program and recording medium | |
JP2015206998A (en) | Portable terminal, editing guiding program, and editing guiding method | |
CN111843986B (en) | Robot teaching device | |
JP2007004281A (en) | Voice mail input device | |
WO2023093280A1 (en) | Speech control method and apparatus, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160517 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161115 |