JP2005242183A - Voice recognition device, display controller, recorder device, display method and program - Google Patents
Voice recognition device, display controller, recorder device, display method and program Download PDFInfo
- Publication number
- JP2005242183A JP2005242183A JP2004054499A JP2004054499A JP2005242183A JP 2005242183 A JP2005242183 A JP 2005242183A JP 2004054499 A JP2004054499 A JP 2004054499A JP 2004054499 A JP2004054499 A JP 2004054499A JP 2005242183 A JP2005242183 A JP 2005242183A
- Authority
- JP
- Japan
- Prior art keywords
- display
- word
- words
- recognition
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識により認識可能な単語を表示する表示制御装置、音声認識装置、レコーダ装置、表示方法およびプログラムに関するものである。 The present invention relates to a display control device, a speech recognition device, a recorder device, a display method, and a program that display words that can be recognized by speech recognition.
近年、音声認識技術が様々な機器において利用されており、これらの機器に音声入力インタフェースが組み込まれている。音声入力インタフェースを用いることでキーボードなどの入力デバイスを用いることなく、機器に対する入力の際の利便性が向上することになるが、ユーザが音声認識の対象となっていない単語等を発声した場合、ユーザが意図した単語と異なる単語が誤認識され、ユーザの意図しない動作が行われてしまうおそれがある。 In recent years, voice recognition technology has been used in various devices, and voice input interfaces are incorporated in these devices. By using the voice input interface, it is possible to improve convenience when inputting to the device without using an input device such as a keyboard, but when the user utters a word or the like that is not subject to voice recognition, There is a possibility that a word different from the word intended by the user is erroneously recognized and an operation not intended by the user is performed.
すなわち、一般的な音声認識技術では、音声認識の対象となる単語、つまり認識可能な単語をあらかじめ認識辞書に格納しておき、認識辞書に格納された単語の中で最も入力音声に近い単語を認識結果として出力するため、認識辞書に格納されていない単語を発声すると、上記のような誤認識がなされたり、認識できなかったりすることがあるのである。 That is, in a general speech recognition technique, a word that is a target of speech recognition, that is, a recognizable word is stored in a recognition dictionary in advance, and a word that is closest to the input speech is stored among the words stored in the recognition dictionary. In order to output as a recognition result, if a word that is not stored in the recognition dictionary is uttered, the above-mentioned erroneous recognition may be made or may not be recognized.
特に、このような音声入力インタフェースを搭載した機器をほとんど利用したことのない利用者は、何を言えば機器が動作するのかわからずに困惑することも多く、認識される単語を調べるためにマニュアルを引いていたのでは、入力を簡易にするという音声入力インタフェースの利点が生かされない。 In particular, users who have rarely used a device equipped with such a voice input interface are often confused without knowing what the device is supposed to operate, and a manual for examining recognized words. However, the advantage of the voice input interface that simplifies input is not utilized.
以上のような問題を解決するためには、ユーザに認識対象単語を音声や表示等の出力インタフェースを用いて適切に報知する必要があり、認識可能な単語のリストを表示画面の一部に表示させる技術や(例えば、特許文献1参照)、ヘルプ発話によって認識可能な単語を補助画面に表示させるといった技術が提案されている(例えば、特許文献2参照)。 In order to solve the above problems, it is necessary to appropriately notify the user of the recognition target word using an output interface such as voice or display, and a list of recognizable words is displayed on a part of the display screen. And a technique for displaying a word that can be recognized by help utterance on an auxiliary screen has been proposed (for example, see Patent Document 2).
また、装置に入力可能な単語を、赤色、青色等の異なる表示態様で表示させるとともに、ユーザが入力したい単語の表示形態の種類、例えば「アカ」、「アオ」等が発声された場合に、発声された表示形態の種類に対応する単語を入力する技術が提案されている(例えば、特許文献3参照)。 In addition, when a word that can be input to the device is displayed in different display modes such as red and blue, and the type of display form of the word that the user wants to input, for example, “red”, “blue”, etc. A technique for inputting a word corresponding to the type of display form uttered has been proposed (see, for example, Patent Document 3).
しかしながら、上記特許文献1に開示された技術では、認識対象の単語が非常に多くなれば、全ての認識可能な単語を一度にリスト表示するのは難しく、リストを表示するために画面領域の一部に本来表示すべき内容が表示できないといったことも生じる。さらには、リスト表示のために画面のデザイン性も損なわれる。
However, with the technique disclosed in
また、特許文献2に開示された技術では、補助画面を表示・消去するのにヘルプ発話といった音声コマンドの入力が必要になるため、機器との間で冗長なやりとりが増え、入力の簡易化という音声入力インタフェースの利点が活かされない。
In addition, in the technique disclosed in
また、特許文献3に開示された技術は、表示形態の種類を発声することで所望の単語を入力する技術であり、結果として表示された入力項目を入力することができるが、音声認識可能な単語そのものをユーザに報知するものではない。 The technique disclosed in Patent Document 3 is a technique for inputting a desired word by uttering the type of display form. As a result, input items displayed can be input, but speech recognition is possible. The word itself is not notified to the user.
すなわち、特許文献3に開示された技術では、「アカ」、「アオ」といった表示形態の種類が音声認識可能な単語であるが、これらの単語についてはユーザが音声入力が可能であることを前提とし、認識可能な表示形態の種類に入力項目を割り当て、認識可能であることが既知の「アカ」等の単語を発声することで、それに対応する入力項目を選択する技術である。したがって、表示を通して音声認識可能な単語をユーザに報知することはできず、また入力が直接的ではないため、音声入力インタフェースを搭載した機器の操作などと直感的に結びつかず分かり難いという問題があった. That is, in the technique disclosed in Patent Document 3, the types of display forms such as “red” and “blue” are words that can be recognized by speech, but it is assumed that the user can input speech for these words. And an input item is assigned to a recognizable type of display form, and a word such as “red” that is known to be recognizable is uttered to select a corresponding input item. Therefore, words that can be recognized by voice cannot be notified to the user through the display, and since the input is not direct, there is a problem that it is difficult to understand because it is not intuitively linked with operation of a device equipped with a voice input interface. It was.
本発明は、上記に鑑みてなされたものであって、表示画面による情報伝達機能やデザイン性を損なうことなく、音声認識可能な単語をユーザに報知することができる音声認識装置、表示制御装置、レコーダ装置、音声認識方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and a speech recognition device, a display control device, and the like that can notify a user of a speech-recognizable word without impairing an information transmission function and design by a display screen, An object of the present invention is to provide a recorder device, a voice recognition method, and a program.
上述した課題を解決し、目的を達成するために、本発明の一態様にかかる音声認識装置は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、入力された要求に対する要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、を具備することを特徴とする。
In order to solve the above-described problems and achieve the object, a speech recognition apparatus according to one aspect of the present invention is input with a recognition dictionary that stores a plurality of words that are subject to speech recognition and how to read these words. Speech recognition means for performing speech recognition processing with reference to the recognition dictionary,
Display rule storage means for storing a display rule that defines a display mode of words stored in the recognition dictionary, and when the request processing result for the input request is displayed on the display screen, the recognition is displayed in the display screen. Display control means for determining a display mode according to a display rule stored in the display rule storage means for the included word when a word stored in the dictionary is included, To do.
また、本発明の別の態様にかかる音声認識装置は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、入力された要求に対する前記要求処理手段による要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、を具備することを特徴とする。 A speech recognition apparatus according to another aspect of the present invention refers to a recognition dictionary that stores a plurality of words to be speech-recognized and how to read these words, and refers to the recognition dictionary for input speech. A voice recognition unit that performs voice recognition processing, a display rule storage unit that stores a display rule that defines a display mode of words stored in the recognition dictionary, and a request based on the voice recognized by the voice recognition unit Included when a word stored in the recognition dictionary is included in the display screen when displaying a request processing result by the request processing means to the request processing means to be displayed on the display screen. Display control means for determining a display mode according to a display rule stored in the display rule storage means for the stored word.
また、本発明の別の態様にかかる表示制御装置は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段とを備えた音声認識装置で認識可能な単語を表示させる表示制御装置であって、入力された要求に対する要求処理結果を表示画面に表示する際に、その表示内容を制御する表示制御手段と、前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定することを特徴とする。 The display control apparatus according to another aspect of the present invention refers to a recognition dictionary that stores a plurality of words to be speech-recognized and how to read these words, and refers to the recognition dictionary for input speech. Display a word that can be recognized by a voice recognition device having voice recognition means for performing voice recognition processing, and when displaying a request processing result for an inputted request on a display screen, the display Display control means for controlling the contents, and display rule storage means for storing display rules for defining the display mode of the words stored in the recognition dictionary, the display control means should be displayed on the display screen When a word stored in the recognition dictionary is included in the result, the display mode is determined according to the display rule stored in the display rule storage unit for the included word. The features.
また、本発明の別の態様にかかるレコーダ装置は、画像を記憶する処理を行うレコーダ装置であって、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、要求に対する前記要求処理手段による結果を表示画面に表示する際にその表示内容を制御する表示制御手段と、前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定することを特徴とする。 A recorder apparatus according to another aspect of the present invention is a recorder apparatus that performs processing for storing an image, and includes a recognition dictionary that stores a plurality of words to be subjected to speech recognition and how to read these words, and an input Speech recognition means for performing speech recognition processing with reference to the recognition dictionary, request processing means for processing a request based on the speech recognized by the speech recognition means, and the request processing means for the request Display control means for controlling the display contents when the result is displayed on the display screen, and display rule storage means for storing a display rule for defining a display mode of words stored in the recognition dictionary, When the word to be stored in the recognition dictionary is included in the result to be displayed on the display screen, the control unit stores the included word in the display rule storage unit. And determining the display mode in accordance 憶 has been that display rule.
また、本発明の別の態様にかかる表示方法は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段とを備えた音声認識装置が認識可能な単語を表示する方法であって、入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定することを特徴とする。 In addition, a display method according to another aspect of the present invention includes a recognition dictionary that stores a plurality of words to be subjected to speech recognition and how to read these words, and refers to the recognition dictionary for input speech. A method for displaying words that can be recognized by a speech recognition device having speech recognition means for performing speech recognition processing, and displaying a request processing result for an input request on the display screen. If a word to be stored in the recognition dictionary is included in the result to be determined, a display mode is determined according to a display rule determined in advance for the included word.
また、本発明の別の態様にかかるプログラムは、コンピュータを、入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、音声認識処理に用いられる認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定する表示制御手段
として機能させることを特徴とする。
The program according to another aspect of the present invention is used for speech recognition processing among the results to be displayed on the display screen when the computer displays the request processing result for the input request on the display screen. When a word to be stored is included in the recognition dictionary, the display dictionary is configured to function as a display control unit that determines a display mode according to a display rule determined in advance for the included word.
本発明によれば、表示画面による情報伝達機能やデザイン性を損なうことなく、音声認識可能な単語をユーザに報知することができるという効果を奏する。 According to the present invention, it is possible to notify a user of a word that can be recognized by voice without impairing the information transmission function and design of the display screen.
以下に添付図面を参照して、この発明にかかる音声認識装置、表示制御装置、レコーダ装置、音声認識方法およびプログラムの好適な実施の形態を詳細に説明する。 Exemplary embodiments of a speech recognition device, a display control device, a recorder device, a speech recognition method, and a program according to the present invention will be explained below in detail with reference to the accompanying drawings.
(第1の実施の形態)
図1は、本発明の第1の実施の形態にかかる音声認識装置の構成を示すブロック図である。同図に示すように、この音声認識装置10は、音声入力部100と、音声認識部110と、要求処理部120と、表示制御部130と、表示部140と、音響辞書150と、認識辞書160と、規則適用単語テーブル170と、表示規則記憶部180と、要求処理用情報記憶部190とを備える。
(First embodiment)
FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus according to the first embodiment of the present invention. As shown in the figure, the
このように本実施の形態における音声認識装置10は、ユーザからの要求を入力し、当該要求に応じた処理を行うための要求処理部120や要求処理用情報記憶部190を備えているが、要求処理部120や要求処理用情報記憶部190を音声認識装置内に一体に組み込む構成とする必要はなく、これらを分離した構成としてもよい。
As described above, the
音声入力部100は、マイクロホン等を有しており、当該音声認識装置10のユーザが発声した音声等の音を受信し、受信した音を音声認識部110が処理可能な音響信号に変換して出力する。
The
音声認識部110は、音声入力部100から供給される音響信号を解析し、音響辞書150を参照しながら認識辞書160に格納された単語と音響的に最も類似するものを認識結果として要求処理部120に出力する。これによりユーザは音声入力部100に向けて、要求処理部120に対して入力したい単語(要求内容等)を発声すれば、音声認識部110によって入力したい単語が認識結果として入力される。なお、ここで、認識対象となる単語とは、1つの単語のみならず、複数の単語からなる単語列も含むものとする。また、音声認識部110が行う音声認識方法は、HMM(Hidden Markov Model)を利用する方法など公知の種々の方法を用いることができる。
The
音響辞書150には、上記のような音声認識部110によって用いられる音響に関する情報が格納されており、認識辞書160には音声認識部110によって認識可能な単語、および認識可能単語を認識するためにユーザが発声することが可能な読み方が格納されている。図2に、認識辞書160に格納される情報の一例を示す。
The
同図に示すように、認識辞書160には、認識対象単語「情報通」、「しん」、「黄門様」、「高校野球」‥‥と、これらの認識対象単語に対応する読み方「じょうほうつう」、「しん」、「こうもんさま」、「こうこうやきゅう」‥‥とが対応つけて格納されている。したがって、ユーザが音声入力部100に向けて「こうもんさま」と発声すると、音声認識部110によって読み方「こうもんさま」に対応する単語「黄門様」が認識され、認識結果として出力されるのである。
As shown in the figure, the
図1に戻り、要求処理部120は、上記のように音声認識部110の認識結果であるユーザの要求に応じた処理を行い、その処理結果を表示部140に表示させるべく、処理結果を表示制御部130に出力する。本実施の形態では、要求処理部120は、ユーザが入力した単語(テレビ番組名等)に関する検索処理を行うものであり、要求処理用情報記憶部190には要求処理部120が要求に応じた処理を行うために必要な情報が記憶されている。
Returning to FIG. 1, the
ここで、要求処理用情報記憶部190に記憶される情報の一例を図3に示す。同図に示す例では、要求処理用情報記憶部190には、上記要求処理部120によって行われる検索処理に必要な番組データベースが格納されている。このような番組データベースが記憶されている場合、要求処理部120はユーザからの番組検索要求に応じてテレビ番組の検索を行うことができる。
An example of information stored in the request processing
番組データベースは、「ID」、「番組名」、「放送日時」、「放送局」、「ジャンル」、「出演者」といった番組に関する項目情報が対応つけられたものとなっている。このような番組データベースを参照することで、要求処理部120は、ユーザが出演者名(峰竜太郎等)やジャンル(社会・報道)をキーとして検索要求をなした場合に、当該出演者が出演している番組や要求したジャンルの番組等を検索することができるようになっている。
The program database is associated with item information relating to programs such as “ID”, “program name”, “broadcast date”, “broadcast station”, “genre”, and “performer”. By referring to such a program database, when the user makes a search request using a performer name (such as Ryutaro Mine) or a genre (society / report) as a key, the
つまり、本実施の形態では、ユーザが検索を要求する番組名、出演者名等の単語を音声入力部100に向けて発することで、かかる単語が音声認識されて要求処理部120に供給される。要求処理部120は、このように音声認識を利用して入力された単語に関する情報を要求処理用情報記憶部190に格納された情報の中から検索し、検索結果を表示するための画面の構成要素を表示制御部130に供給するのである。
That is, in the present embodiment, a word such as a program name or a performer name for which a user requests a search is issued to the
図1に戻り、表示制御部130は、要求処理部120によって処理されたユーザの要求に対する結果、つまりユーザが検索要求した単語に関する検索結果を表示部140に表示するための表示用データを生成し、表示部140に出力する。本実施の形態における表示制御部130は、要求処理部120の処理結果を単純に表示させるのではなく、かかる処理結果を表示させる際に、認識辞書160に格納された単語、つまり音声認識可能な単語をユーザに報知しうる表示が行われるよう表示内容を制御する。
Returning to FIG. 1, the
上記のような表示内容制御を行うため表示制御部130は、規則適用単語決定部131と、表示態様決定部132とを有している。規則適用単語決定部131は、上記のように表示部140に表示するべく要求処理部120から供給された処理結果(テレビ番組の検索結果等)の中に、認識辞書160に格納されている単語(図2の「情報通」、「黄門様」など)が含まれているか否かを調査し、含まれている場合にはその単語を後述する表示規則の適用がある単語であるとして規則適用単語テーブル170に登録する。
In order to perform the display content control as described above, the
ここで、図4に規則適用単語テーブル170の内容の一例を示す。同図に示すように、規則適用単語テーブル170には、要求処理部120による処理結果に含まれる単語と、当該単語に表示規則が適用されるか否かを示す適用フラグとが登録されている。ここで、適用フラグが「1」の場合には適用があることを示し、「0」は適用がないことを表すフラグである。上記のように認識辞書160に格納されている「黄門様」や「次のページ」という単語については適用フラグ「1」が、認識辞書に格納されていない単語「2件」については適用フラグ「0」が付与されることになる。
Here, an example of the contents of the rule application word table 170 is shown in FIG. As shown in the figure, in the rule application word table 170, a word included in the processing result by the
表示態様決定部132は、上記のように規則適用単語決定部131によって登録された規則適用単語テーブル170を参照し、適用フラグが「1」、つまり規則を適用することが決定された単語について、表示規則記憶部180に記憶された表示規則にしたがった態様で表示がなされるよう表示内容を制御する。すなわち、規則が適用されない単語については特別の処理が行われず、当該装置の表示設定にしたがった態様で表示されるのに対し、規則が適用される旨が登録された単語については、その時点の表示設定にかかわらず表示規則記憶部180に記憶された表示規則にしたがった態様で表示されるよう制御されるのである。
The display
ここで、図5に表示規則記憶部180に記憶される表示規則の一例を示す。同図に示すように、この表示規則では、適用フラグ「0」が付与された単語の場合、つまり適用しない単語については「変更なし」、つまり装置の表示設定等にしたがった態様で表示をなすようになっているのに対し、適用フラグ「1」が付与された単語の場合、つまり適用のある単語については「Font+2、Bold化」といった態様で表示すべき旨が規定されている。なお、特許請求の範囲における表示規則は、認識辞書160に格納された単語について適用されるものをいうので、表示規則記憶部180に格納される適用フラグ「1」に対応する規則が、特許請求の範囲における表示規則に該当する。ただし、適用フラグ「0」に対応する単語について適用する他の規則を用意し、これを表示規則記憶部180に記憶させるようにしてもよい。
Here, FIG. 5 shows an example of display rules stored in the display
これを参照した表示態様決定部132は、適用フラグ「1」が付与された単語については、通常の設定よりもフォントを2つ大きく、かつボールド化して表示させる、つまり適用のない単語よりもフォントを2つ大きく、かつボールド化して表示させるよう制御するのである。
The display
表示部140は、LCD(Liquid Crystal Display)等の表示画面を有しており、この表示画面に要求処理部120の処理結果に対応する内容であり、上記表示制御部130によって制御された内容の表示がなされる。
The
以上が本発明の第1の実施の形態にかかる音声認識装置10の構成であり、以下当該音声認識装置10の動作について具体例を挙げながら説明する。ここでは、要求処理部120がユーザからの音声入力によるテレビ番組検索要求、例えばジャンルや出演者を指定した番組検索要求に対する処理を行い、その処理結果であるテレビ番組検索結果を表示部140に表示する場合を例に挙げて説明する。
The above is the configuration of the
まず、ユーザが音声入力部100に向けて、所望の検索のための情報、つまり所望番組のジャンル、出演者、チャンネル、放送時刻、番組名等の情報を発声する。例えば、「今日のドラマ」、「10チャンネル」、「松平武司の出演している番組」等の検索条件を発声する。すると、音声入力部100によってかかる音声が音響信号に変換され、当該音響信号に対して音声認識部110による音声認識処理が行われる。
First, the user utters information for a desired search toward the
ここで、ユーザが「今日のドラマ」といった言葉を発した場合、音声認識部110によって「今日のドラマ」が認識され、検索条件文言として要求処理部120に供給される。要求処理部120は、かかる検索条件文言にしたがって検索処理を行う。かかる検索処理の手順を図6を参照しながら説明する。
Here, when the user utters a word such as “today's drama”, “today's drama” is recognized by the
同図に示すように、要求処理部120は、入力された「今日のドラマ」が受理可能か否かを判定すると同時に、番組検索処理において検索キーや操作コマンドに対応する単語と、その属性を抽出する(ステップS101)。例えば、要求処理部120は、受理可能な単語列をあらかじめテンプレートの形式で保持しており、テンプレートと一致するか否かで受理可能の判定を行うものとする。ここで、要求処理部120が保持する複数のテンプレートの「“日付”の “ジャンル"」が含まれているものとする。
As shown in the figure, the
この場合、認識結果の「今日」は日付、「ドラマ」はジャンルの具体値であると判別することができ、「“今日”の “ドラマ"」は保持するテンプレートに合致する。よって、「今日のドラマ」は受理可能な単語として判定され、「今日」という属性と、「ドラマ」という属性が抽出される。 In this case, it can be determined that “Today” of the recognition result is a date and “Drama” is a specific value of the genre, and “Drama” of “Today” matches the template held. Therefore, “Today's Drama” is determined as an acceptable word, and the attribute “Today” and the attribute “Drama” are extracted.
上記のように属性を抽出すると、要求処理部120は、抽出した属性値を用いて、検索クエリを作成し、要求処理用情報記憶部190に記憶されている番組データベース(図3参照)から条件に合致する番組を検索する(ステップS102)。例えば、その要求をなした日が2003年8月20日だとすれば、ID「02」の「しん」、ID「03」の「黄門様」などの番組が検索される。
When the attribute is extracted as described above, the
以上のように番組検索を行うと、要求処理部120はかかる検索結果を表示部140に表示させるための内容、つまり表示画面の構成要素を生成する(ステップS103)。ここで、要求処理部120は、あらかじめ保持されている表示画面の構成要素のテンプレートを利用して表示画面の構成要素を生成する。ここで、図7に、保持されているテンプレートの一例を示す。
When the program search is performed as described above, the
要求処理部120は、同図に示されるようなテンプレートの[]で表現される枠内に上記検索結果等を当てはめる形で表示画面の構成要素を生成する。そして、上記のように番組「しん」と「黄門様」が検索された場合には、図8に示すような表示画面の構成要素が生成されることになる。
The
以上が要求処理部120による検索処理およびその結果を表示するための構成要素の生成処理であり、このように生成された検索結果の表示画面の構成要素が表示制御部130に供給される。表示制御部130では、上記のように検索結果を表示するための構成要素に含まれる単語をそのまま表示させるのではなく、かかる検索結果を表示させる際に、音声認識可能な単語をユーザに報知しうる表示が行われるよう表示内容を制御する。
The above is the search processing by the
このような制御を行う表示制御部130の規則適用単語決定部131の処理動作について、図8に示すような検索結果表示画面の構成要素が供給された場合を例に挙げて説明する。図9に示すように、規則適用単語決定部131は、検索結果の表示画面の構成要素の中から最初の単語(「2件」)を取得する(ステップS201)。
The processing operation of the rule application
このように表示画面の構成要素から単語を切り出す方法としては、空白で区切られた文字列を一つの単語とみなして切り出す手法や、形態要素解析方法など公知の種々の方法を用いることができる。このように最初の単語を切り出すと、規則適用単語テーブル170に取得した単語(「2件」)を登録するとともに、当該単語に対応する適用フラグを初期化(フラグ=「0」)する(ステップS202)。 As a method of cutting out words from the constituent elements of the display screen in this manner, various known methods such as a method of cutting out a character string delimited by white space as one word and a morphological element analysis method can be used. When the first word is cut out in this way, the acquired word (“2 cases”) is registered in the rule application word table 170, and the application flag corresponding to the word is initialized (flag = “0”) (step). S202).
そして、認識辞書160(図2参照)に格納されている最初の単語(「情報通」)を取得する(ステップS203)。この後、表示画面の構成要素から取得した単語、つまり検索結果として表示すべき内容に含まれる単語の中から取得した単語と、認識辞書160から取得した単語とを比較し、両者が一致するか否かを判別する(ステップS204)。
Then, the first word (“information communication”) stored in the recognition dictionary 160 (see FIG. 2) is acquired (step S203). Thereafter, the word acquired from the components of the display screen, that is, the word acquired from the words included in the content to be displayed as the search result is compared with the word acquired from the
ここで、両者が一致しない場合(上記例では取得される単語が「2件」と「情報通」であるので一致しない)、表示画面の構成要素から取得された単語と、認識辞書160に格納されている単語すべてとを比較したか否かを判別する(ステップS205)。そして、すべての単語と比較していない場合には、認識辞書160の中から次の単語を取得し(ステップS206)、ステップS204に戻り、認識辞書160から取得した単語と、表示画面の構成要素から取得した単語とが一致するか否かを判別する。つまり、検索結果として表示すべき内容に含まれる単語が、認識辞書160に格納されている単語であるか否かを判別するのである。
Here, if the two do not match (in the above example, the acquired words are “2” and “informative”, they do not match), the words acquired from the constituent elements of the display screen are stored in the
一方、ステップS204において両単語が一致すると判別される場合、規則適用単語テーブル170の当該単語の適用フラグに「1」と立て(ステップS207)、当該単語が規則適用単語である旨の登録を行う。そして、表示画面の構成要素に含まれるすべての単語について認識辞書160に格納される単語との比較処理を行ったか否かを判別し(ステップS208)、すべての単語について処理済でない場合、表示画面の構成要素から次の単語を取得し(ステップS209)、ステップS202に戻り、規則適用単語テーブル170に登録するとともに、当該単語に対応する適用フラグを初期化する。 On the other hand, if it is determined in step S204 that both words match, “1” is set in the application flag of the word in the rule application word table 170 (step S207), and registration that the word is a rule application word is performed. . Then, it is determined whether or not all the words included in the constituent elements of the display screen have been compared with the words stored in the recognition dictionary 160 (step S208). If all the words have not been processed, the display screen The next word is acquired from the component (step S209), the process returns to step S202, and is registered in the rule application word table 170, and the application flag corresponding to the word is initialized.
また、ステップS205において表示画面の構成要素に含まれるある単語について認識辞書160中のすべての単語との比較が終了したと判別された場合、適用フラグを立てる処理(ステップS207)は行われず、ステップS208に進む。つまり、表示画面の構成要素中の当該ある単語については、適用フラグは「0」のままである。
If it is determined in step S205 that the comparison of all the words included in the components of the display screen with all the words in the
そして、ステップS208において、表示画面の構成要素に含まれるすべての単語について比較処理が終了したと判別された場合、規則適用単語テーブル170への登録処理を終了する。すなわち、検索結果表示画面の構成要素に含まれるすべての単語について、認識辞書160中のすべての単語との一致不一致の判定が行われると、当該処理が終了する。
If it is determined in step S208 that the comparison processing has been completed for all the words included in the constituent elements of the display screen, the registration processing in the rule application word table 170 is terminated. That is, when it is determined whether all the words included in the constituent elements of the search result display screen match all the words in the
以上のような処理を行うことで、要求処理部120の検索結果を表示すべき内容、つまり表示画面の構成要素に含まれる単語のすべてについて、規則を適用すべきか否かの判断が行われ、規則適用のある単語についてはその旨のフラグ「1」が規則適用単語テーブル170に登録される。
By performing the processing as described above, it is determined whether or not the rule should be applied to the contents to be displayed of the search result of the
上記のような規則適用単語テーブル170への登録処理が終了すると、表示態様決定部132は、登録処理後の規則適用単語テーブル170を参照して、要求処理部120から供給された表示画面の構成要素中の各単語の表示態様を決定する処理を行う。かかる処理の詳細について図10を参照しながら説明する。
When the registration process to the rule application word table 170 as described above is completed, the display
同図に示すように、まず規則適用単語テーブル170に登録された最初の単語を取得する(ステップS301)。そして、表示規則記憶部180に記憶されている表示規則(図5参照)を参照し、取得した単語に対応する適用フラグに対応する規則を抽出する(ステップS302)。すなわち、適用フラグが「1」である場合には、当該単語について適用フラグ「1」に対応する、つまり認識辞書160に登録された単語用の表示規則を抽出し、当該規則にしたがった表示修正を行う。具体的には、フォントを2つ大きくし、かつボールド化して表示されるように表示形態を修正する(ステップS303)。
As shown in the figure, first, the first word registered in the rule application word table 170 is acquired (step S301). Then, referring to the display rule (see FIG. 5) stored in the display
一方、取得した単語に対応する適用フラグが「0」の場合、抽出される規則は「変更なし」、つまり特別な表示規則が適用されないことを意味し、当該規則にしたがった特別な修正はなされないことになる。本実施の形態では、変更なしとして記憶するようにしているが、適用フラグ「0」は表示規則が適用されないということを意味しているので、このような情報を記憶しないようにしてもよい。 On the other hand, when the application flag corresponding to the acquired word is “0”, it means that the extracted rule is “no change”, that is, no special display rule is applied, and there is no special correction according to the rule. Will not be. In this embodiment, the information is stored as no change, but the application flag “0” means that the display rule is not applied. Therefore, such information may not be stored.
以上のように表示規則にしたがった修正(修正なしの場合もあり)がなされると、規則適用単語テーブル170に登録されているすべての単語について上記表示規則に従った修正処理をなしたか否かを判別する(ステップS304)。そして、すべての登録単語について処理が終了していない場合には、規則適用単語テーブル170から次の単語を取得し(ステップS305)、ステップS302以降の処理を行う。 When correction according to the display rule is performed as described above (there may be no correction), whether or not correction processing according to the display rule has been performed for all the words registered in the rule application word table 170. Is determined (step S304). If the processing has not been completed for all the registered words, the next word is acquired from the rule application word table 170 (step S305), and the processing after step S302 is performed.
一方、すべての登録単語について処理が終了した場合には、当該表示態様決定処理を終了する。このような処理を行うことで、要求処理部120の検索結果を表示すべき内容、つまり表示画面の構成要素に含まれる単語のうち、認識辞書160に格納されている単語については、表示規則にしたがって表示態様の修正処理(規則適用のない場合よりもフォント2サイズ大きく、かつボールド化)がなされる。
On the other hand, when the process is completed for all registered words, the display mode determination process is terminated. By performing such processing, the contents to be displayed for the search result of the
以上のように表示制御部130によって、検索結果の表示画面の構成要素に含まれる単語をうち、音声認識可能な単語が他の単語と異なる態様(フォント、字体)で表示されるよう表示内容が制御される。そして、表示制御部130によって制御された内容の表示画面が表示部140に表示される。ここで、図11に表示部140の表示内容の一例を示す。同図に示すように、テレビ番組の検索結果表示画面中の単語のうち、認識辞書160に格納されている単語、つまり音声認識可能な単語(「NBS」、「SBS」といった放送局名、「ドラマ」といったジャンル名、「しん」や「黄門様」といった番組名等の単語)がボールド化され、かつ2サイズ大きいフォントで強調表示される。
As described above, the display content is displayed by the
以上説明したように本実施の形態では、ユーザが処理要求をなすと、要求処理部120によって当該要求が処理され、その処理結果(上記例では、テレビ番組の検索結果)が表示部140に表示される。そして、このような表示画面に含まれる単語のうち、当該音声認識装置10で認識することが可能な単語を他の単語とは異なる態様で表示することができる(図11参照)。これにより、当該表示を参照したユーザは、自己の要求に対する結果を知ることができるとともに、音声認識が可能な単語を知ることができる。
As described above, in the present embodiment, when the user makes a processing request, the
したがって、音声認識が可能な単語をユーザに報知するために特別のリストを表示させたり、ヘルプ発話で補助画面を表示させたりする必要がなく、本来必要な情報提供を妨げることなく、音声認識可能な単語をユーザに報知することができる。また、認識可能単語を報知するための特別画面等が不要となるので、画面デザインが大きく損なわれてしまうことも抑制できる。 Therefore, it is not necessary to display a special list to inform the user of words that can be recognized by voice, or to display an auxiliary screen with help utterances, and it is possible to recognize voice without disturbing provision of necessary information. Simple words can be notified to the user. In addition, since a special screen or the like for notifying a recognizable word is not required, it is possible to prevent the screen design from being greatly impaired.
特に、音声認識に不慣れなユーザや、音声認識が搭載された機器そのものをほとんど利用したことのないユーザにとっては、画面を見ても何を言えば対象の機器が動作するのかが分からず困惑することが多い。本実施の形態では、認識可能な単語を他と異なる態様で表示(強調表示)してユーザに提示される。また、何らかの表示画面が表示される際には、上記のようにその表示画面に含まれる単語のうち、音声認識可能な単語が強調表示されて定時される、つまり当該音声認識装置の利用中は認識可能な単語が一貫して強調表示されるので、認識単語を調べるためにマニュアルを読み直すといった無駄な作業が軽減される。さらには、未知語の入力によって起こる誤動作を軽減できる可能性が高いなど多大な効果が期待できる。 In particular, users who are unfamiliar with voice recognition or users who have hardly used a voice recognition-equipped device itself are confused because it is difficult to understand what the target device will work by looking at the screen. There are many cases. In the present embodiment, recognizable words are displayed (highlighted) in a different manner from others and presented to the user. In addition, when any display screen is displayed, among the words included in the display screen as described above, words that can be recognized by voice are highlighted and fixed, that is, while the speech recognition device is being used. Since recognizable words are consistently highlighted, useless work such as re-reading the manual to check the recognized words is reduced. Furthermore, a great effect can be expected, such as a high possibility of reducing malfunctions caused by the input of unknown words.
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。図12は、本発明の第2の実施の形態にかかる音声認識装置20の構成を示すブロック図である。同図に示すように、第2の実施の形態における音声認識装置20は、上記第1の実施の形態における音声認識装置10の構成に加え、読み方頻度管理部210と、表示読み方決定部220と、読み履歴記憶部230とを備えており、また認識辞書160に代えて認識辞書260、規則適用単語テーブル170に代えて規則適用単語テーブル270を備える点で第1の実施の形態と相違している。なお、第2の実施の形態において、第1の実施の形態と共通する構成要素には同一の符号をつけてその説明を省略する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. FIG. 12 is a block diagram showing a configuration of the
本実施の形態における認識辞書260は、1つの認識対象単語に複数の読み方が対応つけられている。ここで、図13に認識辞書260に格納されるデータの一例を示す。同図に示すように、認識辞書260には、1つの認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」について、3つの読み方「げつようひすてりーげきじょう」、「こくはつべんごにんしりーず」、「いのくまふみあきふぁいぶ」が対応つけられている。かかる認識辞書260を参照する音声認識部110は、ユーザによって上記3つの読み方のいずれで発声された場合にも、「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」という認識対象単語を認識することができる。
In the recognition dictionary 260 in the present embodiment, a plurality of readings are associated with one recognition target word. Here, FIG. 13 shows an example of data stored in the recognition dictionary 260. As shown in the figure, the recognition dictionary 260 has three words “Montsu Hysteria Theater“ Indictment Defense Lawyer Series:
読み方頻度管理部210には、音声認識部110によって認識された結果が供給される。読み方頻度管理部210は、音声認識部110の認識結果に含まれる単語(図2の認識対象単語)と、その認識の際にユーザが発声した読み方との組み合わせとを読み履歴記憶部230に加算する形で更新する。つまり、本実施の形態では、上記のように1つの認識対象単語について複数の読み方が対応つけられており、上記のような組み合わせ出現頻度を管理することで、認識対象単語を認識させるためにユーザが最も多く利用した読み方を把握することができる。
A result recognized by the
読み履歴記憶部230には、上記のように読み方頻度管理部210によって管理される認識対象単語と読み方との組み合わせが出現した頻度が記憶されている。ここで、読み履歴記憶部230の記憶内容の一例を図14に示す。同図に示すように、読み履歴記憶部230は、認識対象単語と読み方との組み合わせ、およびその頻度に加え、読み方対応文字列といった情報が対応つけて格納されている。ここで、読み方対応文字列とは、読み方に対応する区間の文字列である。
The reading history storage unit 230 stores the frequency of occurrence of combinations of recognition target words and readings managed by the reading
音声認識部110によって音声認識がなされた場合、その認識内容に応じて以上のような読み履歴記憶部230の頻度が上記読み方頻度管理部210によって更新される。例えば、図示のような記憶がなされている状態において、ユーザが「にほんまるみえ」と発声し、当該発声に応じて「日本丸見え!テレビ特派員」という認識対象単語が認識された場合、読み方「にほんまるみえ」に対応する頻度が「5」から「6」に更新されるのである。
When speech recognition is performed by the
表示読み方決定部220は、読み履歴記憶部230に記憶された内容を参照し、規則適用単語テーブル270に登録された単語のうち、複数の読み方を有する単語に対して、規則適用対象文字列をあらかじめ決められた基準にしたがって書き込む処理を行う。なお、規則適用単語テーブル270の認識対象単語および読み方は、上記第1の実施の形態と同様の手順で規則適用単語決定部131によって登録されている。
The display /
ここで、本実施の形態における規則適用単語テーブル270の登録内容の一例を図15に示す。同図に示すように、第2の実施の形態における規則適用単語テーブル270は、上記第1の実施の形態のテーブル内容(図4参照)に加え、規則対象文字列という項目が追加されたものとなっており、表示読み方決定部220は当該項目にあらかじめ決められた基準にしたがって決定される規則対象文字列を書き込む処理を行うのである。
Here, an example of the registered contents of the rule application word table 270 in the present embodiment is shown in FIG. As shown in the figure, the rule application word table 270 in the second embodiment is obtained by adding an item of a rule target character string in addition to the table contents of the first embodiment (see FIG. 4). The display /
本実施の形態では、規則適用単語テーブル270に登録された複数の読み方を有する単語(例えば、「日本丸見え!テレビ特派員」)について、読み履歴記憶部230を参照し、最も頻度の多い読み方(「にほんまるみえ」)に対応する文字列(「日本まる見え」)を、規則対象文字列に書き込む処理を行うのである。 In the present embodiment, a word having a plurality of readings registered in the rule application word table 270 (for example, “Nippon Maruhi! TV correspondent”) is referred to the reading history storage unit 230 and read most frequently ( The character string corresponding to “Nihon Marumi”) (“Nippon Maru Appearance”) is written into the rule target character string.
第2の実施の形態における表示態様決定部132は、上記のように書き換えられた単語後が登録された規則適用単語テーブル270を参照し、上記第1の実施の形態と同様、表示規則記憶部180に記憶された表示規則に基づいて表示態様を決定する。
The display
なお、第2の実施の形態における要求処理用情報記憶部190には、上記第1の実施の形態と同様、テレビ番組を検索するための番組データベースが格納されており、その内容の一例を図16に示す。同図に示すように、この番組データベースには、上記第1の実施の形態と同様、ID、番組名、放送日時、放送局、ジャンルおよび出演者といったテレビ番組に関する項目の情報が含まれており、上記のように複数の読み方を有する認識対象単語(「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」など)も含まれている。
Note that the request processing
以上が第2の実施の形態にかかる音声認識装置20の構成であり、以下当該音声認識装置20の動作について具体例を挙げながら説明する。ここでは、要求処理部120がユーザからの音声入力によるテレビ番組検索要求、例えばジャンルや出演者を指定した番組検索要求に対する処理を行い、その処理結果であるテレビ番組検索結果を表示部140に表示する場合を例に挙げて説明する。
The above is the configuration of the
まず、ユーザが音声入力部100に向けて、所望の検索のための情報、つまり所望番組のジャンル、出演者、チャンネル、放送時刻、番組名等の情報を発声する。ここでは、複数の読み方を有する認識対象単語「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」を認識させるために「げつようひすてりーげきじょう」といった発声をしたものとする。
First, the user utters information for a desired search toward the
この場合、音声認識部110によって「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」が認識され、検索条件文言として要求処理部120に供給される。要求処理部120は、かかる検索条件文言にしたがって検索処理を行う。
In this case, the “Monday Hystery Theater Prosecution Attorney Series /
音声認識部110によって上記のような音声認識がなされた場合、読み方頻度管理部210は、かかる認識結果に応じて読み履歴記憶部230の記憶内容を更新する。このように音声認識部110によって音声認識がなされた場合における読み方頻度管理部210の処理について図17を参照しながら説明する。
When the
まず、音声認識部110による最初の単語の認識結果、つまり認識対象単語とその認識の際になされた読み方を取得する(ステップS401)。ここでは、認識対象単語である「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」と、その際の読み方「げつようひすてりーげきじょう」を取得する。
First, the recognition result of the first word by the
次に、取得した認識結果である認識対象単語と読み方の組み合わせ、つまり「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」と「げつようひすてりーげきじょう」との組合せ頻度が以前に何回出現していたかを示す情報を読み履歴記憶部230(図14参照)から取得する(ステップS402)。
Next, how many times the combination frequency of the recognition target word and the reading that is the acquired recognition result, that is, the combination frequency of “Monday Hystery Theater Prosecution Defense Attorney Series ・
そして、取得した頻度に1を加算し、加算後の値を上記組み合わせに対応する頻度に上書きし、読み履歴記憶部230の記憶内容を更新する(ステップS403)。図14に示すような状態である場合には、認識対象単語と読み方「げつようひすてりーげきじょう」の組み合わせに対応する頻度「1」が取得され、これに1が加算されることで、頻度が「2」に更新される。 Then, 1 is added to the acquired frequency, the value after the addition is overwritten on the frequency corresponding to the combination, and the storage content of the reading history storage unit 230 is updated (step S403). In the state as shown in FIG. 14, the frequency “1” corresponding to the combination of the recognition target word and the reading “Getsuyo Histeri Gekijo” is acquired, and 1 is added to this. The frequency is updated to “2”.
このように更新が行われると、音声認識部110の認識結果に含まれる単語すべてについて上記のような処理を行ったか否かを判別し(ステップS404)、すべての単語について処理済であれば当該処理を終了する。一方、すべての単語について処理を行っていない場合には、音声認識部110の認識結果に含まれる次の認識対象単語と読み方の組み合わせを取得し(ステップS405)、当該組み合わせについてステップS402以降の処理を行う。上記例の場合、ユーザは「げつようひすてりーげきじょう」という言葉を発したのみであるため、認識対象単語は1つであり、上記ステップS404の判別は「Yes」となり、読み方頻度管理部210の処理は終了することになる。
When the update is performed in this way, it is determined whether or not the above-described processing has been performed on all the words included in the recognition result of the speech recognition unit 110 (step S404). The process ends. On the other hand, if not all the words have been processed, the next recognition target word and reading combination included in the recognition result of the
また、上記のような音声認識部110による認識結果は要求処理部120に供給され、上記第1の実施の形態と同様、認識結果に含まれる要求に応じた処理結果を表示するための構成要素を表示制御部130に出力する。これを受けた規則適用単語決定部131は、上記第1の実施の形態と同様、表示画面の構成要素に含まれる単語を、適用フラグとともに規則適用単語テーブル270に登録する。
Further, the recognition result by the
第2の実施の形態では、第1の実施の形態と異なり、表示読み方決定部220が上記のように規則適用単語テーブル270に登録された単語について、規則対象文字列を書き込む処理を行う。このような表示読み方決定部220による処理について図18を参照しながら説明する。ここで、要求処理部120によって図19に示すような処理結果を表示するための構成要素が作成され、その結果規則適用単語テーブル270に図15に示すような登録がなされた場合を例に挙げて説明する。
In the second embodiment, unlike the first embodiment, the display /
まず、表示読み方決定部220は、規則適用単語テーブル270に格納された最初の単語である「2件」を取得する(ステップS501)。そして、規則適用単語テーブル270における取得単語に対応する規則適用対象文字列の項目に、その単語全部(「2件」)をそのまま仮登録する(ステップS502)。
First, the display
そして、読み履歴記憶部230に記憶されている最初の認識対象単語(図14に示す例では「日本まる見え!テレビ特派員」)を取得し(ステップS503)、規則適用単語テーブル270から取得した単語(「2件」)と比較し、両者が一致するか否かを判別する(ステップS504)。 Then, the first recognition target word (in the example shown in FIG. 14, “Nippon Maru looks! TV correspondent”) stored in the reading history storage unit 230 is acquired (step S503) and acquired from the rule application word table 270. It is compared with the word (“2 cases”) and it is determined whether or not they match (step S504).
「2件」と「日本まる見え!テレビ特派員」のように両者が一致しない場合には、読み履歴記憶部230に記憶されたすべての単語について比較をなしたか否かを判別し(ステップS505)、全単語との比較が済んでいない場合には、読み履歴記憶部230に記憶されている次の単語を取得し(ステップS506)、ステップS504以降の処理を行う。 If the two do not match, such as “two cases” and “Japan Marutsu! TV correspondent”, it is determined whether or not all the words stored in the reading history storage unit 230 have been compared (steps). S505) If the comparison with all the words has not been completed, the next word stored in the reading history storage unit 230 is acquired (step S506), and the processes after step S504 are performed.
一方、ステップS504の判別において両単語が一致する場合、読み履歴記憶部230に記憶されている当該単語についての複数の読み方とそれぞれの読み方(および読み方対応文字列)に対応する頻度を参照し、その単語について最も頻度の値が大きい読み方に対応する読み方対応文字列を取得し、規則適用単語テーブル270の規則適用対象文字列に格納する(ステップS507)。上記例では、単語「日本まる見え!テレビ特派員」の複数の読み方のうち、最も頻度の値(5回)が大きい読み方「にほんまるみえ」に対応する読み方対応文字列「日本まる見え」が取得され、規則適用単語テーブル270の単語「日本まる見え!テレビ特派員」に対応する規則適用対象文字列に格納される。 On the other hand, if both words match in the determination of step S504, refer to a plurality of readings for the word stored in the reading history storage unit 230 and the frequencies corresponding to the respective readings (and reading corresponding character strings), A reading correspondence character string corresponding to the reading with the highest frequency value for the word is acquired and stored in the rule application target character string of the rule application word table 270 (step S507). In the above example, the reading-ready character string “Nippon Maru Appearance” corresponding to the reading “Nihon Maru Mie” with the highest frequency value (5 times) is obtained from the multiple readings of the word “Japan Maru Appearance! TV correspondent”. Then, it is stored in the rule application target character string corresponding to the word “Nippon Maru Appearance! Television Correspondent” in the rule application word table 270.
以上のように規則対象文字列に頻度の高い読み方に対応する文字列を格納した場合、もしくはステップS505において読み履歴記憶部230に記憶されているすべての単語と比較済みである場合には、規則適用単語テーブル270に登録されている単語について上記のような規則適用対象文字列の格納等の処理を行ったか否かを判別し(ステップS508)、すべての単語について処理済の場合には当該処理を終了する。一方、規則適用単語テーブル270に登録されている単語すべてについて処理を行っていない場合には、規則適用単語テーブル270から次の単語を取得し(ステップS509)、ステップS502以降の処理を行う。 As described above, when a character string corresponding to a high-frequency reading is stored in the rule target character string, or when all the words stored in the reading history storage unit 230 have been compared in step S505, the rule It is determined whether or not the processing such as storing the rule application target character string as described above has been performed on the words registered in the application word table 270 (step S508). If all the words have been processed, the processing is performed. Exit. On the other hand, if all the words registered in the rule application word table 270 have not been processed, the next word is acquired from the rule application word table 270 (step S509), and the processes after step S502 are performed.
このようにして規則適用単語テーブル270に登録されているすべての単語について規則適用対象文字列への文字列の書き込み等の処理が行われる。このような表示読み方決定部220による処理後の規則適用単語テーブル270の登録内容の一例を図20に示す。同図に示すように、認識辞書260に登録されていない単語「2件」等については、規則適用対象文字列は仮登録された「2件」のままであるのに対し、複数の読み方が認識辞書160に登録された単語「日本まる見え!テレビ特派員」については、認識可能な読み方のうち最も頻度の高い読み方に対応する文字列「日本まる見え」が規則適用対象文字列として登録される。なお、「スーパーテレビ・情報最前列」も複数の読み方を有する単語であるが、図示の例では最も頻度の高い読み方が「すーぱーてれびじょうほうさいぜんれつ」という単語全体に対応する読み方であった場合を示しており、当該読み方に対応する文字列、つまり単語全部が登録されている。
In this way, processing such as writing a character string into the rule application target character string is performed for all words registered in the rule application word table 270. An example of the registered contents of the rule application word table 270 after processing by the display
以上のように規則適用単語テーブル270に単語、規則適用文字列および適用フラグが登録されると、表示態様決定部132は、登録処理後の規則適用単語テーブル270を参照して、要求処理部120から供給された表示画面の構成要素中の各単語の表示態様を決定する処理を行う。かかる処理の詳細について図21を参照しながら説明する。
As described above, when the word, the rule application character string, and the application flag are registered in the rule application word table 270, the display
なお、この説明においては、表示規則記憶部180に図22に示すような規則等が格納されている場合を例に挙げて説明する。つまり、この表示規則記憶部180には、適用フラグが「1」の文字列等に対して適用される表示規則に加え、適用フラグが「0」の文字列等に対して適用すべき表示規則が記憶されており、表示態様決定部132は、このような表示規則記憶部180の記憶される規則にしたがって表示態様を決定する。
In this description, a case where rules such as those shown in FIG. 22 are stored in the display
表示態様決定部132が行う処理は、基本的には上記第1の実施の形態と同様であり(図10参照)と同様(ステップS601〜ステップS602はステップS301〜ステップS302に対応、ステップS604〜ステップS605はステップS304〜ステップS305に対応)であるが、ステップS603の処理が上記第1の実施の形態と相違している。
The processing performed by the display
すなわち、規則適用単語テーブル270に登録されている単語を取得し(ステップS601、ステップS605)、当該単語の適用フラグに対応する表示規則を抽出する(ステップS602)点までは同じであるが、抽出した表示規則を用いて表示態様を決定する文字列が相違する。より具体的には、上記第1の実施の形態では、当該単語の全部分について表示規則にしたがって表示態様を決定するようにしていたが、本実施の形態では規則適用単語テーブル270に格納された規則適用対象文字列について表示規則にしたがって表示態様を決定し、修正する(ステップS603)。 That is, it is the same until the word registered in the rule application word table 270 is acquired (steps S601 and S605) and the display rule corresponding to the application flag of the word is extracted (step S602). The character strings that determine the display mode using the display rules are different. More specifically, in the first embodiment, the display mode is determined according to the display rule for all parts of the word, but in this embodiment, the display mode is stored in the rule application word table 270. The display mode is determined and corrected according to the display rule for the rule application target character string (step S603).
例えば、図23に示すように、規則適用単語テーブル270から取り出した単語が「日本まる見え!テレビ特派員」の場合、適用フラグが「1」であり、規則適用対象文字列が「日本まる見え!」であるため、適用フラグ「1」に対応する表示規則、つまり認識辞書260に登録された単語に適用される表示規則に従って「日本まる見え!」の部分のみのフォントサイズが2つ大きくなされ、かつボールド化される。一方、取り出した「2件」の場合、適用フラグ「0」であり、規則適用対象文字列が単語の全部である「2件」であるので、認識辞書260に登録された単語用の表示規則は適用されず、それ以外の単語に適用される規則が適用される。したがって、フォントサイズが2つ小さく表示される。 For example, as shown in FIG. 23, if the word extracted from the rule application word table 270 is “Japan Maru looks! Television correspondent”, the application flag is “1” and the rule application target character string is “Japan Maru Appearance”. Therefore, according to the display rule corresponding to the application flag “1”, that is, the display rule applied to the word registered in the recognition dictionary 260, the font size of only the part “Japan looks!” Is increased by two. And bolded. On the other hand, in the case of “2 cases” taken out, the application flag is “0”, and the rule application target character string is “2 cases” that is all the words, so the display rules for the words registered in the recognition dictionary 260 are displayed. Does not apply, and rules that apply to other words apply. Therefore, the font size is displayed two smaller.
また、取得された単語が「スーパーテレビ・情報最前列」の場合、適用フラグは「1」であるので、認識辞書260に登録された単語用の表示規則が適用されるが、規則適用対象文字列が単語の全部分「スーパーテレビ・情報最前列」であるので、結果としては上記第1の実施の形態と同様、単語全体のフォントサイズが2つ大きく、かつボールド化されて表示される。 In addition, when the acquired word is “super TV / information front row”, the application flag is “1”, so the display rule for the word registered in the recognition dictionary 260 is applied. Since the column is the entire word portion “super TV / information front row”, the result is that the font size of the entire word is two larger and bolded as in the first embodiment.
以上説明したように本実施の形態では、ユーザが処理要求をなすと、要求処理部120によって当該要求が処理され、その処理結果(上記例では、テレビ番組の検索結果)が表示部140に表示される。そして、このような表示画面に含まれる単語のうち、当該音声認識装置20で認識することが可能な単語を、その単語を認識させるために必要な文字列を他の文字等とは異なる態様で表示することができる(図23参照)。これにより、当該表示を参照したユーザは、自己の要求に対する結果を知ることができるとともに、音声認識が可能な単語を知ることができるとともに、どのような読み方をすればその単語を認識させることができるかを知ることができる。
As described above, in the present embodiment, when the user makes a processing request, the
したがって、上記第1の実施の形態と同様、本来必要な情報の提供を妨げえることなく、かつ画面デザインが大きく損なわれしまうことを抑制しつつ、ユーザに認識可能な単語を報知することができ、さらにその単語を認識させるのに必要な読み方を報知することができる。 Therefore, as in the first embodiment, it is possible to notify a user of a recognizable word while preventing the provision of necessary information and suppressing the screen design from being greatly impaired. Further, it is possible to notify the reading necessary for recognizing the word.
さらに、本実施の形態では、認識可能な単語を認識させるのに必要な単語の読み方として、ユーザが最も多く利用した読み方に対応する文字列が他と異なる態様で表示されるので、最も利用しやすいと考えられる読み方をユーザに伝えることもできる。すなわち、ユーザによって読み方に違いがある場合に、単語全体だけではなく必要な部分のみを強調することで、認識可能な単語を他の認識対象外の単語と区別してよりわかりやすく表示できる。また、番組名のように単語自体が長い場合、全部を発声するのは煩雑であり、特に長い単語を何度も発声しなくてはならないと面倒である。そこで、本実施の形態のように、部分文字列の発声により全体の単語を認識できるようにするとともに、その部分的な読み方を報知することで、長い単語を何度も認識させる必要があるような場合に特に好適である。 Furthermore, in this embodiment, as a way of reading a word necessary for recognizing a recognizable word, a character string corresponding to the reading most frequently used by the user is displayed in a different form from the other, so that it is most used. Users can be told how to read easily. That is, when there is a difference in reading depending on the user, by emphasizing not only the whole word but only a necessary part, recognizable words can be distinguished from other words not recognized and displayed more clearly. Moreover, when a word itself is long like a program name, it is troublesome to utter the whole word, and it is particularly troublesome if a long word has to be uttered many times. Therefore, as in this embodiment, it is necessary to recognize the entire word by uttering the partial character string and to recognize the long word many times by notifying the partial reading. In this case, it is particularly suitable.
(第3の実施の形態)
次に、本発明の第3の実施の形態について説明する。図24は、本発明の第3の実施の形態にかかる音声認識装置30の構成を示すブロック図である。同図に示すように、第3の実施の形態における音声認識装置30は、上記第1の実施の形態における音声認識装置10の構成に加え、単語重要度決定部310と、単語重要度記憶部320と、重要度決定規則記憶部330とを備え、第1の実施の形態における表示規則記憶部180に代えて表示規則記憶部380を備えている。なお、第3の実施の形態において、第1の実施の形態と共通する構成要素には同一の符号をつけてその説明を省略する。
(Third embodiment)
Next, a third embodiment of the present invention will be described. FIG. 24 is a block diagram showing a configuration of a
単語重要度決定部310には、ユーザからの要求に対応する要求処理部120の処理結果が供給される。単語重要度決定部310は、重要度決定規則記憶部330に記憶されている重要度決定規則にしたがい、処理結果の表示画面の構成要素に含まれる単語について重要度を決定し、これを単語重要度記憶部320に記憶させる。単語重要度決定部310は、このような重要度決定の際に必要であれば、要求処理用情報記憶部190に格納されている情報や要求処理部120が過去に行った処理内容等を参照する。
The word
重要度決定規則記憶部330には、上記のように単語の重要度を決定するための規則が格納されている。ここで、図25は重要度決定規則記憶部330に格納される規則の一例を示す。同図に示すように、重要度決定規則は、重要度の値と、それに対応する規則内容とを含んでいる。
The importance determination
図示の例は、テレビ番組をジャンル等をキーワードとして検索する処理を要求処理部120が行う場合の規則の一例であり、重要度決定の対象となる単語の属性が、すでに入力済みの属性であれば、重要度が20に決定されるという規則や、対象となる単語の属性が、直前にジャンル属性が入力された場合のサブジャンル属性であれば重要度が80に決定されるという規則である。
The illustrated example is an example of a rule when the
例えば、重要度決定の対象となる単語が、テレビ番組の検索キーワード「スポーツ」であった場合に、それ以前に同一の「スポーツ」という単語が要求処理部120に入力されている場合、再度同じ単語が入力されるケースは少ないと考えられるので、このような単語については重要度が低く決定される。一方、直前に検索キーワードとしてあるジャンル名「スポーツ」などが入力された場合、その下位概念のジャンルであるサブジャンル例えば「野球」、「サッカー」などは検索キーワードとして入力される可能性が高い。したがって、このような属性の単語である場合には、その単語の重要度は高く決定される。
For example, if the word whose importance is to be determined is the search keyword “sports” of a television program, and the same word “sports” has been input to the
以上のように重要度決定規則としては、過去の入力内容等をも考慮し、要求処理部120が処理を行うにあたって、ユーザから入力される可能性の大小等に応じてあらかじめ類型化された単語の属性などの規則内容と、それに対応する重要度が対応つけられたものとなっており、このような規則を用いて単語の重要度を決定することで、その時々の状況に応じて次に入力される可能性が大きい単語については重要度を高く、入力可能性の低い単語については重要度を低くといった重要度決定が可能となる。
As described above, the importance determination rule also takes into account past input contents and the like, and the words categorized in advance according to the possibility of input from the user when the
このような重要度規則にしたがって決定された重要度が単語重要度記憶部320に記憶される。ここで、図26に単語重要度記憶部320の記憶内容の一例を示す。同図に示すように、単語重要度記憶部320には、上記のような重要度規則を参照することで単語重要度決定部310により決定された各単語の重要度が、各単語に対応つけて格納される。
The importance determined according to such importance rules is stored in the word importance storage unit 320. Here, FIG. 26 shows an example of the stored contents of the word importance storage unit 320. As shown in the figure, in the word importance storage unit 320, the importance of each word determined by the word
本実施の形態における表示態様決定部132は、上記第1の実施の形態と同様、規則適用単語決定部131により規則適用単語テーブル170に登録された単語について、表示規則記憶部380に記憶された表示規則および単語重要度記憶部320記憶された単語重要度に基づいて表示態様を決定する。
The display
ここで、本実施の形態における表示規則記憶部380に記憶される内容の一例を図27に示す。同図に示すように、表示規則記憶部380には、4つの規則が記憶されている。まず、1つ目の規則は、認識辞書160に登録されていない単語(適用フラグ「0」)に用いられる規則であり、当該単語についてはフォントを2つ小さくする旨が規定されている。
Here, an example of the contents stored in the display
他の3つの規則は、認識辞書160に登録されている単語(適用フラグ「1」)について適用される表示規則であり、重要度の範囲に応じて3種類の規則が規定されている。重要度が50以上80未満の場合には、フォントを2つ大きくし、かつボールド化して表示する旨が、重要度が80以上の場合にはフォントを4つ大きくし、かつボールド化して表示する旨が規定されている。また、重要度が50未満の場合には、「なし」、つまり通常の状態と変更しない旨が規定されている。このように本実施の形態では、重要度が大きいほど、より強調された表示がなされるような規則が設定されている。 The other three rules are display rules that are applied to words registered in the recognition dictionary 160 (application flag “1”), and three types of rules are defined according to the importance range. When the importance is 50 or more and less than 80, the font is increased by two and displayed in bold. When the importance is 80 or more, the font is increased by four and displayed in bold. It is stipulated. Further, when the importance is less than 50, “None”, that is, not changing to the normal state is defined. As described above, in this embodiment, a rule is set such that the higher the importance, the more emphasized display is made.
本実施の形態における表示態様決定部132は、このような表示規則記憶部380に記憶された規則にしたがい、要求処理部120の処理結果を表示する画面の構成要素に含まれる単語について表示態様の修正等を行う。このように認識辞書160に登録されている単語について重要度に応じて表示態様が修正等された単語等を含む要求処理部120の処理結果を示すための画像が表示部140に表示される。
In accordance with the rules stored in the display
以上が第3の実施の形態にかかる音声認識装置30の構成であり、以下当該音声認識装置30の動作について具体例を挙げながら説明する。ここでは、要求処理部120がユーザからの音声入力によるテレビ番組検索要求、例えばジャンルや出演者を指定した番組検索要求に対する処理を行い、その処理結果であるテレビ番組検索結果を表示部140に表示する場合を例に挙げて説明する。
The above is the configuration of the
まず、ユーザが音声入力部100に向けて、所望の検索のための情報、つまり所望番組のジャンル、出演者、チャンネル、放送時刻、番組名等の情報を発声する。ここでは、検索キーワードとしてジャンル「今日のスポーツ」を認識させるために「きょうのすぽーつ」といった発声をしたものとする。
First, the user utters information for a desired search toward the
この場合、音声認識部110によって「今日のスポーツ」が認識され、検索キーワードとして要求処理部120に供給される。要求処理部120は、かかる検索キーワードにしたがって検索処理を行い、その結果、例えば図28に示すような処理結果を表示すべき画面の構成要素が作成される。
In this case, “today's sport” is recognized by the
なお、本実施の形態における要求処理部120は、上位概念のジャンル、例えば「スポーツ」と、上位概念のジャンルに属する下位概念のサブジャンル、例えばジャンル「スポーツ」のサブジャンル「野球」などといった複数階層のジャンルを検索キーワードとして検索できるようになっている。したがって、本実施の形態における要求処理部120は、図29に示すように、第1の実施の形態のテンプレート(図7参照)とは異なる表示画面の構成要素のテンプレートを保持しており、かかるテンプレートを利用して表示画面の構成要素を生成する。
It should be noted that the
同図に示すように、かかるテンプレートは、上記第1の実施の形態のテンプレートの各項目に加え、「サブジャンル」を配置すべき領域が設けられている。したがって、図28に示すように、テンプレートの「ジャンル」項目には、上位概念のジャンルである「スポーツ」が当てはめられ、「サブジャンル」にはその下位概念のジャンルである「野球」や「サッカー」が当てはめられることで、表示画面が構成される。 As shown in the figure, in addition to the items of the template of the first embodiment, such a template is provided with a region where “sub-genre” is to be arranged. Accordingly, as shown in FIG. 28, the “genre” item of the template is applied to “sports” that is a genre of the higher concept, and “subgenres” are “baseball” and “soccer” that are genres of the lower concept. "Is applied, the display screen is configured.
このような要求処理部120による処理結果は単語重要度決定部310にも供給されるとともに、要求処理部120から過去の処理内容等(既に番組検索クエリとしてジャンル属性、日付属性の値が決定済であるなど)の情報が供給される。単語重要度決定部310は、処理結果に含まれる単語について重要度を決定する処理を行うが、かかる処理の内容について図30を参照しながら説明する。
The processing result by the
まず、要求処理部120によって作成された処理結果表示画面の構成要素に含まれる単語であり、かつ認識辞書160に登録されている単語の中から最初の単語を取得する(ステップS701)。例えば、認識辞書160に図31に示すような内容が登録されており、表示画面が図28に示すようなものであれば、「Jリーグ鹿島×東京」が取得される。
First, the first word is acquired from the words included in the components of the processing result display screen created by the
次に、単語重要度記憶部320に取得した単語を登録するとともに、取得した単語に対応する重要度を初期化する(ステップS702)。この後、重要度決定規則記憶部330に記憶されている複数の規則内容(図25参照)の中から最初の規則内容を取得し(ステップS703)、取得した単語が取得した規則内容を満たすか否かを判別する(ステップS704)。 Next, the acquired word is registered in the word importance storage unit 320, and the importance corresponding to the acquired word is initialized (step S702). Thereafter, the first rule content is acquired from a plurality of rule contents (see FIG. 25) stored in the importance determination rule storage unit 330 (step S703), and whether the acquired word satisfies the acquired rule content It is determined whether or not (step S704).
ここで、取得した単語が取得した規則内容を満たさない場合、重要度決定規則記憶部330に記憶されているすべての規則内容について判断を行ったか否かを判別し(ステップS705)、すべての規則内容について判断していない場合には、重要度決定規則記憶部330に格納されている次の規則内容を取得し(ステップS706)、規則内容を満たすか否かの判別を行う(ステップS704)。
Here, if the acquired word does not satisfy the acquired rule contents, it is determined whether or not all the rule contents stored in the importance determination
一方、取得された単語が取得された規則内容を満たす場合には、重要度決定の対象となる単語の重要度をその規則内容に対応する重要度の値に決定し、それを単語重要度記憶部320に格納する(ステップS707)。例えば、対象単語がすでに要求処理部120に入力済みの属性値、つまり同じ単語が入力済みである場合には重要度20に対応する規則内容を満たしているので、当該単語については重要度が「20」に決定され、単語重要度記憶部320に重要度「20」が格納される。また、「Jリーグ鹿島×東京」が対象単語となっている場合、かかる単語の属性は番組名であり、ジャンル属性や日付属性ではないので、規則内容を満たさないと判断される。
On the other hand, when the acquired word satisfies the acquired rule content, the importance level of the word subject to importance determination is determined as the importance value corresponding to the rule content, and the word importance level storage is performed. The data is stored in the unit 320 (step S707). For example, if the target word has already been input to the
このように単語の重要度が決定されて単語重要度記憶部320に格納された場合、もしくはステップS705においてある単語についてすべての規則内容を満たすか否かの判断を終了したと判別された場合、認識辞書160に登録される単語であり、かつ表示画面の構成要素に含まれる単語のすべてについて重要度決定等の処理が終了したか否かを判別する(ステップS708)。
When the importance of the word is determined and stored in the word importance storage unit 320 as described above, or when it is determined in step S705 that the determination as to whether or not all the rule contents are satisfied is completed. It is determined whether or not the processing such as importance determination has been completed for all the words registered in the
ここで、すべての単語について処理が終了した場合には単語重要度決定部310による処理は終了する。一方、すべての単語について処理が終了していない場合には、表示画面の構成要素に含まれる単語であり、かつ認識辞書160に登録されている単語で未処理の単語を取得し(ステップS709)、当該単語についてステップS702以降の処理を行う。このようにして表示画面の構成要素に含まれ、かつ認識辞書160に登録される単語のすべてについて重要度決定処理が行われ、その結果が単語重要度記憶部320に格納される。
Here, when the processing is completed for all the words, the processing by the word
以上のように単語の重要度が決定されて単語重要度記憶部320に格納され、さらに上記第1の実施の形態と同様、規則適用単語決定部131により規則適用単語テーブル170に単語および適用フラグが登録されると、表示態様決定部132は、登録処理後の規則適用単語テーブル170、単語重要度記憶部320および表示規則記憶部380の記憶内容を参照して、要求処理部120から供給された表示画面の構成要素中の各単語の表示態様を決定する処理を行う。かかる処理の詳細について図32を参照しながら説明する。なお、ここでは、規則適用単語決定部131により、規則適用単語テーブル170に図33に示すような単語等が登録されている場合を例に挙げて説明する。
As described above, the degree of importance of the word is determined and stored in the word importance degree storage unit 320. Further, as in the first embodiment, the rule application
まず、規則適用単語テーブル170に登録されている最初の単語を取得し(ステップS801)、当該取得した単語の適用フラグ、および当該単語について単語重要度記憶部320に記憶されている重要度に基づいて、表示規則記憶部380(図27参照)から表示規則を抽出する(ステップS802)。例えば、最初の単語「3件」の適用フラグは「0」であるため、適用フラグ「0」に対応する表示規則が抽出される。なお、取得された単語が「Jリーグ鹿島×東京」の場合、適用フラグ「1」、単語重要度「50」であるので、適用フラグ「1」、重要度範囲「50以上80未満」に対応する表示規則が抽出される。 First, the first word registered in the rule application word table 170 is acquired (step S801), and based on the application flag of the acquired word and the importance stored in the word importance storage unit 320 for the word. The display rule is extracted from the display rule storage unit 380 (see FIG. 27) (step S802). For example, since the application flag of the first word “3 cases” is “0”, the display rule corresponding to the application flag “0” is extracted. If the acquired word is “J League Kashima × Tokyo”, the application flag is “1” and the word importance is “50”, so the application flag is “1” and the importance range is “50 to less than 80”. Display rules to be extracted.
このように表示規則を抽出すると、当該単語について抽出した表示規則にしたがった表示態様の修正を行う(ステップS803)。対象単語が「3件」である場合、フォントを2つ小さくして表示するといった修正が行われ、また対象単語が「Jリーグ鹿島×東京」である場合には、フォントを2つ大きくし、かつボールド化して表示されるよう表示態様が修正される。 When the display rule is extracted in this way, the display mode is corrected according to the display rule extracted for the word (step S803). When the target word is “3”, a correction is made such that the font is reduced by two, and when the target word is “J League Kashima × Tokyo”, the font is increased by two, In addition, the display mode is modified so that the display is bolded.
以上のように表示規則にしたがった修正(修正なしの場合もあり)がなされると、規則適用単語テーブル170に登録されているすべての単語について上記表示規則に従った修正処理をなしたか否かを判別する(ステップS804)。そして、すべての登録単語について処理が終了していない場合には、規則適用単語テーブル170から次の単語を取得し(ステップS805)、ステップS802以降の処理を行う。 When correction according to the display rule is performed as described above (there may be no correction), whether or not correction processing according to the display rule has been performed for all the words registered in the rule application word table 170. Is determined (step S804). If the processing has not been completed for all registered words, the next word is acquired from the rule application word table 170 (step S805), and the processing from step S802 is performed.
一方、すべての登録単語について処理が終了した場合には、当該表示態様決定処理を終了する。このような処理を行うことで、要求処理部120の検索結果を表示すべき内容、つまり表示画面の構成要素に含まれる単語のうち、認識辞書160に格納されている単語については、重要度に応じて表示態様の修正処理がなされる。
On the other hand, when the process is completed for all registered words, the display mode determination process is terminated. By performing such processing, the contents stored in the
以上のように表示制御部130によって、検索結果の表示画面の構成要素に含まれる単語をうち、音声認識可能な単語が他の単語と異なる態様であり、また重要度に応じた態様(フォント、字体等)で表示されるよう表示内容が制御される。そして、表示制御部130によって制御された内容の表示画面が表示部140に表示される。ここで、図34に表示部140の表示内容の一例を示す。同図に示すように、テレビ番組の検索結果表示画面中の単語のうち、認識辞書160に格納されている単語、つまり音声認識可能な単語であり、かつ重要度の高いサブジャンル「野球」や「サッカー」等(フォントサイズ4つ大きく)が最も大きく表示され、次に「Jリーグ鹿島×東京」等(フォントサイズ2つ大きく)の番組名が大きく表示される。
As described above, among the words included in the constituent elements of the search result display screen by the
以上説明したように本実施の形態では、ユーザが処理要求をなすと、要求処理部120によって当該要求が処理され、その処理結果(上記例では、テレビ番組の検索結果)が表示部140に表示される。そして、このような表示画面に含まれる単語のうち、当該音声認識装置30で認識することが可能な単語を他の単語とは異なる態様で表示することができる(図34参照)。これにより、当該表示を参照したユーザは、自己の要求に対する結果を知ることができるとともに、音声認識が可能な単語を知ることができる。
As described above, in the present embodiment, when the user makes a processing request, the
さらに本実施の形態では、単語の重要度が決定され、重要度に応じた態様、つまり重要度が大きいほど強調された形で表示されるので、重要度の高い認識可能な単語をユーザにより確実に報知することができる。 Further, in the present embodiment, the importance level of the word is determined, and the aspect according to the importance level, that is, the emphasized form is displayed as the importance level increases, so that the user can recognize a recognizable word having a high importance level. Can be notified.
また、本実施の形態では、重要度はすでに当該装置に入力された内容等を考慮し、あらかじめ種々のケースごとに次に入力される可能性が高いものの重要度が高く設定されるようになっているので、ある処理を実行する際に次に入力が必要となる可能性が高いものを強調して表示し、ユーザに報知することができる。逆に、入力される可能性が低いものについては強調表示がなされないので、より入力が必要となる可能性が高い単語をユーザに強く印象付けることができる。本実施の形態では、検索処理の際の入力可能性の大小(重要度の大小)を、直前等に入力されたキーワードの属性等などに応じて判定することで、検索処理を効率的に行うための重要度設定をなしうる。 Further, in the present embodiment, the importance is set to a high importance although it is highly likely that the importance will be input next in advance for each of various cases in consideration of the contents already input to the device. Therefore, it is possible to highlight and display the information that is likely to be input next when executing a certain process and notify the user. On the other hand, since words that are less likely to be input are not highlighted, words that are more likely to be input can be strongly impressed by the user. In the present embodiment, the search process is efficiently performed by determining the level of input possibility (importance level) in the search process according to the keyword attribute or the like input immediately before. The importance level can be set.
上記のように番組検索処理を例に考えると、前回発声して既に検索クエリに含まれる属性は、認識できるが番組を絞り込むという目的に対しては効果を及ぼさないので強調表示しなくてもよいから、重要度が低くなり、その結果表示態様も強調されない。また、スポーツといった上位ジャンルで検索された番組群はサブジャンルによって効果的に絞込みができるから、当該上位ジャンルのサブジャンルに属する単語の重要度を高く設定することで、処理目的達成のために効率的な認識対象単語がより強調されて表示される。このような表示をなすことで、素早く認識対象単語を見つけて検索することができ、要求した処理目的を効率的に達成することができる。 Considering the program search process as an example as described above, the attributes already included in the search query after the previous utterance can be recognized, but they do not have an effect for the purpose of narrowing down the programs, so they need not be highlighted. Therefore, the importance is lowered, and as a result, the display mode is not emphasized. In addition, since programs searched for in a higher genre such as sports can be narrowed down effectively by sub-genre, by setting the importance of words belonging to the sub-genre of the higher-level genre high, it is efficient to achieve the processing purpose. A typical recognition target word is displayed with more emphasis. By making such a display, it is possible to quickly find and search the recognition target word, and efficiently achieve the requested processing purpose.
(変形例)
なお、本発明は、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
(Modification)
In addition, this invention is not limited to each embodiment mentioned above, The various deformation | transformation which is illustrated below is possible.
(変形例1)
上述した第1の実施の形態においては、表示規則記憶部180には、認識辞書160に登録された単語に適用される表示規則は1種類であったが、登録された単語に適用する規則を複数種類用意するようにしてもよい。例えば、操作コマンド用単語と番組属性単語を異なる形態で表示するような規則を設け、これらの単語の表示態様を異ならせるようにしてもよい。
(Modification 1)
In the first embodiment described above, the display
(変形例2)
また、上述した各実施の形態では、表示規則として、フォントの大小、ボールド化といったことを規定するようにしていたが、異なる態様で表示させることができればよく、例えば斜体表示、網掛け表示等を用いるようにしてもよい。さらには、配色を設定したり、認識単語が表示されているオブジェクト(ボタンなど)の大きさそのものを変更するなど他と区別される表示態様であればいかなるものでもよい。
(Modification 2)
Further, in each of the above-described embodiments, the font size and bolding are defined as the display rule. However, it is only necessary that the display can be displayed in different modes. For example, italic display, shading display, etc. You may make it use. Furthermore, any display mode may be used as long as it is distinguished from others, such as setting a color scheme or changing the size of the object (button or the like) on which the recognition word is displayed.
(変形例3)
また、上述した第2の実施の形態では、表示読み方決定部220が、認識対象単語を認識させる際にユーザが過去に最も多く利用した読み方(頻度が最も高い読み方)に決定するという基準で、表示態様を異ならせる(表示規則にしたがって表示態様を決定する)文字列を決めていたが、これ以外の基準で表示態様を異ならせるようにしてもよい。
(Modification 3)
In the second embodiment described above, the display /
例えば、認識対象単語の前方側の文字列を読み方として決定するようにしてもよい。具体的には、認識対象単語が「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」の場合、3つの読み方「げつようひすてりーげきじょう」、「こくはつべんごにんしりーず」、「いのくまふみあきふぁいぶ」のうち、前方側の文字列のみから構成される読み方「げつようひすてりーげきじょう」を選択するようにしてもよい。
For example, the character string on the front side of the recognition target word may be determined as a reading method. Specifically, if the word to be recognized is “Monday Hysteria Theater“ The Condemnation Defense Attorney Series,
また、認識対象単語の文字数があらかじめ決められた数より多い(例えば10文字以上)場合にのみ、単語全部以外の部分的な文字列を表示を異ならせる文字列として選択するようにしてもよく、この場合当該認識対象単語の複数の読み方のうち、最も短い文字列を選択するといったような基準で規則適用対象文字列を決定するようにしてもよい。 Further, only when the number of characters of the recognition target word is larger than a predetermined number (for example, 10 characters or more), a partial character string other than the entire word may be selected as a character string to be displayed differently. In this case, the rule application target character string may be determined on the basis of selecting the shortest character string among a plurality of readings of the recognition target word.
(変形例4)
また、上記第2の実施の形態や変形例3のように複数の読み方がある場合にいずれか1つの読み方に絞り、絞った文字列についてのみ表示態様を異ならせるのではなく、複数の読み方がある場合に2つ以上の読み方をユーザに報知できるような態様で表示させるようにしてもよい。
(Modification 4)
In addition, when there are a plurality of readings as in the second embodiment or the third modification, the reading mode is not limited to only one reading method and the display mode is changed only for the narrowed character string. In some cases, two or more readings may be displayed in such a manner that the user can be notified.
例えば、上記のように3つの読み方で認識が可能な単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」を表示する場合には、図35に示すように、可能な読み方を認識対象単語の文字列の上下部分に枠401で範囲指定するといったようにすればよい。また、これらの3つの読み方の表示色を異ならせるといった手法を用いることができ、例えば認識辞書160に登録されていない単語が黒色で表示されている場合においては、「月曜ヒステリー劇場」を赤色、「告発弁護人シリーズ」を緑色、「猪熊文明5」を黄色で表示するといったようにしてもよい。
For example, when the word “Monday hysterical theater“ accusal defense lawyer series,
また、上記第2の実施の形態では、当該装置のユーザの過去の読み方の頻度に基づいて表示態様を異ならせる文字列を決定するようにしていたが、他の装置のユーザの過去の読み方頻度等を利用して表示態様を異ならせる文字列を決定するようにしてもよい。例えば、3つの読み方「げつようひすてりーげきじょう」、「こくはつべんごにんしりーず」、「いのくまふみあきふぁいぶ」のうち、多数のユーザが最も多く利用した読み方が「げつようひすてりーげきじょう」である場合には、これを表示態様を異ならせる文字列として決定するようにすればよい。なお、他の装置のユーザがどのような読み方をしたかといった情報はインターネットなどのネットワークを利用する等して当該装置に供給するようにすればよい。 In the second embodiment, the character string that changes the display mode is determined based on the frequency of past reading by the user of the device. However, the frequency of past reading by the user of another device is determined. The character string that changes the display mode may be determined using the above. For example, among the three readings "Getsuyo Histeri Gekijo", "Kokuhatsubengo Ninshirizu", and "Inokuma Fumiaki Faibu", the reading most used by many users In the case of “Getsuyo Histari Gekijo”, this may be determined as a character string that changes the display mode. Information such as how a user of another device has read may be supplied to the device by using a network such as the Internet.
(変形例5)
また、上述した各実施の形態では、認識対象単語を認識するための読み方がその単語の全部または一部分に対応するものであったが、認識対象単語の略称を発声することで当該認識対象単語が認識されるようにしてもよい。この場合、認識辞書160(260)の読み方の欄に、単語全体の読み方に加え、略称の読み方を加えるようにすればよい。例えば、認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」が一般的に「げつげき」等と略して称されている場合には、認識辞書160(260)の読み方に「げつげき」を加えるようにすればよい。
(Modification 5)
Further, in each of the above-described embodiments, the reading method for recognizing the recognition target word corresponds to all or a part of the word. However, by speaking the abbreviation of the recognition target word, the recognition target word is It may be recognized. In this case, in addition to reading the whole word, the reading of the abbreviation may be added to the reading column of the recognition dictionary 160 (260). For example, when the word to be recognized “Monday Hysteria Theater“ Prosecution of Defense Prosecutor Series /
そして、このような読み方をユーザに報知するため、認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」の上または下の部分に、当該単語を認識させるために用いることができる略称「げつげき」と表示させるような表示規則を設けておけばよい。このようにすれば、当該表示規則にしたがって表示態様決定部132が認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」」の表示態様を修正し、図36に示すような表示がなされる。
And in order to notify the user of such reading, it can be used for recognizing the word above or below the recognition target word “Monday Hysteria Theater“ Criminal Defense Attorney Series /
(変形例6)
また、上述した各実施の形態では、要求処理部120がユーザが入力した検索キーワード等に基づいた検索処理を行う構成であったが、要求処理部120がユーザの要求に応じて他の処理を行うような装置であっても本発明を適用することができる。例えば、エアコンディショナー装置に搭載される音声認識装置に本発明を適用することができる。
(Modification 6)
In each of the above-described embodiments, the
より具体的には、認識辞書160には「運転開始」、「運転停止」、「風量多く」、「設定温度アップ」、「設定温度ダウン」等の単語を登録しておき、ユーザのエアコンディショナー装置に対する要求に対して動作(運転等)を行うとともに、表示パネル等に要求に対する処理結果を表示させる(例えば、運転開始を要求した場合、運転を開始しました等のメッセージを表示させる)際、その画面に含まれる単語のうち、認識可能な単語を表示規則にしたがって他の単語と異なる態様で表示させるようにすればよい。
More specifically, words such as “operation start”, “operation stop”, “large air flow”, “setting temperature up”, “setting temperature down”, etc. are registered in the
また、上記のようなエアコンディショナー装置等に本発明を適用する場合において、第3の実施の形態のように単語の重要度を決定するという機能を持たせるときには、単語の重要度決定に際してその時点でのエアコンディショナー装置の動作状況を重要度決定の一つの要素としてもよい。例えば、運転中であれば、再度「運転開始」という単語が入力される可能性は低いのでその単語は重要度が低く設定されるのに対し、運転中には風量調整や温度調整等に関する単語の重要度が高く設定されるといった具合に動作状況を重要度の決定に反映させるようにしてもよい。 In addition, when the present invention is applied to the above-described air conditioner device or the like, when the function of determining the importance of a word is provided as in the third embodiment, the point in time at the time of determining the importance of the word The operating condition of the air conditioner device in the above may be used as one element for determining the importance. For example, while driving, the word "start driving" is unlikely to be input again, so the word is set to be less important, while words related to air volume adjustment, temperature adjustment, etc. during driving The operation status may be reflected in the determination of the importance level such that the importance level is set high.
(変形例7)
また、上記各実施の形態にかかる音声認識装置を、テレビ番組などの動画像を記録するレコーダ装置に搭載するようにしてもよい。ここで、図37に第1の実施の形態にかかる音声認識装置10を組み込んだレコーダ装置400の概略構成例を示す。同図に示すように、このレコーダ装置400は、上述した構成の音声認識装置10と、レコーダ部410と、チューナー部420とを備える。
(Modification 7)
In addition, the voice recognition device according to each of the above embodiments may be mounted on a recorder device that records a moving image such as a television program. Here, FIG. 37 shows a schematic configuration example of a recorder apparatus 400 incorporating the
チューナー部420は、ユーザの指示等にしたがって所定のテレビチャンネルを選択し、選択したチャンネルの動画像を受信する。放送等されるテレビ番組を視聴する際には、かかるチューナー部420によって受信された動画像が表示部140に供給され、テレビ番組等が表示される。
The
レコーダ部410は、上記のようにチューナー部420によって受信される動画像(テレビ番組等)を記録媒体に記録する。例えば、受信される動画像そのまま記録するのではなく、MPEG(Moving Pictures Experts Group)−2等の圧縮方式により圧縮し、圧縮した動画像データを記録する。なお、記録媒体としては、HD(Hard Disk)等であってもよいし、過般型の記録媒体(DVD−RAM(Digital Versatile Disc-RAM)など)であってもよい。
The
このような構成のレコーダ装置400において、ユーザは録画したい番組等の検索をなすことができる。このような検索を行う場合、録画したい番組の属性(ジャンル、名称、放送日時、出演者)に関する文言を発声することで、かかる発声内容が音声認識装置10により認識され、上記実施の形態で説明したように要求処理部120によって発声内容をキーワードとする検索がなされる。
In the recorder apparatus 400 having such a configuration, the user can search for a program or the like to be recorded. When performing such a search, the utterance content is recognized by the
そして、その検索結果が表示部140に表示されるが、その際表示制御部130によって音声認識可能な単語が他の文字等と異なる態様(強調された態様)で表示されるので、次に検索のための言葉を音声入力しようとする際にどの単語が入力可能なものであるかを認識することができる。そして、検索内容を発声することでテレビ番組の検索を行わせ、所望の番組が検索された場合には、それに対して録画するよう指示を発声する。これにより要求処理部120は、検索された番組を識別する情報を含む録画指示をレコーダ部410に送出し、レコーダ部410は要求処理部120の指示にしたがって録画を行う。
Then, the search result is displayed on the
(変形例8)
また、上述した各実施の形態では、音声認識装置に本発明を適用した場合について説明したが、表示制御部130、規則適用単語テーブル170、表示規則記憶部180を備えた表示制御装置として、音声入力部100、音声認識部110、辞書等を備えた音声認識装置とは分離した態様で製造、販売等して流通させるようにしてもよい。
(Modification 8)
In each of the above-described embodiments, the case where the present invention is applied to the speech recognition apparatus has been described. However, as the display control apparatus including the
(変形例9)
なお、上述した各実施の形態で行われる表示態様の制御処理は、専用のハードウェア回路によって行うようにしてもよいし、CPUがプログラムにしたがって動作することにより、処理が行われるように構成してもよい。また、コンピュータにこのような処理を実行させるためのプログラムをインターネット等の通信回線を介してユーザに提供するようにしてもよいし、当該プログラムをCD−ROM(Compact Disc-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に記録してユーザに提供するようにしてもよい。
(Modification 9)
The display mode control process performed in each of the above-described embodiments may be performed by a dedicated hardware circuit, or may be configured so that the process is performed when the CPU operates according to a program. May be. Further, a program for causing the computer to execute such processing may be provided to the user via a communication line such as the Internet, or the program may be provided as a CD-ROM (Compact Disc-Read Only Memory). It may be recorded on a computer-readable recording medium and provided to the user.
以上のように、本発明にかかる音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラムは、特に音声認識によって入力されたキーワードについて検索処理を行う機能等を備えた装置に適している。 As described above, the speech recognition device, display control device, recorder device, display method, and program according to the present invention are particularly suitable for a device having a function of performing a search process on a keyword input by speech recognition.
10 音声認識装置
20 音声認識装置
30 音声認識装置
100 音声入力部
110 音声認識部
120 要求処理部
130 表示制御部
131 規則適用単語決定部
132 表示態様決定部
140 表示部
150 音響辞書
160 認識辞書
170 規則適用単語テーブル
180 表示規則記憶部
190 要求処理用情報記憶部
210 読み方頻度管理部
220 表示読み方決定部
230 読み履歴記憶部
260 認識辞書
270 規則適用単語テーブル
310 単語重要度決定部
320 単語重要度記憶部
330 重要度決定規則記憶部
380 表示規則記憶部
400 レコーダ装置
401 枠
410 レコーダ部
420 チューナー部
DESCRIPTION OF
Claims (12)
入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、
入力された要求に対する要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、
を具備することを特徴とする音声認識装置。 A recognition dictionary that stores multiple words that are subject to speech recognition and how to read these words;
Speech recognition means for performing speech recognition processing with reference to the recognition dictionary for input speech;
Display rule storage means for storing a display rule defining a display mode of words stored in the recognition dictionary;
When displaying the request processing result for the input request on the display screen, if a word stored in the recognition dictionary is included in the display screen, the displayed rule is stored in the display rule storage unit. Display control means for determining a display mode according to stored display rules;
A speech recognition apparatus comprising:
入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、
前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、
入力された要求に対する前記要求処理手段による要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、
を具備することを特徴とする音声認識装置。 A recognition dictionary that stores multiple words that are subject to speech recognition and how to read these words;
Speech recognition means for performing speech recognition processing with reference to the recognition dictionary for input speech;
Display rule storage means for storing a display rule defining a display mode of words stored in the recognition dictionary;
Request processing means for processing a request based on the voice recognized by the voice recognition means;
When displaying the request processing result by the request processing means for the input request on the display screen, if the display screen includes a word stored in the recognition dictionary, the word included Display control means for determining a display mode according to the display rules stored in the display rule storage means;
A speech recognition apparatus comprising:
前記表示制御手段は、前記表示読み方対応文字列決定手段によって決定された文字列の表示態様を前記表示規則にしたがって決定する
ことを特徴とする請求項1または請求項2に記載の音声認識装置。 For words in which a plurality of types of readings are stored in the recognition dictionary, further comprising a display reading-compatible character string determination means for determining a character string based on a predetermined criterion,
The voice recognition apparatus according to claim 1, wherein the display control unit determines a display mode of the character string determined by the display reading correspondence character string determination unit according to the display rule.
前記表示読み方決定手段は、前記認識辞書に複数種類の読み方が格納される単語について、前記読み方頻度管理手段により記録されている読み方頻度が最も多い読み方に対応する文字列を前記表示規則にしたがって表示態様を決定すべき文字列して決定する
ことを特徴とする請求項3に記載の音声認識装置。 For words that can be read in a plurality of types in the recognition dictionary, it further comprises reading frequency management means for recording the frequency of reading input when recognized by the voice recognition means,
The display reading determination means displays a character string corresponding to the reading with the highest reading frequency recorded by the reading frequency management means for a word in which a plurality of types of readings are stored in the recognition dictionary according to the display rule. The speech recognition apparatus according to claim 3, wherein the mode is determined as a character string to be determined.
ことを特徴とする請求項3または4に記載の音声認識装置。 The display / reading determination means, for words whose number of characters constituting the word stored in the recognition dictionary is smaller than a predetermined value, how to read the whole word as a character string whose display mode should be determined according to the display rule The speech recognition apparatus according to claim 3 or 4, wherein the voice recognition apparatus is determined.
前記表示制御手段は、前記表示規則および前記重要度決定手段によって決定された重要度に基づいて表示態様を決定する
ことを特徴とする請求項1ないし5のいずれか一つに記載の音声認識装置。 Further comprising importance determining means for determining the importance of the words stored in the recognition dictionary;
The voice recognition apparatus according to claim 1, wherein the display control unit determines a display mode based on the display rule and the importance determined by the importance determination unit. .
ことを特徴とする請求項6に記載の音声認識装置。 The importance level determination means determines the importance level for words included in the result displayed on the display screen as a result of the request processing means for the input request based on the content of the request already input. The speech recognition apparatus according to claim 6.
ことを特徴とする請求項6または7に記載の音声認識装置。 The speech recognition apparatus according to claim 6, wherein the importance level determination unit determines the importance level based on an operation state of the request processing unit.
入力された要求に対する要求処理結果を表示画面に表示する際に、その表示内容を制御する表示制御手段と、
前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、
前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する
ことを特徴とする表示制御装置。 Speech recognition comprising a recognition dictionary for storing a plurality of words to be speech-recognized and how to read these words, and speech recognition means for performing speech recognition processing on the input speech by referring to the recognition dictionary A display control device for displaying words that can be recognized by the device,
Display control means for controlling the display contents when displaying the request processing result for the input request on the display screen;
A display rule storage means for storing a display rule for defining a display mode of words stored in the recognition dictionary;
The display control means, when the word to be stored in the recognition dictionary is included in the result to be displayed on the display screen, the display stored in the display rule storage means for the included word A display control device that determines a display mode according to a rule.
音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、
入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、
要求に対する前記要求処理手段による結果を表示画面に表示する際にその表示内容を制御する表示制御手段と、
前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、
前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する
ことを特徴とするレコーダ装置。 A recorder device that performs processing for storing an image,
A recognition dictionary that stores multiple words that are subject to speech recognition and how to read these words;
Speech recognition means for performing speech recognition processing with reference to the recognition dictionary for input speech;
Request processing means for processing a request based on the voice recognized by the voice recognition means;
Display control means for controlling the display contents when the result of the request processing means for the request is displayed on a display screen;
A display rule storage means for storing a display rule for defining a display mode of words stored in the recognition dictionary;
The display control means, when the word to be stored in the recognition dictionary is included in the result to be displayed on the display screen, the display stored in the display rule storage means for the included word A display device that determines a display mode according to a rule.
入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定する
ことを特徴とする表示方法。 Speech recognition comprising a recognition dictionary for storing a plurality of words to be speech-recognized and how to read these words, and speech recognition means for performing speech recognition processing on the input speech by referring to the recognition dictionary A method for displaying words that the device can recognize,
When the request processing result for the input request is displayed on the display screen, if the word to be stored in the recognition dictionary is included in the result to be displayed on the display screen, the included word A display method characterized by determining a display mode according to a predetermined display rule.
入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、音声認識処理に用いられる認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定する表示制御手段
として機能させることを特徴とするプログラム。 Computer
Included when the request processing result for the input request is displayed on the display screen, the result to be displayed on the display screen includes a word stored in the recognition dictionary used for the speech recognition processing A program that functions as a display control means for determining a display mode according to a display rule determined in advance for a word that is stored.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004054499A JP2005242183A (en) | 2004-02-27 | 2004-02-27 | Voice recognition device, display controller, recorder device, display method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004054499A JP2005242183A (en) | 2004-02-27 | 2004-02-27 | Voice recognition device, display controller, recorder device, display method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005242183A true JP2005242183A (en) | 2005-09-08 |
Family
ID=35023960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004054499A Pending JP2005242183A (en) | 2004-02-27 | 2004-02-27 | Voice recognition device, display controller, recorder device, display method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005242183A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006093003A1 (en) * | 2005-02-28 | 2006-09-08 | Pioneer Corporation | Dictionary data generation device and electronic device |
KR100894457B1 (en) * | 2005-12-26 | 2009-04-22 | 캐논 가부시끼가이샤 | Information processing apparatus and information processing method |
US8838456B2 (en) | 2012-09-28 | 2014-09-16 | Samsung Electronics Co., Ltd. | Image processing apparatus and control method thereof and image processing system |
JP2021071807A (en) * | 2019-10-29 | 2021-05-06 | 東芝映像ソリューション株式会社 | Electronic apparatus and program |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695828A (en) * | 1992-09-14 | 1994-04-08 | Toshiba Corp | Voice input system |
JPH09288494A (en) * | 1996-04-23 | 1997-11-04 | Sony Corp | Voice recognition device and voice recognizing method |
JPH11259088A (en) * | 1998-03-13 | 1999-09-24 | Science Univ Of Tokyo | Method of speech recognition, device therefor, and recording medium |
JPH11338495A (en) * | 1998-05-28 | 1999-12-10 | Aqueous Reserch:Kk | Speech recognition unit |
JP2001034286A (en) * | 1999-07-22 | 2001-02-09 | Ishida Co Ltd | Article processing system |
JP2001184345A (en) * | 1999-12-24 | 2001-07-06 | Toyota Central Res & Dev Lab Inc | Language processor |
JP2002041081A (en) * | 2000-07-28 | 2002-02-08 | Sharp Corp | Unit/method for preparing voice-recognition dictionary, voice-recognition apparatus, portable terminal, and program-recording media |
JP2002278591A (en) * | 2001-03-22 | 2002-09-27 | Sharp Corp | Information processing device, information processing method and program recording medium |
JP2002278587A (en) * | 2001-03-14 | 2002-09-27 | Fujitsu Ltd | Voice recognition and input device |
JP2003029776A (en) * | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | Voice recognition device |
JP2003195891A (en) * | 2001-12-27 | 2003-07-09 | Denso Corp | Electronic apparatus |
-
2004
- 2004-02-27 JP JP2004054499A patent/JP2005242183A/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695828A (en) * | 1992-09-14 | 1994-04-08 | Toshiba Corp | Voice input system |
JPH09288494A (en) * | 1996-04-23 | 1997-11-04 | Sony Corp | Voice recognition device and voice recognizing method |
JPH11259088A (en) * | 1998-03-13 | 1999-09-24 | Science Univ Of Tokyo | Method of speech recognition, device therefor, and recording medium |
JPH11338495A (en) * | 1998-05-28 | 1999-12-10 | Aqueous Reserch:Kk | Speech recognition unit |
JP2001034286A (en) * | 1999-07-22 | 2001-02-09 | Ishida Co Ltd | Article processing system |
JP2001184345A (en) * | 1999-12-24 | 2001-07-06 | Toyota Central Res & Dev Lab Inc | Language processor |
JP2002041081A (en) * | 2000-07-28 | 2002-02-08 | Sharp Corp | Unit/method for preparing voice-recognition dictionary, voice-recognition apparatus, portable terminal, and program-recording media |
JP2002278587A (en) * | 2001-03-14 | 2002-09-27 | Fujitsu Ltd | Voice recognition and input device |
JP2002278591A (en) * | 2001-03-22 | 2002-09-27 | Sharp Corp | Information processing device, information processing method and program recording medium |
JP2003029776A (en) * | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | Voice recognition device |
JP2003195891A (en) * | 2001-12-27 | 2003-07-09 | Denso Corp | Electronic apparatus |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006093003A1 (en) * | 2005-02-28 | 2006-09-08 | Pioneer Corporation | Dictionary data generation device and electronic device |
KR100894457B1 (en) * | 2005-12-26 | 2009-04-22 | 캐논 가부시끼가이샤 | Information processing apparatus and information processing method |
US8032382B2 (en) | 2005-12-26 | 2011-10-04 | Canon Kabushiki Kaisha | Information processing apparatus and information processing method |
US8838456B2 (en) | 2012-09-28 | 2014-09-16 | Samsung Electronics Co., Ltd. | Image processing apparatus and control method thereof and image processing system |
US9037471B2 (en) | 2012-09-28 | 2015-05-19 | Samsung Electronics Co., Ltd. | Image processing apparatus and control method thereof and image processing system |
JP2021071807A (en) * | 2019-10-29 | 2021-05-06 | 東芝映像ソリューション株式会社 | Electronic apparatus and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8311807B2 (en) | Periodically extracting and evaluating frequency of occurrence data of unregistered terms in a document for updating a dictionary | |
US7945864B2 (en) | Operation assisting apparatus and operation assisting method | |
US7437296B2 (en) | Speech recognition dictionary creation apparatus and information search apparatus | |
US20180143956A1 (en) | Real-time caption correction by audience | |
US7725486B2 (en) | Information retrieval apparatus | |
US20180144747A1 (en) | Real-time caption correction by moderator | |
US9760560B2 (en) | Correction of previous words and other user text input errors | |
JP4550725B2 (en) | Video viewing support system | |
US9749699B2 (en) | Display device, server device, voice input system and methods thereof | |
US8161043B2 (en) | Interactive program search apparatus | |
JP3427674B2 (en) | Related word presentation device and medium recording related word presentation program | |
JP4064902B2 (en) | Meta information generation method, meta information generation device, search method, and search device | |
JP4601306B2 (en) | Information search apparatus, information search method, and program | |
JP2007058562A (en) | Content classification device, content classification method, content classification program and recording medium | |
JP2019003585A (en) | Summary video creation device and program of the same | |
JP2005242183A (en) | Voice recognition device, display controller, recorder device, display method and program | |
JP2001309256A (en) | Receiver of digital tv broadcasting | |
JP2005122665A (en) | Electronic equipment apparatus, method for updating related word database, and program | |
JP5152857B2 (en) | Electronic device, display control method, and program | |
JPH07134720A (en) | Method and device for presenting relative information in sentence preparing system | |
JP2010009355A (en) | Electronic device, morphological element compounding method, and its program | |
CN101221574B (en) | Voice output device and voice output method | |
CN111104016B (en) | Method and equipment for providing translation result | |
JP2005242720A (en) | Database retrieval method apparatus, and program | |
JP2006163603A (en) | Device and method of creating image and image creation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080909 |