JP2004295102A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2004295102A5 JP2004295102A5 JP2004056770A JP2004056770A JP2004295102A5 JP 2004295102 A5 JP2004295102 A5 JP 2004295102A5 JP 2004056770 A JP2004056770 A JP 2004056770A JP 2004056770 A JP2004056770 A JP 2004056770A JP 2004295102 A5 JP2004295102 A5 JP 2004295102A5
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- dictionary
- user
- recognition dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims description 18
- 235000016496 Panda oleosa Nutrition 0.000 claims description 11
- 240000000220 Panda oleosa Species 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 230000000875 corresponding Effects 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 26
- 230000003044 adaptive Effects 0.000 description 23
- 230000001629 suppression Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
Description
本発明は、例えば番組案内装置等の情報検索装置で音声認識を行うための音声認識辞書を作成する音声認識辞書作成装置及び情報検索装置に関する。 The present invention relates to a speech recognition dictionary creation device and an information search device for creating a speech recognition dictionary for performing speech recognition by an information search device such as a program guide device.
従来、音声認識辞書作成装置が用いられる番組案内装置は、番組の多チャンネル化に伴い、電子番組ガイド(Electronic Program guide:EPG)と音声とを用いてTV操作を行う装置であり、最新のEPGデータを受信し、受信データを用いて本日又は明日以降の番組に対応した音声認識辞書を作成した後、余分なハードリソースを使用しないために、古い認識辞書を消去している。 2. Description of the Related Art Conventionally, a program guide device using a voice recognition dictionary creating device is a device that performs TV operation using an electronic program guide (EPG) and voice along with an increase in the number of channels of a program. After receiving the data and using the received data to create a speech recognition dictionary corresponding to the program of today or tomorrow or later, the old recognition dictionary is erased to avoid using extra hardware resources.
更に、辞書を作成する際、EPGにおいてカテゴライズ化されている「番組名」、「ジャンル」、「出演者」などに分類し、辞書登録を行うが、各単語について平等に認識を行う。 Further, when a dictionary is created, the dictionary is classified into “program name”, “genre”, “performers”, etc., which are categorized in the EPG, and the dictionary is registered. Each word is recognized equally.
図28は、従来の音声認識辞書作成装置を備える番組案内装置の構成を示すブロック図である。 FIG. 28 is a block diagram showing a configuration of a program guide device provided with a conventional voice recognition dictionary creating device.
番組案内装置は、EPG受信部701、項目分類部702、辞書更新部703、辞書704、音声認識部705、時計706、登録語削除部707、EPG蓄積部708、および制御部709を備えている。
EPG受信部701は、テレビ信号からEPGデータを分離する。項目分類部702は、音声認識に必要のない「放送時間」などのEPGデータを分離し、残りのEPGデータを、「番組タイトル」、「出演者」などに分類する。辞書更新部703は、EPGデータに含まれる単語を辞書に重複することなく登録する。辞書704は、音声認識に必要な単語を、登録日時と共に、記憶している。音声認識部705は、利用者の発話による音声信号から、辞書704を参照し、特定の単語を認識する。
The program guide device includes an EPG receiving unit 701, an item classifying unit 702, a dictionary updating unit 703, a dictionary 704, a voice recognition unit 705, a clock 706, a registered word deleting unit 707, an EPG storage unit 708, and a control unit 709. .
EPG receiving section 701 separates EPG data from a television signal. The item classification unit 702 separates EPG data such as “broadcast time” that is not necessary for speech recognition, and classifies the remaining EPG data into “program titles”, “performers”, and the like. The dictionary updating unit 703 registers words included in the EPG data in the dictionary without duplication. The dictionary 704 stores words necessary for speech recognition together with the registration date and time. The speech recognition unit 705 refers to the dictionary 704 and recognizes a specific word from a speech signal generated by the user's speech.
また、時計706は、現在の日時を登録語削除部707に出力する。登録語削除部707は、時計706の日時を参照し、辞書704に登録されている単語のうち、例えば、前日までに登録されている単語を削除する。EPG蓄積部708は、EPG受信部701で分離されたEPGデータを蓄積している。制御部709は、音声認識部705が認識した単語をEPG蓄積部708に蓄積されているEPGデータから検索し、該当する番組内容を出力する(例えば、特許文献1参照)。
従来の上記のような番組案内装置では、最新のEPGデータを利用して辞書を作成するため、辞書内の認識単語は変化するが、利用者は、辞書内の認識単語の変化をあまり意識しない。 In the conventional program guide device as described above, since the dictionary is created using the latest EPG data, the recognition word in the dictionary changes, but the user is not so conscious of the change in the recognition word in the dictionary. .
ここで、例えば利用者が、最新のEPGデータに含まれていない過去見た番組で面白かった番組名又は出演者名でテレビの番組検索及び操作を行う場合に、番組案内装置は、辞書内の最も認識スコアの高い単語を認識結果として出力する。これは、番組案内装置では、辞書に登録されていない単語を認識することはできないためである。このため、出力された認識結果と、利用者の要求する番組名、出演者名とは異なることがある。この場合に、利用者は、この認識結果を誤認識と考え、同じ言葉を何回も発声してしまうことになる。 Here, for example, when the user performs a TV program search and operation using a program name or a performer name that was interesting in a past-viewed program that is not included in the latest EPG data, the program guide device uses The word having the highest recognition score is output as a recognition result. This is because the program guide device cannot recognize words that are not registered in the dictionary. For this reason, the output recognition result may be different from the program name and cast name requested by the user. In this case, the user considers this recognition result to be erroneous recognition and utters the same word many times.
そこで、最新のEPGデータだけでなく、過去のEPGデータも利用して辞書を作成することも考えられるが、この場合には、辞書に登録される単語が膨大な量になってしまう。 Therefore, it is conceivable to create a dictionary using not only the latest EPG data but also past EPG data. In this case, however, the number of words registered in the dictionary is enormous.
また、多チャンネル化による番組数の増加に伴い、認識対象単語も増大する。しかしながら、従来の音声認識辞書作成装置は、新しいデータを全認識対象単語としているため、認識率が低下するなどの課題が存在する。 Further, as the number of programs increases due to the increase in the number of channels, the number of words to be recognized also increases. However, since the conventional speech recognition dictionary creation device uses new data as all the words to be recognized, there is a problem that the recognition rate is reduced.
そこで、本発明は上記の事情に鑑みてなされたものであり、認識対象単語の増加を最低限に抑えつつ、認識率を向上させることができる音声認識辞書作成装置及び情報検索装置を提供することを目的とする。 Therefore, the present invention has been made in view of the above circumstances, and provides a speech recognition dictionary creating device and an information search device capable of improving the recognition rate while minimizing the increase in recognition target words. With the goal.
上記目的を達成するために、本発明に係る音声認識辞書作成装置は、番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成する音声認識辞書作成装置であって、利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、作成された前記認識辞書を蓄積する辞書蓄積手段とを備えることを特徴とする。 In order to achieve the above object, a speech recognition dictionary creation device according to the present invention is a speech recognition dictionary creation device for creating a recognition dictionary for performing speech recognition on data relating to program information or music content, and A viewing history word acquiring unit that acquires a viewing history word that is a word to be recognized based on a viewing experience related to the data, a viewing history word accumulating unit that accumulates the acquired viewing history word, and a predetermined predetermined Fixed word accumulating means for accumulating fixed words, word extracting means for extracting a new recognition word that is a word to be recognized from input program information or data relating to music content, and the new recognition word Dictionary creating means for creating a plurality of the recognition dictionaries having different contents from the fixed word and the viewing history word; And characterized in that it comprises a dictionary storing means for storing said recognition dictionary.
また、本発明に係る情報検索装置は、番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索する情報検索装置であって、利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、作成された前記認識辞書を蓄積する辞書蓄積手段と、前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識手段と、入力されるデータを蓄積するデータ蓄積手段と、前記音声認識手段で認識された単語を前記データから検索し、該当する情報を出力する制御手段とを備えることを特徴とする。Further, an information search device according to the present invention is an information search device that creates a recognition dictionary for performing voice recognition on program information or data relating to music content, and searches for information using a voice signal generated by a user's speech. A viewing history word acquiring unit that acquires a viewing history word that is a word to be recognized based on the viewing experience of the user regarding the data, a viewing history word storing unit that stores the acquired viewing history word, Fixed word storage means for storing a predetermined fixed word to be set, word extraction means for extracting a new recognition word that is a word to be recognized from input program information or data relating to music content, A word for creating a plurality of the recognition dictionaries having different contents from the new recognition word, the fixed word, and the viewing history word. Creation means, dictionary storage means for storing the created recognition dictionary, voice recognition means for recognizing a specific word from the voice signal by referring to the recognition dictionary, and data for storing input data It is characterized by comprising a storage unit, and a control unit that searches the data for a word recognized by the voice recognition unit from the data and outputs corresponding information.
以上のように、本発明に係る音声認識辞書作成装置によれば、最新のEPGデータに含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無を識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。 As described above, according to the speech recognition dictionary creating apparatus of the present invention, words that are not included in the latest EPG data can be treated as words to be recognized, and when a program search is performed, a speech recognition error And the presence or absence of search data, a user-friendly voice interface can be realized.
更に、認識辞書を複数個作成し、利用者の指定より、切り替えることにより、認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率が向上し、使い易いインターフェイスが実現できる。 Furthermore, by creating a plurality of recognition dictionaries and switching from the designation of the user, the user who thinks that the recognition rate is low can select the dictionary that is considered optimal from the plurality of dictionaries, thereby increasing the recognition rate. Improved and easy-to-use interface can be realized.
本発明の実施の形態に係る音声認識辞書作成装置は、音声認識に用いられる認識辞書を作成する音声認識辞書作成装置であって、利用者の経験の有無に応じて、内容の相違する前記認識辞書を複数個作成する辞書作成手段を備えることを特徴とする。
ここで、前記経験の有無は、視聴経験の有無であり、前記辞書作成手段は、前記視聴経験の有無に応じて、内容の相違する前記認識辞書を複数個作成してもよい。
An apparatus for creating a speech recognition dictionary according to an embodiment of the present invention is a speech recognition dictionary creating apparatus for creating a recognition dictionary used for speech recognition, wherein the content of the recognition differs depending on whether the user has experience. It is characterized by comprising dictionary creation means for creating a plurality of dictionaries.
Here, the presence or absence of the experience is the presence or absence of the viewing experience, and the dictionary creating unit may create a plurality of the recognition dictionaries having different contents according to the presence or absence of the viewing experience.
また、前記経験の有無は、利用経験の有無であり、前記辞書作成手段は、前記利用経験の有無に応じて、内容の相違する前記認識辞書を複数個作成してもよい。
また、前記経験の有無は、訪問経験の有無であり、前記辞書作成手段は、前記訪問経験の有無に応じて、内容の相違する前記認識辞書を複数個作成してもよい。
これによって、例えば、利用者が今後に放送される番組、または以前に見た(または録画した)番組のどちらを対象に検索するのかといった、対象の視聴経験の有無に応じて複数の認識辞書を作成しているので、目的に応じて音声認識の認識率を向上させた認識辞書を作成することができる。
Further, the presence / absence of the experience is the presence / absence of a use experience, and the dictionary creating unit may create a plurality of the recognition dictionaries having different contents according to the presence / absence of the use experience.
Further, the presence or absence of the experience may be presence or absence of a visit experience, and the dictionary creating unit may create a plurality of the recognition dictionaries having different contents according to the presence or absence of the visit experience.
Thereby, for example, a plurality of recognition dictionaries are determined according to whether or not the user has a viewing experience, such as whether to search for a program to be broadcasted in the future or a program that has been watched (or recorded) before. Since it is created, it is possible to create a recognition dictionary with an improved recognition rate of speech recognition according to the purpose.
また、前記音声認識辞書作成装置は、さらに、利用者の行動に基づいて認識対象となる単語である行動履歴単語を取得する行動履歴単語取得手段と、取得された前記行動履歴単語を蓄積する行動履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力されるデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、作成された前記認識辞書を蓄積する辞書蓄積手段とを備え、前記辞書作成手段は、前記新規認識用単語、前記固定単語、及び前記行動履歴単語から前記認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成してもよい。 Further, the voice recognition dictionary creation device further includes: an action history word acquiring unit that acquires an action history word that is a word to be recognized based on a user's action; and an action that accumulates the acquired action history word. History word accumulating means, fixed word accumulating means for accumulating a predetermined fixed word set in advance, word extracting means for extracting a new recognition word which is a word to be recognized from input data, creation Dictionary storage means for storing the recognized recognition dictionary, wherein the dictionary creation means stores a new registration word that is a word to be registered in the recognition dictionary from the new recognition word, the fixed word, and the action history word. The recognition dictionary may be created by determining and adding information indicating the reading kana and the part of speech of the newly registered word to the newly registered word.
これによって、入力されるデータに含まれない行動履歴単語を登録することで、音声認識の誤認識を抑制する認識辞書を作成することができる。 Thus, by registering action history words that are not included in the input data, it is possible to create a recognition dictionary that suppresses erroneous speech recognition.
また、前記音声認識辞書作成装置は、さらに、音声認識により認識された単語である過去認識単語を取得する認識単語取得手段と、前記過去認識単語を蓄積するための過去認識単語蓄積手段とを備え、前記辞書作成手段は、前記新規認識用単語、前記固定単語、前記行動履歴単語、及び前記過去認識単語から認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成してもよい。
これによって、入力されるデータに含まれない過去認識単語を登録することで、音声認識の誤認識を抑制する認識辞書を作成することができる。
Further, the speech recognition dictionary creation device further includes a recognition word acquisition unit that acquires a past recognition word that is a word recognized by speech recognition, and a past recognition word accumulation unit that accumulates the past recognition word. The dictionary creating means determines a new registration word to be registered in a recognition dictionary from the new recognition word, the fixed word, the action history word, and the past recognition word, and determines the new registration word as the new registration word. The recognition dictionary may be created by adding information indicating the reading kana and the part of speech of the registered word.
Thus, by registering past recognition words that are not included in the input data, it is possible to create a recognition dictionary that suppresses erroneous recognition of voice recognition.
このように、最新の単語に加えて、過去一定期間に存在した単語全てを認識対象として登録するのではなく、行動履歴単語または過去認識単語である単語だけを登録しているので、認識対象単語の増加も最低限で抑えられ、認識率の低下が少ないだけでなく、より少ないハードリソースで実現することが可能となる。 In this way, instead of registering all words that existed in the past certain period as recognition targets in addition to the latest words, only the action history words or words that are past recognition words are registered, so the recognition target words Is suppressed to a minimum, and the recognition rate can be reduced with a small amount of hardware resources.
また、前記辞書作成手段は、前記行動履歴単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成してもよい。
これによって、行動履歴単語に含まれている単語であるか否かに基づいて新規登録単語の重み付けを行うことで、音声認識の認識率を向上させた認識辞書を作成することができる。
Further, the dictionary creating means weights the newly registered word based on whether or not the word is included in the action history word, and creates the recognition dictionary by adding information relating to the weighting. Is also good.
This makes it possible to create a recognition dictionary in which the recognition rate of speech recognition is improved by weighting newly registered words based on whether or not the words are included in the action history words.
また、前記辞書作成手段は、前記過去認識単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成してもよい。
これによって、過去認識単語に含まれている単語であるか否かに基づいて新規登録単語の重み付けを行うことで、音声認識の認識率を向上させた認識辞書を作成することができる。
Further, the dictionary creating means weights the newly registered word based on whether or not the word is included in the past recognized words, and creates the recognition dictionary by adding information on the weighting. Is also good.
This makes it possible to create a recognition dictionary in which the recognition rate of speech recognition is improved by weighting newly registered words based on whether or not the words are included in past recognized words.
また、前記入力されるデータは構造化されたデータであり、前記単語抽出手段は、前記新規認識用単語とともに、前記新規認識用単語の属性を抽出し、前記辞書作成手段は、前記新規認識用単語の属性に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成してもよい。
これによって、新規認識用単語の属性に基づいて新規登録単語の重み付けを行うことで、音声認識の認識率を向上させた認識辞書を作成することができる。
Further, the input data is structured data, the word extracting means extracts the attribute of the new recognition word together with the new recognition word, and the dictionary creating means outputs the new recognition word. The newly registered word may be weighted based on a word attribute, and the recognition dictionary may be created by adding information on the weight.
This makes it possible to create a recognition dictionary in which the recognition rate of speech recognition is improved by weighting newly registered words based on the attributes of the words for new recognition.
また、前記音声認識辞書作成装置は、さらに、前記利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、前記辞書作成手段は、前記利用者認識情報毎に前記認識辞書を作成してもよい。
また、前記音声認識辞書作成装置は、さらに、利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、前記辞書作成手段は、前記利用者認識情報毎にそれぞれ前記新規登録単語の重み付けを行って前記認識辞書を作成してもよい。
これによって、複数の利用者に適応した認識辞書を作成することができる。
Further, the voice recognition dictionary creation device further includes user information acquisition means for acquiring user recognition information for identifying the user, wherein the dictionary creation means stores the recognition dictionary for each of the user recognition information. May be created.
Further, the voice recognition dictionary creation device further includes user information acquisition means for acquiring user recognition information for identifying a user, wherein the dictionary creation means includes the new registration word for each of the user recognition information. The recognition dictionary may be created by performing weighting on the recognition dictionary.
As a result, a recognition dictionary suitable for a plurality of users can be created.
また、前記行動履歴単語取得手段は、前記行動履歴単語とともに行動日時を前記行動履歴単語蓄積手段に記録し、前記辞書作成手段は、前記新規登録単語のうち前記行動履歴単語にはさらに前記行動日時を付加して前記認識辞書を作成し、前記音声認識辞書作成装置は、さらに、前記登録単語の前記行動日時から所定の期間が経過した前記登録単語を前記認識辞書から削除する単語削除手段を備えてもよい。 Further, the action history word acquiring means records the action date and time together with the action history word in the action history word storage means, and the dictionary creation means further includes the action date and time in the action history word among the newly registered words. To generate the recognition dictionary, and the speech recognition dictionary creating device further includes a word deletion unit that deletes the registered word for which a predetermined period has elapsed from the action date and time of the registered word from the recognition dictionary. You may.
これによって、入力されるデータに含まれない単語を有する認識辞書を用いることで、音声認識の誤認識を抑制し、更に、登録単語は予め定めた期間が経過した後に、認識辞書から削除されるため、音声認識辞書作成装置のハードリソースを軽減することができる。 Thus, by using a recognition dictionary having words that are not included in the input data, erroneous recognition of speech recognition is suppressed, and registered words are deleted from the recognition dictionary after a predetermined period has elapsed. Therefore, the hardware resources of the speech recognition dictionary creation device can be reduced.
また、本発明の実施の形態に係る情報検索装置は、音声認識に用いられる認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索する情報検索装置であって、利用者の経験の有無に応じて、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識手段と、入力されるデータを蓄積するデータ蓄積手段と、前記音声認識手段で認識された単語を前記データから検索し、該当する情報を出力する制御手段とを備えることを特徴とする。 Further, an information search device according to an embodiment of the present invention is an information search device that creates a recognition dictionary used for voice recognition and searches for information by a voice signal generated by a user's speech. Dictionary creation means for creating a plurality of the recognition dictionaries having different contents according to the presence or absence of the speech recognition means, and speech recognition means for recognizing a specific word from the speech signal by referring to the recognition dictionary. Data storage means for storing data, and control means for searching a word recognized by the voice recognition means from the data and outputting corresponding information.
また、前記情報検索装置は、さらに、利用者の行動に基づいて認識対象となる単語である行動履歴単語を取得する行動履歴単語取得手段と、取得された前記行動履歴単語を蓄積する行動履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力されるデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、作成された前記認識辞書を蓄積する辞書蓄積手段とを備え、前記辞書作成手段は、前記新規認識用単語、前記固定単語、及び前記行動履歴単語から前記認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成してもよい。 The information search device may further include an action history word acquiring unit that acquires an action history word that is a word to be recognized based on a user's action, and an action history word that accumulates the acquired action history word. A storage unit, a fixed word storage unit that stores a predetermined fixed word set in advance, a word extraction unit that extracts a new recognition word that is a word to be recognized from input data, Dictionary storage means for storing the recognition dictionary, wherein the dictionary creation means determines a new registration word that is a word to be registered in the recognition dictionary from the new recognition word, the fixed word, and the action history word. The recognition dictionary may be created by adding information indicating the reading kana and the part of speech of the newly registered word to the newly registered word.
これによって、入力されるデータに含まれない単語を有する認識辞書を用いることで、音声認識の誤認識を抑制し、音声認識の誤りと検索データの有無とを識別することができる。 Thus, by using a recognition dictionary having words that are not included in the input data, erroneous recognition of speech recognition can be suppressed, and it is possible to identify erroneous speech recognition and the presence or absence of search data.
例えば、情報検索装置をテレビ放送番組の番組案内装置として用いると、最新のEPGデータに含まれない過去に視聴した番組について発声した場合であっても、単語は正しく認識される。これにより、番組検索を行った場合に、「タレントCの出演する番組は、現在及び1週間以内には放送されていません」、「映画Kは、現在放送していません」という応答が可能になり、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。 For example, if the information retrieval device is used as a program guide device for a television broadcast program, words can be correctly recognized even if the user utters a previously viewed program that is not included in the latest EPG data. As a result, when a program search is performed, it is possible to reply that "The program in which Talent C appears is not currently being broadcast and within one week" and "Movie K is not currently being broadcast". Thus, a user-friendly voice interface can be realized.
また、前記入力されるデータは構造化されたデータであり、前記単語抽出手段は、前記新規認識用単語とともに、前記新規認識用単語の属性を抽出し、前記辞書作成手段は、前記新規認識用単語の属性に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成するとともに、目的に応じて、前記新規認識用単語の属性に基づく前記新規登録単語の重み付けが相違する前記認識辞書を複数個作成し、前記情報検索装置は、さらに、前記辞書蓄積手段に蓄積されている複数の前記認識辞書から利用者によって選択される辞書を受け付ける辞書選択受付手段を備え、前記音声認識手段は、前記辞書選択受付手段で受け付けられた認識辞書を参照することによって、利用者の発話による音声信号から特定の単語を認識してもよい。 Further, the input data is structured data, the word extracting means extracts the attribute of the new recognition word together with the new recognition word, and the dictionary creating means outputs the new recognition word. The newly registered word is weighted based on the attribute of the word, the information on the weight is added to create the recognition dictionary, and the new registered word based on the attribute of the new recognition word is added according to the purpose. A plurality of the recognition dictionaries having different weights are created, and the information search device further includes a dictionary selection receiving unit that receives a dictionary selected by a user from the plurality of recognition dictionaries stored in the dictionary storage unit. The voice recognition unit refers to a recognition dictionary received by the dictionary selection reception unit, and thereby specially converts a voice signal generated by a user's utterance. Words may recognize.
これによって、音声認識の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、音声認識の認識率が向上し、使い易いインターフェイスが実現できる。 Thus, a user who thinks that the recognition rate of speech recognition is low selects a dictionary that is considered optimal from a plurality of dictionaries, thereby improving the recognition rate of speech recognition and realizing an easy-to-use interface.
さらに、本発明は、このような装置として実現することができるだけでなく、このような音声認識辞書作成装置が含む特徴的な手段をステップとして含む方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。 Further, the present invention can be realized not only as such a device, but also as a method including, as steps, characteristic means included in such a speech recognition dictionary creating device, or executing those steps on a computer. Or as a program that causes Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
以下、本発明の実施の形態について、図面を用いて説明する。
(実施の形態1)
本実施の形態1では、主に利用者が今後に放送される番組を対象に検索を行うための認識辞書を作成し、検索を行う場合について説明する。
図1は本発明の実施の形態1に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(Embodiment 1)
In the first embodiment, a case will be mainly described in which a user creates a recognition dictionary for performing a search for a program to be broadcasted in the future and performs a search.
FIG. 1 is a block diagram showing a configuration of a program guide device including a speech recognition dictionary creation device according to Embodiment 1 of the present invention.
番組案内装置は、EPG受信部101、単語抽出部102、辞書作成部103、固定単語蓄積部104、認識単語蓄積部105、視聴履歴単語蓄積部106、辞書蓄積部107、辞書選択部108、音声認識部109、EPG蓄積部110、時計111、および制御部112を備えている。
EPG受信部101は、入力されたテレビ信号からEPGデータを分離する。単語抽出部102は、EPGデータから「番組タイトル」、「出演者」、「ジャンル」などの認識対象となる単語である新規認識用単語を抽出する。固定単語蓄積部104は、時間、放送局を表す単語や、通常の音声認識に必要となる単語、例えば「朝」、「6時」、「の」、「ニュース」、「を」、「見たい」などの固定単語が蓄積されている。
The program guide device includes an EPG receiving unit 101, a word extracting unit 102, a dictionary creating unit 103, a fixed word storing unit 104, a recognized word storing unit 105, a viewing history word storing unit 106, a dictionary storing unit 107, a dictionary selecting unit 108, and a voice. A recognition unit 109, an EPG storage unit 110, a clock 111, and a control unit 112 are provided.
EPG receiving section 101 separates EPG data from the input television signal. The word extracting unit 102 extracts a new recognition word that is a recognition target word such as “program title”, “performer”, or “genre” from the EPG data. The fixed word storage unit 104 stores words indicating time and broadcasting stations and words necessary for normal speech recognition, for example, "morning", "6:00", "no", "news", "", " Fixed words such as "tai" are accumulated.
認識単語蓄積部105は、過去に音声認識により認識した単語である過去認識単語を記憶する蓄積部である。ここでは、例えば図2に示すように、音声認識された単語の表記を示す「表記」、その単語の読み仮名を示す「よみ」、その単語が例えば番組名、ジャンル、出演者等の何れに該当するかを示す「種類」、音声認識された日時を示す「音声認識日時」、および音声認識された回数を示す「頻度」が記録されている。なお、同じ表記の単語が認識された場合には「音声認識日時」を最新の日時で更新し、「頻度」を1増加させる。 The recognized word storage unit 105 is a storage unit that stores past recognized words that are words recognized in the past by voice recognition. Here, for example, as shown in FIG. 2, "notation" indicating the notation of the word recognized by speech, "yomi" indicating the reading kana of the word, and the word may be assigned to any of the program name, genre, cast, etc. “Type” indicating whether the message is applicable, “Speech recognition date and time” indicating the date and time of voice recognition, and “frequency” indicating the number of times of voice recognition are recorded. When words having the same notation are recognized, the “speech recognition date” is updated with the latest date and the “frequency” is increased by one.
視聴履歴単語蓄積部106は、視聴した番組の情報である視聴履歴単語を記憶する蓄積部である。ここでは、視聴した番組の情報として番組名および出演者を記録し、例えば図3に示すように「表記」、その番組が視聴された日時を示す「視聴日時」、「種類」、および「頻度」が記録されている。なお、同じ表記の単語が記録する場合には「視聴日時」を最新の日時で更新し、「頻度」を1増加させる。 The viewing history word storage unit 106 is a storage unit that stores viewing history words, which are information on viewed programs. Here, the program name and the performer are recorded as information of the viewed program, for example, as shown in FIG. 3, “notation”, “viewing date and time” indicating the date and time when the program was viewed, “type”, and “frequency” Is recorded. When words having the same notation are recorded, the “viewing date and time” is updated with the latest date and time, and the “frequency” is increased by one.
辞書作成部103は、単語抽出部102で抽出された新規認識用単語、及び固定単語蓄積部104に記憶されている固定単語に、音声認識に必要な読み仮名、品詞などの情報を加え、従来の音声認識辞書と同様に例えば図4に示すような基本認識辞書を作成する。また、辞書作成部103は、認識単語蓄積部105に記憶されている過去認識単語、及び視聴履歴単語蓄積部106に記憶されている視聴履歴単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、例えば図5に示すような利用者適応型認識辞書を作成する。 The dictionary creation unit 103 adds information such as a reading kana and a part of speech necessary for speech recognition to the new recognition word extracted by the word extraction unit 102 and the fixed words stored in the fixed word storage unit 104. For example, a basic recognition dictionary as shown in FIG. Further, the dictionary creating unit 103 refers to the past recognized words stored in the recognized word storage unit 105 and the viewing history words stored in the viewing history word storage unit 106, and refers to the words other than the words registered in the basic recognition dictionary. If the word exists, the word is added to the word registered in the basic recognition dictionary to create a user adaptive recognition dictionary as shown in FIG. 5, for example.
ところで、利用者が番組案内装置を用いて検索するために発話する単語の種類(属性)は、利用者が今後に放送される番組を対象に検索を行う場合(発話条件1)と、以前に見たまたは録画した番組を対象に検索を行う場合(発話条件2)とでは、発話される頻度に違いがある。 By the way, the type (attribute) of a word uttered by the user for searching using the program guide device is different from the case where the user searches for a program to be broadcasted in the future (utterance condition 1). There is a difference in the utterance frequency between the case where a search is performed for a program that has been watched or recorded (utterance condition 2).
図6は、それぞれの発話条件において単語の種類が発話される頻度を調査した結果を示す図である。図6に示すように「日時」の単語を除くと、発話条件1の場合には、「ジャンル」(44.8%)が最も多く、次に「番組内容」(9.5%)が多いのに対して、発話条件2の場合には、「番組名」(26.7%)が最も多く、次に「ジャンル」(23.3%)の順になっている。 FIG. 6 is a diagram illustrating a result of investigating a frequency at which a type of word is uttered under each utterance condition. As shown in FIG. 6, excluding the word of “date and time”, in the case of the utterance condition 1, “genre” (44.8%) is the largest, followed by “program content” (9.5%). On the other hand, in the case of the utterance condition 2, "program name" (26.7%) is the largest, followed by "genre" (23.3%).
このようなことから、辞書作成部103は、単語の種類に応じて重み付けを行い、「対象重み係数」を決定する。 For this reason, the dictionary creation unit 103 performs weighting according to the type of word and determines a “target weight coefficient”.
さらに、辞書作成部103は、認識単語蓄積部105に過去認識単語として記憶されているか、及び視聴履歴単語蓄積部106に視聴履歴単語として記憶されているかに応じて重み付けを行い、「履歴重み係数」を決定する。そして、辞書作成部103は、例えば図7に示すように「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する。 Further, the dictionary creation unit 103 performs weighting according to whether the recognition word is stored in the recognition word storage unit 105 as a past recognition word and whether or not it is stored in the viewing history word storage unit 106 as a viewing history word. Is determined. Then, as shown in FIG. 7, for example, as shown in FIG. 7, the dictionary creation unit 103 stores a “target weight coefficient” and a “history weight coefficient” in addition to “notation”, “read”, and “type”. Create a recognition dictionary.
ここでは、「対象重み係数」として、「種類」が番組名である単語には「1.11」、「種類」が日時である単語には「1.27」、「種類」が放送局・チャンネルである単語には「1.06」、「種類」がジャンルである単語には「1.49」、「種類」が出演者である単語には「1.07」を与えている。 Here, as the “target weighting factor”, “1.11” is used for a word whose “type” is a program name, “1.27” is used for a word whose “type” is a date and time, and “1. “1.06” is assigned to a word that is a channel, “1.49” is assigned to a word whose “type” is a genre, and “1.07” is assigned to a word whose “type” is a performer.
また、「履歴重み係数」として、認識単語蓄積部105に過去認識単語として記憶されていた単語には「1.2」、視聴履歴単語蓄積部106に視聴履歴単語として記憶されていた単語には「1.1」、認識単語蓄積部105及び視聴履歴単語蓄積部106の両方に記憶されていた単語には「1.3」を与えている。 Further, as the “history weighting factor”, “1.2” is used for a word stored in the recognized word storage unit 105 as a past recognized word, and “1.2” is used for a word stored as a viewing history word in the viewing history word storage unit 106. “1.1” is assigned to the word stored in both the recognized word storage unit 105 and the viewing history word storage unit 106, and “1.3” is assigned to the word.
辞書蓄積部107は、辞書作成部103で作成された音声認識に使用するための複数の辞書を記憶する蓄積部である。辞書選択部108は、複数の辞書から利用者によって適切と思われて選択された辞書を受け付ける。音声認識部109は、辞書選択部108で受け付けられた辞書を参照することによって、利用者の発話による音声信号から特定の単語を認識する。時計111は、現在の日時を制御部112に出力する。EPG蓄積部110は、EPGデータを記憶する蓄積部である。 The dictionary storage unit 107 is a storage unit that stores a plurality of dictionaries created by the dictionary creation unit 103 and used for speech recognition. The dictionary selection unit 108 receives a dictionary selected from a plurality of dictionaries by the user as appropriate. The voice recognition unit 109 recognizes a specific word from a voice signal generated by the user by referring to the dictionary accepted by the dictionary selection unit 108. The clock 111 outputs the current date and time to the control unit 112. The EPG storage unit 110 is a storage unit that stores EPG data.
制御部112は、音声認識部109で認識された単語によりEPG蓄積部110に蓄積されているEPGデータを検索し、該当する番組に関する情報を出力する。また、制御部112は、音声認識部109で認識された単語に関する情報、および音声認識日時等を認識単語蓄積部105に出力する。更に、制御部112は、利用者により番組が予め定めた時間以上視聴された際に、その番組の情報である視聴履歴単語を取得し、視聴履歴単語蓄積部106に出力する。また、制御部112は、認識単語蓄積部105に記憶されている過去認識単語の中で、音声認識日時から所定の時間が経過した過去認識単語の削除を行う。同様に、制御部112は、視聴履歴単語蓄積部106に記憶されている視聴履歴単語の中で、視聴日時から所定の時間が経過した視聴履歴単語の削除を行う。 The control unit 112 searches the EPG data stored in the EPG storage unit 110 based on the word recognized by the voice recognition unit 109, and outputs information on the corresponding program. Further, the control unit 112 outputs information on the word recognized by the voice recognition unit 109, voice recognition date and time, and the like to the recognized word storage unit 105. Further, when a user watches a program for a predetermined time or more, control unit 112 acquires a viewing history word, which is information on the program, and outputs it to viewing history word storage unit 106. Further, the control unit 112 deletes past recognized words for which a predetermined time has elapsed from the voice recognition date and time among the past recognized words stored in the recognized word storage unit 105. Similarly, the control unit 112 deletes a viewing history word having a predetermined time elapsed from the viewing date and time among the viewing history words stored in the viewing history word storage unit 106.
上記のように構成された番組案内装置の動作は、辞書を作成するオフライン処理工程と、作成した辞書を用いて入力された音声を認識し、番組を案内するオンライン処理工程とに大別できる。 The operation of the program guide apparatus configured as described above can be broadly divided into an offline processing step of creating a dictionary and an online processing step of recognizing input speech using the created dictionary and guiding a program.
まず、オフライン処理工程の動作について説明する。図8は番組案内装置におけるオフライン処理工程の動作を示すフローチャートである。 First, the operation of the offline processing step will be described. FIG. 8 is a flowchart showing the operation of the offline processing step in the program guide device.
テレビ信号が入力されたEPG受信部101は、テレビ信号からEPGデータを取り出し、単語抽出部102およびEPG蓄積部110に出力する(ステップS101)。
次に、単語抽出部102は、EPGデータから音声認識のキーワードとなる新規認識用単語として、「番組名」、「出演者」及び「ジャンル」を抽出する(ステップS102)。
The EPG receiving unit 101 to which the television signal has been input extracts the EPG data from the television signal and outputs it to the word extraction unit 102 and the EPG storage unit 110 (step S101).
Next, the word extracting unit 102 extracts “program name”, “performer”, and “genre” from the EPG data as new recognition words to be keywords for voice recognition (step S102).
図9は、EPGデータの一例を示す図である。EPGデータには、1つの番組毎に、放送局を識別するための「サービスID」、各番組を識別するための「イベントID」、番組が開始される年月日を示す「開始日」、番組が開始される時間を示す「開始時間」、番組の放送時間を示す「持続時間」、番組名を示す「イベント名」、出演者及び番組内容を示す「テキスト」、番組のジャンルを示す「ジャンル」の項目に分類されている。 FIG. 9 is a diagram illustrating an example of the EPG data. The EPG data includes, for each program, a “service ID” for identifying a broadcast station, an “event ID” for identifying each program, a “start date” indicating the date when the program starts, “Start time” indicating the time at which the program starts, “duration” indicating the broadcast time of the program, “event name” indicating the program name, “text” indicating the performers and the program contents, and “genre of the program” Genre ".
また、「サービスID」、「イベントID」、「開始日」「開始時間」及び「持続時間」の項目に関する固定単語は、予め固定単語蓄積部104に蓄積されている。 The fixed words related to the items of “service ID”, “event ID”, “start date”, “start time”, and “duration” are stored in the fixed word storage unit 104 in advance.
次に、辞書作成部103は、単語抽出部102から入力される新規認識単語と、固定単語蓄積部104が蓄積する固定単語と、固定単語蓄積部104が蓄積する音声認識に必要な読み仮名や品詞などの情報を用いて従来の認識辞書と同様に基本認識辞書を作成する(ステップS103)。 Next, the dictionary creating unit 103 generates a new recognition word input from the word extraction unit 102, a fixed word stored in the fixed word storage unit 104, and a reading kana necessary for speech recognition stored in the fixed word storage unit 104. A basic recognition dictionary is created in the same manner as a conventional recognition dictionary using information such as part of speech (step S103).
次に、辞書作成部103は、視聴履歴単語蓄積部106から入力される視聴履歴単語及び認識単語蓄積部105から入力される過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、例えば図5に示すような利用者適応型認識辞書を作成する。さらに、辞書作成部103は、単語の種類に応じた重み付けと、認識単語蓄積部105に過去認識単語として記憶されているか、及び視聴履歴単語蓄積部106に視聴履歴単語として記憶されているかに応じた重み付けとを行い、例えば図7に示すように「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する(ステップS104)。 Next, the dictionary creation unit 103 refers to the viewing history word input from the viewing history word storage unit 106 and the past recognition word input from the recognition word storage unit 105, and determines whether a word other than the word registered in the basic recognition dictionary is used. If it exists, the word is added to the word registered in the basic recognition dictionary to create a user adaptive recognition dictionary as shown in FIG. 5, for example. Further, the dictionary creating unit 103 determines the weight according to the type of the word, and determines whether the word is stored as a past recognized word in the recognized word storage unit 105 and whether it is stored as a viewing history word in the viewing history word storage unit 106. A weighted user-adaptive recognition dictionary that stores, for example, as shown in FIG. 7, “target weight coefficient” and “history weight coefficient” in addition to “notation”, “read”, and “type” as shown in FIG. Is created (step S104).
次に、辞書作成部103は、作成した基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書を辞書蓄積部107に記憶する(ステップS105)。このとき、辞書作成部103は、辞書蓄積部107に記憶されている以前に作成されたそれぞれの認識辞書と入れ替えることで更新する。 Next, the dictionary creation unit 103 stores the created basic recognition dictionary, the user adaptive recognition dictionary, and the weighted user adaptive recognition dictionary in the dictionary storage unit 107 (step S105). At this time, the dictionary creation unit 103 updates by replacing each of the previously created recognition dictionaries stored in the dictionary storage unit 107.
なお、本実施の形態では、重み付き利用者適応型認識辞書として「対象重み係数」および「履歴重み係数」を記憶した辞書を作成しているが、これに限られるものではない。例えば、「対象重み係数」または「履歴重み係数」のいずれか一方だけを付加した辞書であっても構わない。また、「対象重み係数」および「履歴重み係数」の値は、上記の例に限られるものではなく、他の値であっても構わない。 In the present embodiment, a dictionary storing “target weight coefficients” and “history weight coefficients” is created as a weighted user-adaptive recognition dictionary, but the present invention is not limited to this. For example, a dictionary to which only one of “target weight coefficient” and “history weight coefficient” is added may be used. Further, the values of the “target weight coefficient” and the “history weight coefficient” are not limited to the above examples, and may be other values.
また、「履歴重み係数」について、過去認識単語および視聴履歴単語に基づいて重み付けを行っているが、いずれか一方だけで重み付けを行っても構わない。さらに、過去認識単語および視聴履歴単語それぞれについての「重み係数」を辞書に付加しても構わない。また、「重み係数」を認識回数または視聴回数や時刻等によって変更しても構わない。
また、利用者適応型認識辞書は、視聴履歴単語、過去認識単語のどちらか一方を用いて作成しても、同様な効果を得ることができる。
Further, the “history weighting coefficient” is weighted based on the past recognition word and the viewing history word, but it is also possible to weight only one of them. Further, a “weight coefficient” for each of the past recognition word and the viewing history word may be added to the dictionary. Further, the “weight coefficient” may be changed according to the number of times of recognition or the number of times of viewing, time, or the like.
A similar effect can be obtained even if the user-adaptive recognition dictionary is created using either the viewing history word or the past recognition word.
また、ハードリソースが乏しい場合は、重み付けをする代わりに、例えば、利用者の使用頻度の低い番組が分類されているジャンルの新規認識用単語の削除を行っても良い。
また、利用者が今後に放送される番組を対象に検索を行う際には、番組名では発声しないものと想定し、例えば図13に示すように「種類」が番組名である単語を登録しないようにしても構わない。
If hard resources are scarce, instead of weighting, for example, a new recognition word of a genre in which a program less frequently used by the user is classified may be deleted.
Further, when the user searches for a program to be broadcasted in the future, it is assumed that the program name does not utter, and for example, as shown in FIG. 13, a word whose “type” is the program name is not registered. It does not matter.
また、重み付き利用者適応型認識辞書は、単語の種類に応じた重み付けの相違する辞書を複数個作成することも可能である。また、辞書作成部103に、利用者を認識する利用者認識信号を入力することで、認識辞書を利用者別に作成し、複数の利用者適応型認識辞書を作成しても良い。 Also, as the weighted user-adaptive recognition dictionary, it is possible to create a plurality of dictionaries having different weights according to the types of words. Further, by inputting a user recognition signal for recognizing a user to the dictionary creating unit 103, a recognition dictionary may be created for each user, and a plurality of user adaptive recognition dictionaries may be created.
ここで、例えば、「出演者」の単語を認識し易い利用者適応型認識辞書を作成する場合は、「ジャンル」、「番組名」の単語よりも、音声認識における優先順位を高くすることで、重み付けをすることができる。 Here, for example, when creating a user-adaptive recognition dictionary in which the word “performer” can be easily recognized, the priority in voice recognition is set higher than the words “genre” and “program name”. , Can be weighted.
また、「出演者」の単語においても、視聴履歴単語、過去認識単語の使用頻度を参照し、利用者の嗜好に適応させて音声認識における優先順位を決定することも可能である。
また、視聴履歴単語、過去認識単語の中で、既に、基本認識辞書に含まれる単語については、利用者により、再度、使用される可能性が高いために、音声認識における優先順位を高くする重み係数を設定することで、利用者の使用状況に適した重み付き利用者適応型認識辞書を作成することもできる。
Also, with regard to the word “performer”, it is also possible to determine the priority in speech recognition by referring to the viewing history word and the frequency of use of the past recognition word and adapting it to the user's preference.
In addition, among the viewing history words and the past recognition words, words that are already included in the basic recognition dictionary are likely to be used again by the user, so that the weight for increasing the priority in voice recognition is high. By setting the coefficients, it is possible to create a weighted user adaptive recognition dictionary suitable for the usage situation of the user.
また、本実施の形態では、辞書作成部103は、基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書の3つの認識辞書を作成しているが、これに限られるものではない。例えば、基本認識辞書と、利用者適応型認識辞書または重み付き利用者適応型認識辞書のいずれか1つの認識辞書との2つの認識辞書を作成しても構わない。また、利用者適応型認識辞書および重み付き利用者適応型認識辞書をそれぞれ複数作成して、4つ以上の認識辞書を作成しても構わない。 In the present embodiment, the dictionary creation unit 103 creates three recognition dictionaries: a basic recognition dictionary, a user-adaptive recognition dictionary, and a weighted user-adaptive recognition dictionary, but is not limited thereto. Not something. For example, two recognition dictionaries, a basic recognition dictionary and any one of a user adaptive recognition dictionary and a weighted user adaptive recognition dictionary, may be created. Alternatively, a plurality of user adaptive recognition dictionaries and a plurality of weighted user adaptive recognition dictionaries may be created, and four or more recognition dictionaries may be created.
また、辞書を作成するオフライン処理工程の動作は、例えば1日に1回というように所定の期間ごとに実行されるが、この実行の時間を視聴履歴に基づいて決定しても構わない。 Further, the operation of the offline processing step of creating a dictionary is executed at predetermined intervals, for example, once a day, but the execution time may be determined based on the viewing history.
次に、オンライン処理工程の動作について説明する。図10は番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。 Next, the operation of the online processing step will be described. FIG. 10 is a flowchart showing the operation of the online processing step in the program guide device.
辞書選択部108は、辞書蓄積部107に記憶されている複数の認識辞書を例えば図11に示すような画面により表示し、利用者による認識辞書の選択を受け付ける(ステップS201)。 The dictionary selecting unit 108 displays a plurality of recognition dictionaries stored in the dictionary storage unit 107 on, for example, a screen as shown in FIG. 11 and receives selection of a recognition dictionary by a user (step S201).
次に、辞書選択部108は、利用者によって選択された認識辞書を音声認識部109に出力する(ステップS202)。なお、初期設定として、基本認識辞書を音声認識部109に出力することも可能である。 Next, the dictionary selection unit 108 outputs the recognition dictionary selected by the user to the voice recognition unit 109 (Step S202). Note that the basic recognition dictionary can be output to the voice recognition unit 109 as an initial setting.
ここで、利用者が選択した認識辞書の種類をテレビ画面の一部に表示することで、利用者に認識辞書内容に沿った音声内容の入力を促進することも可能である。 Here, by displaying the type of the recognition dictionary selected by the user on a part of the television screen, it is possible to encourage the user to input voice contents in accordance with the contents of the recognition dictionary.
次に、音声認識部109は、利用者によって選択された認識辞書を参照して入力された音声から特定の単語を認識する(ステップS203)。ここで、利用者によって図7に示すような重み付き利用者適応型認識辞書が選択されている状態で、利用者が「スポーツが見たい」と発話した場合の認識結果について説明する。図12(a)は図7に示す重み付き利用者適応型認識辞書から一部を抜粋した図であり、図12(b)は認識結果例を示す図である。音声認識部109は、まず一般的な音声認識と同様にスコアを算出する。ここでは、スコアは、図12(b)に示すように「スポーツ天国」が500、「スポーツ」が300、「まるごとスポーツ」が200であったとする。音声認識部109は、算出したスコアに重み付き利用者適応型認識辞書に登録されている「対象重み係数」および「履歴重み係数」を乗算して最終スコアを算出する。この結果、音声認識部109は、最終スコアに基づいて最終認識結果として「スポーツ」を認識する。 Next, the voice recognition unit 109 recognizes a specific word from the input voice with reference to the recognition dictionary selected by the user (step S203). Here, a description will be given of a recognition result when the user utters "I want to see sports" while the user selects the weighted user adaptive recognition dictionary as shown in FIG. FIG. 12A is a diagram showing a part extracted from the weighted user adaptive recognition dictionary shown in FIG. 7, and FIG. 12B is a diagram showing an example of a recognition result. The speech recognition unit 109 first calculates a score as in general speech recognition. Here, as shown in FIG. 12 (b), it is assumed that the scores of “sports paradise” are 500, “sports” is 300, and “whole sports” are 200 as shown in FIG. The speech recognition unit 109 calculates the final score by multiplying the calculated score by the “target weight coefficient” and the “history weight coefficient” registered in the weighted user adaptive recognition dictionary. As a result, the voice recognition unit 109 recognizes “sports” as a final recognition result based on the final score.
次に、制御部112は、音声認識部109で認識された単語(以下、認識単語という)と、EPG蓄積部110に蓄積されているEPGデータとを参照し、番組を検索する(ステップS204)。すなわち、制御部112は、認識単語によりEPG蓄積部110に蓄積されているEPGデータを検索する。そして、制御部112は、EPGデータに認識単語が存在するか否かを判定する(ステップS205)。 Next, the control unit 112 searches for a program by referring to the word recognized by the voice recognition unit 109 (hereinafter referred to as a recognized word) and the EPG data stored in the EPG storage unit 110 (step S204). . That is, the control unit 112 searches the EPG data stored in the EPG storage unit 110 based on the recognition word. Then, the control unit 112 determines whether or not the recognized word exists in the EPG data (Step S205).
この結果、EPGデータに認識単語が含まれている場合(ステップS205でYES)には、制御部112は、該当する番組を案内する(ステップS206)。 As a result, if the recognized word is included in the EPG data (YES in step S205), control unit 112 guides the corresponding program (step S206).
一方、EPGデータに認識単語が含まれていない場合(ステップS205でNO)には、制御部112は、該当する番組が存在しないため、例えば、「タレントCの出演する番組は、現在及び1週間以内には放送されていません」、「映画Kは、現在放送していません」といった返答をする(ステップS207)。 On the other hand, when the recognized word is not included in the EPG data (NO in step S205), the control unit 112 determines that the program in which the talent C appears is “current and one week Are not broadcasted within "or" Movie K is not currently being broadcast "(step S207).
ここで、利用者の視聴履歴や認識履歴を用いて認識辞書を作成していため、音声認識した単語が、認識辞書には含まれるが、EPGデータに含まれない場合は、音声認識の誤りではないと制御部112が判断し、該当する番組の有無を返答することが可能となる。 Here, since the recognition dictionary is created using the viewing history and the recognition history of the user, if the words recognized by speech are included in the recognition dictionary but are not included in the EPG data, an error in speech recognition Otherwise, the control unit 112 determines that it is possible to reply to the presence or absence of the corresponding program.
以上の構成によれば、EPGデータ、利用者の視聴履歴及び音声認識履歴を参照して認識辞書を作成することにより、最新のEPGデータに含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無とを識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。 According to the above configuration, a word that is not included in the latest EPG data can be treated as a recognition target word by creating a recognition dictionary with reference to the EPG data, the user's viewing history, and the voice recognition history. When a program search is performed, an error in voice recognition and the presence or absence of search data can be identified, and a user-friendly voice interface can be realized.
また、登録単語に対して重み付けを行って「対象重み係数」や「履歴重み係数」等を付与して認識辞書を作成しているので、音声認識の認識率を向上することができる。 In addition, since the recognition dictionary is created by weighting the registered words and adding “target weight coefficient”, “history weight coefficient”, and the like, the recognition rate of speech recognition can be improved.
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。 Furthermore, since a plurality of recognition dictionaries are created and the user is allowed to select a recognition dictionary to be used, a user who thinks that the recognition rate of the voice recognition unit 109 is low is considered to be optimal from the plurality of dictionaries. By selecting a dictionary, the recognition rate can be improved and an easy-to-use interface can be realized.
(実施の形態2)
本実施の形態2では、実施の形態1において説明した利用者が今後に放送される番組を対象に検索を行うための認識辞書に加えて、以前に録画した(または見た)番組を対象に検索を行うための認識辞書を作成し、目的に応じて検索を行う場合について説明する。
(Embodiment 2)
In the second embodiment, in addition to the recognition dictionary for the user to search for programs to be broadcasted in the future described in the first embodiment, programs previously recorded (or watched) A case will be described in which a recognition dictionary for performing a search is created and the search is performed according to the purpose.
図14は本発明の実施の形態2に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。 FIG. 14 is a block diagram showing a configuration of a program guide device including a speech recognition dictionary creating device according to Embodiment 2 of the present invention. The same parts as those in the first embodiment are denoted by the same reference numerals, and detailed description will be omitted.
この番組案内装置は、図14に示すように実施の形態1のEPG受信部101およびEPG蓄積部110に替えて、番組・EPG受信部201、番組・EPG蓄積部202、および録画情報蓄積部203を備えている。また、辞書作成部204、辞書選択部205、および制御部206の動作が、実施の形態1とは相違する。
番組・EPG受信部201は、入力されたテレビ信号からEPGデータおよび番組データを分離する。番組・EPG蓄積部202は、EPGデータおよび番組データを記憶する蓄積部である。録画情報蓄積部203は、録画されている番組に関する情報を記憶する蓄積部である。ここでは、例えば図15に示すように録画されている番組を示す「表記」、その番組が録画された日時を示す「視聴日時」、その番組のジャンルを示す「種類」、およびその番組の録画予約を利用者が行ったかまたはシステムが行ったかを示す「予約・蓄積」が記録されている。なお、システムが録画予約を行うとは、例えば利用者により指定されたキーワードを含む番組をすべて録画する場合等である。
This program guide device includes a program / EPG receiving unit 201, a program / EPG storing unit 202, and a recording information storing unit 203, instead of EPG receiving unit 101 and EPG storing unit 110 of the first embodiment as shown in FIG. It has. Also, the operations of the dictionary creation unit 204, the dictionary selection unit 205, and the control unit 206 are different from those of the first embodiment.
The program / EPG receiving unit 201 separates EPG data and program data from the input television signal. The program / EPG storage unit 202 is a storage unit that stores EPG data and program data. The recording information storage unit 203 is a storage unit that stores information on a recorded program. Here, for example, as shown in FIG. 15, “notation” indicating a recorded program, “viewing date and time” indicating the date and time when the program was recorded, “type” indicating the genre of the program, and recording of the program “Reservation / accumulation” indicating whether the user has made the reservation or the system has made the reservation is recorded. Note that the system makes a recording reservation when, for example, all the programs including the keyword specified by the user are recorded.
制御部206は、録画する番組に関する情報を録画情報蓄積部203に出力する。
辞書作成部204は、以前に録画した(または見た)番組を対象に検索を行うための認識辞書として、実施の形態1で説明した重み付き利用者適応型認識辞書の「対象重み係数」を例えば図6に示す発話頻度の調査結果等に基づいて変更した、例えば図16に示すような重み付き利用者適応型認識辞書を作成する。ここでは、「対象重み係数」として、「種類」が番組名(未視聴番組)である単語には「1.11」、「種類」が番組名(既視聴番組)である単語には「1.30」、「種類」が日時である単語には「1.30」、「種類」が放送局・チャンネルである単語には「1.03」、「種類」がジャンルである単語には「1.49」、「種類」が出演者である単語には「1.07」を与えている。このとき、辞書作成部204は、番組名に関して未視聴番組であるかまたは既視聴番組であるかについて、録画情報蓄積部203に記憶されている「予約・蓄積」の情報に基づいて判定する。すなわち、番組の録画予約をシステムが行った場合には未視聴番組であると判定し、番組の録画予約を利用者が行った既視聴番組であると判定する。
The control unit 206 outputs information on the program to be recorded to the recording information storage unit 203.
The dictionary creation unit 204 uses the “target weight coefficient” of the weighted user-adaptive recognition dictionary described in Embodiment 1 as a recognition dictionary for performing a search on previously recorded (or watched) programs. For example, a weighted user-adaptive recognition dictionary as shown in FIG. 16 that is changed based on the utterance frequency survey result or the like shown in FIG. 6 is created. Here, as the “target weight coefficient”, “1.11” is used for a word whose “type” is a program name (unviewed program), and “1” is used for a word whose “type” is a program name (viewed program). .30 "," 1.30 "for words whose" type "is date and time," 1.03 "for words whose" type "is broadcasting station / channel, and" 1.03 "for words whose" type "is genre. 1.49 "and" 1.07 "are given to words whose" type "is a performer. At this time, the dictionary creation unit 204 determines whether the program name is an unviewed program or a watched program based on the “reservation / storage” information stored in the recording information storage unit 203. That is, when the system has made a recording reservation for a program, it determines that the program has not been viewed, and determines that the program has been already viewed by the user.
辞書選択部205は、利用者から検索対象が今後に放送される番組であるか、以前に録画した(または見た)番組であるかの指示を受け付け、検索対象に応じて認識辞書を選択する。すなわち、検索対象が今後に放送される番組である場合には、実施の形態1で説明した例えば図7に示すようなジャンルの重み付けが大きい重み付き利用者適応型認識辞書を、検索対象が以前に見たまたは録画した番組である場合には、例えば図16に示すような番組名の重み付けが大きい重み付き利用者適応型認識辞書を選択する。 The dictionary selection unit 205 receives an instruction from the user whether the search target is a program to be broadcasted in the future or a previously recorded (or watched) program, and selects a recognition dictionary according to the search target. . That is, when the search target is a program to be broadcasted in the future, the weighted user-adaptive recognition dictionary with a large genre weight described in Embodiment 1 shown in FIG. In the case of a program that has been watched or recorded in the above-mentioned manner, for example, a weighted user-adaptive recognition dictionary with a large weight of the program name as shown in FIG. 16 is selected.
次に、上記のように構成された番組案内装置のオンライン処理工程の動作について説明する。図17は番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。なお、オフライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
辞書選択部205は、利用者から検索対象が今後に放送される番組であるか以前に見たまたは録画した番組であるかの指示を受け付ける(ステップS301)。ここで、検索対象が今後に放送される番組である場合には、ジャンルの重み付けが大きい重み付き利用者適応型認識辞書を音声認識部109で用いる認識辞書として選択する(ステップS302)。一方、検索対象が以前に見たまたは録画した番組である場合には、番組名の重み付けが大きい重み付き利用者適応型認識辞書を音声認識部109で用いる認識辞書として選択する(ステップS303)。
Next, the operation of the online processing step of the program guide device configured as described above will be described. FIG. 17 is a flowchart showing the operation of the online processing step in the program guide device. Note that the operation of the off-line processing step is the same as that of the first embodiment, and a description thereof will be omitted.
The dictionary selection unit 205 receives an instruction from the user as to whether the search target is a program to be broadcasted in the future or a program that has been viewed or recorded before (step S301). If the search target is a program to be broadcasted in the future, a weighted user-adaptive recognition dictionary having a large genre weight is selected as a recognition dictionary used by the voice recognition unit 109 (step S302). On the other hand, if the search target is a previously watched or recorded program, a weighted user-adaptive recognition dictionary having a large program name weight is selected as a recognition dictionary used by the voice recognition unit 109 (step S303).
以降の動作(ステップS203〜S207)は、実施の形態1と同様である。
以上のように、検索対象が今後に放送される番組であるか、以前に録画した(または見た)番組であるかに応じて、複数の認識辞書を作成し、音声認識部109で用いる認識辞書を選択しているので、認識率を向上することができ、使い易いインターフェイスが実現できる。
Subsequent operations (steps S203 to S207) are the same as in the first embodiment.
As described above, a plurality of recognition dictionaries are created depending on whether the search target is a program to be broadcasted in the future or a program recorded (or watched) before, and the recognition dictionary used in the voice recognition unit 109 is generated. Since the dictionary is selected, the recognition rate can be improved, and an easy-to-use interface can be realized.
なお、本実施の形態では、録画情報蓄積部203に記憶される録画情報としてその番組の録画予約を利用者が行ったかまたはシステムが行ったかを示す「予約・蓄積」が記録されているが、これに限られるものではない。例えば、番組を予約して録画を行ったかまたは直接利用者が録画操作を行ったかを示す情報、実際に利用者が視聴したかまたは視聴していないかを示す情報、および、番組の録画予約をEPGを利用して行ったかまたは日時を指定して行ったかを示す情報等であっても構わない。また、それらの情報を複数用いても構わない。 In the present embodiment, “reservation / accumulation” indicating whether the user has made a recording reservation for the program or the system has made recording is recorded as recording information stored in the recording information storage unit 203. It is not limited to this. For example, information indicating whether a program has been reserved for recording or whether the user has directly performed a recording operation, information indicating whether the user has actually viewed or not, and recording of the program The information may indicate whether the operation has been performed by using the EPG or by specifying the date and time. Further, a plurality of pieces of such information may be used.
(実施の形態3)
実施の形態1では、認識辞書の更新時に、新しく作成した認識辞書と、古い認識辞書とを入れ替えていたが、本実施の形態3では、認識辞書を部分的に更新するとともに、認識辞書に登録されている単語のうち、所定の期間以前に登録された単語を削除する場合について説明する。
(Embodiment 3)
In the first embodiment, when the recognition dictionary is updated, the newly created recognition dictionary and the old recognition dictionary are exchanged. In the third embodiment, the recognition dictionary is partially updated and registered in the recognition dictionary. A case will be described in which words registered before a predetermined period are deleted from among words that have been registered.
図18は本発明の実施の形態3に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。 FIG. 18 is a block diagram showing a configuration of a program guide device including a speech recognition dictionary creation device according to Embodiment 3 of the present invention. The same parts as those in the first embodiment are denoted by the same reference numerals, and detailed description will be omitted.
この番組案内装置は、図14に示すように実施の形態1の構成に加えて単語削除部301を備えている。また、辞書作成部303、および制御部302の動作が、実施の形態1とは相違する。 This program guide device includes a word deleting unit 301 in addition to the configuration of the first embodiment as shown in FIG. Also, the operations of the dictionary creation unit 303 and the control unit 302 are different from those of the first embodiment.
辞書作成部303は、実施の形態1と同様に基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書を作成した上で、辞書蓄積部107に蓄積されている基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書との相違する部分を部分的に更新する。
単語削除部503は、時計111の日時と、制御部112から出力される番組内容と、認識単語蓄積部105から出力される過去認識単語とを参照し、認識辞書に登録されている単語のうち、所定の期間(例えば1週間)以前に登録された単語を削除する。
The dictionary creation unit 303 creates a basic recognition dictionary, a user-adaptive recognition dictionary, and a weighted user-adaptive recognition dictionary as in the first embodiment, and then stores the basic recognition dictionary stored in the dictionary storage unit 107. A part different from the dictionary, the user adaptive recognition dictionary, and the weighted user adaptive recognition dictionary is partially updated.
The word deletion unit 503 refers to the date and time of the clock 111, the program content output from the control unit 112, and the past recognized words output from the recognized word storage unit 105, and selects one of the words registered in the recognition dictionary. , Delete words registered before a predetermined period (for example, one week).
次に、上記のように構成された番組案内装置のオフライン処理工程の動作について説明する。図19は番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。なお、オンライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
テレビ信号が入力されたEPG受信部101は、テレビ信号からEPGデータを取り出し、単語抽出部102およびEPG蓄積部110に出力する(ステップS401)。
Next, the operation of the offline processing step of the program guide device configured as described above will be described. FIG. 19 is a flowchart showing the operation of the online processing step in the program guide device. The operation in the online processing step is the same as in the first embodiment, and a description thereof will not be repeated.
The EPG receiving unit 101 to which the television signal has been input extracts the EPG data from the television signal and outputs it to the word extraction unit 102 and the EPG storage unit 110 (step S401).
次に、単語抽出部102は、EPGデータから音声認識のキーワードとなる新規認識用単語として、「番組名」、「出演者」及び「ジャンル」を抽出する(ステップS402)。 Next, the word extracting unit 102 extracts “program name”, “performer”, and “genre” from the EPG data as new recognition words to be keywords for voice recognition (step S402).
次に、辞書作成部103は、単語抽出部102から入力される新規認識単語と、固定単語蓄積部104が蓄積する固定単語と、固定単語蓄積部104が蓄積する音声認識に必要な読み仮名や品詞などの情報を用いて従来の認識辞書と同様に基本認識辞書を作成する(ステップS403)。 Next, the dictionary creating unit 103 generates a new recognition word input from the word extraction unit 102, a fixed word stored in the fixed word storage unit 104, and a reading kana necessary for speech recognition stored in the fixed word storage unit 104. A basic recognition dictionary is created in the same manner as a conventional recognition dictionary using information such as part of speech (step S403).
次に、辞書作成部103は、視聴履歴単語蓄積部106から入力される視聴履歴単語及び認識単語蓄積部105から入力される過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、例えば図5に示すような利用者適応型認識辞書を作成する。さらに、辞書作成部103は、単語の種類に応じた重み付けと、認識単語蓄積部105に過去認識単語として記憶されているか、及び視聴履歴単語蓄積部106に視聴履歴単語として記憶されているかに応じた重み付けとを行い、例えば図7に示すように「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する(ステップS404)。 Next, the dictionary creation unit 103 refers to the viewing history word input from the viewing history word storage unit 106 and the past recognition word input from the recognition word storage unit 105, and determines whether a word other than the word registered in the basic recognition dictionary is used. If it exists, the word is added to the word registered in the basic recognition dictionary to create a user adaptive recognition dictionary as shown in FIG. 5, for example. Further, the dictionary creating unit 103 determines the weight according to the type of the word, and determines whether the word is stored as a past recognized word in the recognized word storage unit 105 and whether it is stored as a viewing history word in the viewing history word storage unit 106. A weighted user-adaptive recognition dictionary that stores, for example, as shown in FIG. 7, “target weight coefficient” and “history weight coefficient” in addition to “notation”, “read”, and “type” as shown in FIG. Is created (step S404).
次に、辞書作成部103は、辞書蓄積部502に蓄積されている認識辞書(基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書)と、新たに作成した認識辞書との差分を求め、新たに作成した認識辞書から既に蓄積されている認識辞書に含まれない単語を、辞書蓄積部107に登録することで、認識辞書を部分的に入れ替え、更新する(ステップS405)。 Next, the dictionary creation unit 103 compares the recognition dictionaries (basic recognition dictionary, user adaptive recognition dictionary, and weighted user adaptive recognition dictionary) stored in the dictionary storage unit 502 with the newly created recognition dictionary. Is obtained, and words that are not included in the already stored recognition dictionaries are registered in the dictionary storage unit 107 from the newly created recognition dictionaries, thereby partially replacing and updating the recognition dictionaries (step S405). ).
次に、単語削除部301は、時計111の日時と、認識辞書の単語に添付された日時とを用いて、所定の期間(例えば1週間)前に、更新された単語を認識辞書から削除する。ただし、削除する期間は、利用者により設定することも可能である。また、利用者適応型認識辞書に含まれる単語は、削除する期間を基本認識辞書よりも延長することが可能であり、更に、利用者の視聴履歴を用いて、過去に見た番組に関する単語は削除対象外とすることも可能である。更に、単語の種類またはジャンル等に応じて、削除する期間を変更することも可能である。 Next, the word deletion unit 301 uses the date and time of the clock 111 and the date and time attached to the word in the recognition dictionary to delete the updated word from the recognition dictionary a predetermined period (for example, one week) before. . However, the period for deletion can be set by the user. In addition, words included in the user-adaptive recognition dictionary can be deleted for a longer period than the basic recognition dictionary. Further, using the user's viewing history, words related to programs viewed in the past can be deleted. It can also be excluded from deletion. Furthermore, it is also possible to change the period of deletion according to the type or genre of the word.
なお、ハードリソースが乏しい場合は、重み付けをする代わりに、例えば、利用者の使用頻度の低い番組が分類されているジャンルの新規認識用単語の削除を行っても良い。 When the hard resources are scarce, instead of weighting, for example, a new recognition word of a genre in which a program less frequently used by the user is classified may be deleted.
また、重み付き利用者適応型認識辞書は、単語の種類に応じた重み付けの相違する辞書を複数個作成することも可能である。また、利用者別に視聴履歴を作成し、複数の利用者適応型認識辞書を作成しても良い。 Also, as the weighted user-adaptive recognition dictionary, it is possible to create a plurality of dictionaries having different weights according to the types of words. Alternatively, a viewing history may be created for each user, and a plurality of user-adaptive recognition dictionaries may be created.
また、利用者適応型認識辞書は、視聴履歴単語、過去認識単語のどちらか一方を用いて作成しても、同様な効果を得ることができる。
また、更新された単語には、更新日時が添付され、古い認識辞書に同一単語が存在する場合は、更新時の日時を再度添付する。
A similar effect can be obtained even if the user-adaptive recognition dictionary is created using either the viewing history word or the past recognition word.
The updated date and time is attached to the updated word. If the same word exists in the old recognition dictionary, the date and time at the time of updating is attached again.
以上の構成によれば、EPGデータ、利用者の視聴履歴及び音声認識履歴を参照して認識辞書を新たに作成し、前回作成した認識辞書を部分的に入れ替えることにより、最新のEPGデータに含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無を識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。 According to the above configuration, a new recognition dictionary is created with reference to the EPG data, the user's viewing history, and the voice recognition history, and the previously created recognition dictionary is partially replaced to be included in the latest EPG data. Words that are not recognized can be treated as words to be recognized, and when a program search is performed, errors in voice recognition and the presence or absence of search data can be identified, and a user-friendly voice interface can be realized. .
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。 Furthermore, since a plurality of recognition dictionaries are created and the user is allowed to select a recognition dictionary to be used, a user who thinks that the recognition rate of the voice recognition unit 109 is low is considered to be optimal from the plurality of dictionaries. By selecting a dictionary, the recognition rate can be improved and an easy-to-use interface can be realized.
(実施の形態4)
実施の形態1〜3では、テレビ放送番組を検索する場合について説明したが、本実施の形態4では、音楽コンテンツを検索する場合について説明する。
(Embodiment 4)
In the first to third embodiments, the case where a television broadcast program is searched has been described. In the fourth embodiment, a case where music content is searched will be described.
図20は本発明の実施の形態4に係る音声認識辞書作成装置を含む音楽案内装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。
この音楽案内装置は、図20に示すように実施の形態1のEPG受信部101、視聴履歴単語蓄積部106およびEPG蓄積部110に替えて、音楽データ・音楽情報・視聴履歴蓄積部401を備えている。また、単語抽出部402、辞書作成部403および制御部404の動作が、実施の形態1とは相違する。
FIG. 20 is a block diagram showing a configuration of a music guidance device including a speech recognition dictionary creation device according to Embodiment 4 of the present invention. The same parts as those in the first embodiment are denoted by the same reference numerals, and detailed description will be omitted.
As shown in FIG. 20, the music guide device includes a music data / music information / viewing history storage unit 401 instead of the EPG receiving unit 101, the viewing history word storage unit 106, and the EPG storage unit 110 of the first embodiment. ing. The operations of the word extraction unit 402, the dictionary creation unit 403, and the control unit 404 are different from those of the first embodiment.
音楽データ・音楽情報・視聴履歴蓄積部401は、音楽データ、音楽情報、および視聴履歴を記憶する蓄積部である。ここでは、音楽情報として、例えば図21に示すように音楽のタイトルを示す「音楽タイトル」、その音楽の演奏者を示す「アーティスト」、その音楽が収録されているアルバム名を示す「アルバム」、その音楽のジャンルを示す「ジャンル」、およびその音楽の演奏時間や発売日等を示す「詳細」が記録されている。 The music data / music information / viewing history storage unit 401 is a storage unit that stores music data, music information, and viewing history. Here, as the music information, for example, as shown in FIG. 21, "music title" indicating a music title, "artist" indicating a player of the music, "album" indicating an album name in which the music is recorded, A “genre” indicating the genre of the music, and “details” indicating the playing time and the release date of the music are recorded.
また、視聴履歴として、例えば図22に示すように音楽の「音楽タイトル」、その音楽が視聴された期間を示す「視聴期間」、その音楽が視聴された回数を示す「視聴回数」、およびその音楽をどこから蓄積したのかを示す「蓄積基」が記録されている。
単語抽出部402は、音楽情報から「音楽タイトル」、「アーティスト」、「アルバム」、「ジャンル」などの認識対象となる単語である新規認識用単語を抽出する。
Further, as the viewing history, for example, as shown in FIG. 22, the “music title” of the music, the “viewing period” indicating the period during which the music was viewed, the “viewing frequency” indicating the number of times the music was viewed, and the like. A “storage group” indicating where music was stored from is recorded.
The word extraction unit 402 extracts words for new recognition, which are words to be recognized, such as “music title”, “artist”, “album”, and “genre”, from the music information.
辞書作成部403は、単語抽出部402で抽出された新規認識用単語、及び固定単語蓄積部104に記憶されている固定単語に、音声認識に必要な読み仮名、品詞などの情報を加え、上記実施の形態1と同様に基本認識辞書を作成する。また、辞書作成部403は、認識単語蓄積部105に記憶されている過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、利用者適応型認識辞書を作成する。 The dictionary creation unit 403 adds information such as a reading kana and a part of speech necessary for speech recognition to the new recognition word extracted by the word extraction unit 402 and the fixed words stored in the fixed word storage unit 104. A basic recognition dictionary is created in the same manner as in the first embodiment. Further, the dictionary creating unit 403 refers to the past recognized words stored in the recognized word storage unit 105, and if a word other than the word registered in the basic recognition dictionary exists, the word registered in the basic recognition dictionary To create a user-adaptive recognition dictionary.
また、辞書作成部403は、単語が「音楽タイトル」、「アーティスト」、「アルバム」、「ジャンル」等の種類の何れであるかに応じて重み付けを行い、「対象重み係数」を決定する。このとき、辞書作成部403は、その音楽が未視聴であるか既に視聴されているかに応じて、それぞれの種類に対する重み付けを相違させて、「対象重み係数」を決定する。 Further, the dictionary creating unit 403 performs weighting according to whether the word is of a type such as “music title”, “artist”, “album”, “genre”, and determines a “target weight coefficient”. At this time, the dictionary creating unit 403 determines the “target weight coefficient” by making different weights for each type according to whether the music has not been viewed or has been viewed.
さらに、辞書作成部403は、単語が認識単語蓄積部105に過去認識単語として記憶されているか、視聴履歴を有する音楽に関する単語であるか否か、その音楽を蓄積したのが利用者であるかシステムであるかに応じて重み付けを行い、「履歴重み係数」を決定する。そして、辞書作成部403は、「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する。 Further, the dictionary creation unit 403 determines whether the word is stored as a previously recognized word in the recognized word storage unit 105, whether the word is related to music having a viewing history, and whether the user has stored the music. Weighting is performed according to whether the system is a system, and a “history weighting coefficient” is determined. Then, the dictionary creating unit 403 creates a weighted user-adaptive recognition dictionary that stores “target weight coefficient” and “history weight coefficient” in addition to “notation”, “read”, and “type”.
ここでは、その音楽が未視聴である場合には「対象重み係数」として、図23に示すように「種類」が音楽タイトルである単語には「1.1」、「種類」がアーティストである単語には「1.2」、「種類」がアルバムである単語には「1.1」、「種類」がジャンルである単語には「1.3」を与えている。一方、その音楽が既視聴である場合には「対象重み係数」として、「種類」が音楽タイトルである単語には「1.3」、「種類」がアーティストである単語には「1.3」、「種類」がアルバムである単語には「1.2」、「種類」がジャンルである単語には「1.3」を与えている。 Here, if the music has not been watched yet, the word “type” is a music title, as shown in FIG. 23, and “1.1”, “type” is an artist. "1.2" is assigned to the word, "1.1" is assigned to the word whose "type" is the album, and "1.3" is assigned to the word whose "type" is the genre. On the other hand, if the music has already been viewed, the word “type” is “1.3” for the word whose title is the music title, and “1.3” for the word whose type is the artist as the “target weight coefficient”. , "1.2" is given to words whose "type" is an album, and "1.3" is given to words whose "type" is a genre.
また、「履歴重み係数」として、認識単語蓄積部105に過去認識単語として記憶されていた単語には「1.2」、視聴履歴を有する音楽に関する単語には「1.1」、蓄積したのが利用者である音楽に関する単語には「1.2」を与えている。このとき、複数に該当する場合には、係数を加えて「履歴重み係数」とする。
なお、上記のように構成された音楽案内装置における辞書を作成するオンライン処理工程、および作成した辞書を用いて入力された音声を認識し、音楽を検索するオフライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
In addition, as a “history weighting coefficient”, “1.2” is stored for words stored as past recognized words in the recognized word storage unit 105, and “1.1” is stored for words related to music having a viewing history. "1.2" is given to words relating to music that is a user. At this time, if there is more than one, a coefficient is added to make a “history weighting coefficient”.
The operations of the online processing step of creating a dictionary and the offline processing step of recognizing input speech using the created dictionary and searching for music in the music guide device configured as described above are described in the embodiment. 1 and the description is omitted.
以上の構成によれば、音楽情報、利用者の視聴履歴及び音声認識履歴を参照して認識辞書を作成することにより、最新の音楽情報に含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無とを識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
また、登録単語に対して重み付けを行って「対象重み係数」や「履歴重み係数」等を付与して認識辞書を作成しているので、音声認識の認識率を向上することができる。
According to the above configuration, a word that is not included in the latest music information can be treated as a recognition target word by creating a recognition dictionary with reference to music information, a user's viewing history, and a voice recognition history. When a program search is performed, an error in voice recognition and the presence or absence of search data can be identified, and a user-friendly voice interface can be realized.
In addition, since the recognition dictionary is created by weighting the registered words and adding “target weight coefficient”, “history weight coefficient”, and the like, the recognition rate of speech recognition can be improved.
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。 Furthermore, since a plurality of recognition dictionaries are created and the user is allowed to select a recognition dictionary to be used, a user who thinks that the recognition rate of the voice recognition unit 109 is low is considered to be optimal from the plurality of dictionaries. By selecting a dictionary, the recognition rate can be improved and an easy-to-use interface can be realized.
なお、本実施の形態では、「履歴重み係数」について、単語が認識単語蓄積部105に過去認識単語として記憶されているか、視聴履歴を有する音楽に関する単語であるか否か、その音楽を蓄積したのが利用者であるかシステムであるかに応じて重み付けを行っているが、いずれか1つだけで重み付けを行っても構わない。また、それぞれ個別に「重み係数」を辞書に付加しても構わない。また、「重み係数」を認識回数または視聴回数や時刻等によって変更しても構わない。 In the present embodiment, for the “history weighting coefficient”, whether the word is stored in the recognized word storage unit 105 as a past recognized word, whether the word is related to music having a viewing history, or not is stored. Although weighting is performed according to whether the user is a user or a system, weighting may be performed using only one of them. Further, a “weight coefficient” may be individually added to the dictionary. Further, the “weight coefficient” may be changed according to the number of times of recognition or the number of times of viewing, time, or the like.
また、本実施の形態では、検索対象を未視聴であるか既に視聴されているかに分けずに検索することを想定しているが、これに限られるものではない。例えば、検索対象を未視聴であるか既に視聴されているかに分けて検索する場合には、検索対象を分けて検索する場合と検索対象を分けずに検索する場合とで、異なった「対象重み係数」を用いても構わない。 Further, in the present embodiment, it is assumed that the search is performed without dividing the search target into unviewed or already viewed, but the present invention is not limited to this. For example, when performing a search by dividing the search target into unviewed or already watched, different "target weights" are used when searching for the search target separately and when searching without separating the search target. A coefficient may be used.
(実施の形態5)
実施の形態4では、音楽コンテンツを検索する場合について説明したが、本実施の形態5では、店舗(飲食店)データを検索する場合について説明する。
(Embodiment 5)
In the fourth embodiment, a case in which music content is searched has been described. In the fifth embodiment, a case in which store (restaurant) data is searched will be described.
図24は本発明の実施の形態5に係る音声認識辞書作成装置を含む情報検索装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。 FIG. 24 is a block diagram showing a configuration of an information search device including a speech recognition dictionary creation device according to Embodiment 5 of the present invention. The same parts as those in the first embodiment are denoted by the same reference numerals, and detailed description will be omitted.
この情報検索装置は、図24に示すように実施の形態1のEPG受信部101、視聴履歴単語蓄積部106およびEPG蓄積部110に替えて、飲食店データ蓄積部501および利用情報保存部504を備えている。また、単語抽出部502、辞書作成部503および制御部505の動作が、実施の形態1とは相違する。
飲食店データ蓄積部501は、飲食店データを記憶する蓄積部である。ここでは、例えば図25に示すように飲食店の名称を示す「店名」、その飲食店の大まかなジャンルを示す「ジャンル1」、その飲食店の詳しいジャンルを示す「ジャンル2」、その飲食店の扱っているメニューを示す「主なメニュー」、およびその飲食店の営業時間を示す「営業時間」が記録されている。
As shown in FIG. 24, this information search device includes a restaurant data storage unit 501 and a usage information storage unit 504 instead of the EPG reception unit 101, the viewing history word storage unit 106, and the EPG storage unit 110 of the first embodiment. Have. Also, the operations of the word extraction unit 502, the dictionary creation unit 503, and the control unit 505 are different from those of the first embodiment.
The restaurant data storage unit 501 is a storage unit that stores restaurant data. Here, for example, as shown in FIG. 25, “store name” indicating the name of the restaurant, “genre 1” indicating the general genre of the restaurant, “genre 2” indicating the detailed genre of the restaurant, and the restaurant "Main menu" indicating the menu handled by the "" and "business hours" indicating the business hours of the restaurant are recorded.
利用情報保存部504は、利用者が利用した飲食店の利用情報を記憶する保存部である。ここでは、例えば図26に示すように飲食店の「店名」、その飲食店を利用者が利用した期間を示す「利用期間」、その飲食店を利用者が利用した回数を示す「利用回数」、およびその飲食店を利用者が利用した時間帯を示す「利用時間帯」が記録されている。
単語抽出部502は、飲食店データから「店名」、「ジャンル1」、「ジャンル2」、「主なメニュー」などの認識対象となる単語である新規認識用単語を抽出する。
The usage information storage unit 504 is a storage unit that stores usage information of a restaurant used by the user. Here, for example, as shown in FIG. 26, the “store name” of the restaurant, the “use period” indicating the period during which the user has used the restaurant, and the “use count” indicating the number of times the user has used the restaurant , And a “use time zone” indicating the time zone in which the restaurant was used by the user.
The word extraction unit 502 extracts new recognition words that are words to be recognized, such as “store name”, “genre 1”, “genre 2”, and “main menu”, from the restaurant data.
辞書作成部503は、単語抽出部502で抽出された新規認識用単語、及び固定単語蓄積部104に記憶されている固定単語に、音声認識に必要な読み仮名、品詞などの情報を加え、上記実施の形態1と同様に基本認識辞書を作成する。また、辞書作成部503は、認識単語蓄積部105に記憶されている過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、利用者適応型認識辞書を作成する。 The dictionary creation unit 503 adds the information such as the reading kana and the part of speech necessary for speech recognition to the new recognition word extracted by the word extraction unit 502 and the fixed words stored in the fixed word storage unit 104. A basic recognition dictionary is created in the same manner as in the first embodiment. Further, the dictionary creating unit 503 refers to the past recognized words stored in the recognized word storage unit 105 and, if there is a word other than the word registered in the basic recognition dictionary, adds the word to the word registered in the basic recognition dictionary. To create a user-adaptive recognition dictionary.
また、辞書作成部503は、単語が「店名」、「ジャンル1」、「ジャンル2」、「主なメニュー」等の種類の何れであるかに応じて重み付けを行い、「対象重み係数」を決定する。このとき、辞書作成部503は、その飲食店を利用者が利用したか否かに応じて、それぞれの種類に対する重み付けを相違させて、「対象重み係数」を決定する。
さらに、辞書作成部503は、単語が認識単語蓄積部105に過去認識単語として記憶されているかに応じて重み付けを行い、「履歴重み係数」を決定する。そして、辞書作成部503は、「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する。
Further, the dictionary creation unit 503 performs weighting according to the type of the word such as “store name”, “genre 1”, “genre 2”, “main menu”, and the like, and sets “object weight coefficient”. decide. At this time, the dictionary creating unit 503 determines the “target weight coefficient” by making different weights for each type according to whether or not the user has used the restaurant.
Further, the dictionary creating unit 503 performs weighting according to whether the word is stored in the recognized word storage unit 105 as a past recognized word, and determines a “history weight coefficient”. Then, the dictionary creating unit 503 creates a weighted user-adaptive recognition dictionary that stores “target weight coefficient” and “history weight coefficient” in addition to “notation”, “read”, and “type”.
ここでは、その飲食店が利用者によって利用されていない場合には「対象重み係数」として、図27に示すように「種類」が店名である単語には「1.1」、「種類」がジャンル1である単語には「1.4」、「種類」がジャンル2である単語には「1.3」、「種類」が主なメニューである単語には「1.3」を与えている。一方、その飲食店が利用者によって利用されている場合には「対象重み係数」として、「種類」が店名である単語には「1.4」、「種類」がジャンル1である単語には「1.3」、「種類」がジャンル2である単語には「1.4」、「種類」が主なメニューである単語には「1.2」を与えている。 Here, when the restaurant is not used by the user, as the “target weight coefficient”, as shown in FIG. A word of genre 1 is given “1.4”, a word of “type” is genre 2 is given “1.3”, and a word of “type” is a main menu is given “1.3”. I have. On the other hand, when the restaurant is used by a user, the word “type” is “1.4” as a “target weight coefficient”, and the word “type” is genre 1 as a word. "1.4" is given to words whose "1.3" and "type" are genre 2, and "1.2" is given to words whose main menu is "type".
また、「履歴重み係数」として、認識単語蓄積部105に過去認識単語として記憶されていた単語には「1.5」を与えている。
なお、上記のように構成された情報検索装置における辞書を作成するオンライン処理工程、および作成した辞書を用いて入力された音声を認識し、飲食店を検索するオフライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
In addition, “1.5” is given as a “history weighting coefficient” to a word stored in the recognized word storage unit 105 as a past recognized word.
The operation of the online processing step of creating a dictionary in the information search device configured as described above, and the operation of the offline processing step of recognizing input speech using the created dictionary and searching for restaurants are described in the following. The description is omitted because it is similar to the first embodiment.
以上の構成によれば、利用者の利用情報及び音声認識履歴を参照して認識辞書を作成することにより、最新の飲食店データに含まれない単語を、認識対象単語として扱うことができ、飲食店の検索を行った場合に、音声認識の誤りと検索データの有無とを識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
また、登録単語に対して重み付けを行って「対象重み係数」や「履歴重み係数」等を付与して認識辞書を作成しているので、音声認識の認識率を向上することができる。
According to the above configuration, a word that is not included in the latest restaurant data can be treated as a recognition target word by creating a recognition dictionary with reference to the user's usage information and the voice recognition history. When a store search is performed, an error in voice recognition and the presence or absence of search data can be identified, and a user-friendly voice interface can be realized.
In addition, since the recognition dictionary is created by weighting the registered words and adding “target weight coefficient”, “history weight coefficient”, and the like, the recognition rate of speech recognition can be improved.
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。
なお、本実施の形態では、「履歴重み係数」について、単語が認識単語蓄積部105に過去認識単語として記憶されているかに応じて重み付けを行っているが、例えば認識回数または利用回数や利用時間帯等によって変更しても構わない。
Furthermore, since a plurality of recognition dictionaries are created and the user is allowed to select a recognition dictionary to be used, a user who thinks that the recognition rate of the voice recognition unit 109 is low is considered to be optimal from the plurality of dictionaries. By selecting a dictionary, the recognition rate can be improved and an easy-to-use interface can be realized.
In the present embodiment, the “history weighting coefficient” is weighted according to whether the word is stored in the recognized word storage unit 105 as a past recognized word. It may be changed by a band or the like.
また、本実施の形態では、検索対象を利用経験のあるなしに分けずに検索することを想定しているが、これに限られるものではない。例えば、検索対象を利用経験のあるなしに分けて検索する場合には、検索対象を分けて検索する場合と検索対象を分けずに検索する場合とで、異なった「対象重み係数」を用いても構わない。 Further, in the present embodiment, it is assumed that a search is performed without dividing a search target into those who have or have not used the search object. However, the present invention is not limited to this. For example, when searching for a search target with or without experience in using it, a different "target weight coefficient" is used for searching for the search target separately and for searching without separating the search target. No problem.
以上のように、本発明に係る音声認識辞書作成装置および情報検索装置は、音声認識の認識率を向上させた認識辞書を作成することができ、例えば番組案内装置、音楽案内装置、およびカーナビゲーションシステム等の情報検索装置で、音声信号により情報を検索するのに有用である。 As described above, the speech recognition dictionary creation device and the information search device according to the present invention can create a recognition dictionary with an improved recognition rate of speech recognition. For example, a program guide device, a music guide device, and a car navigation device It is useful for an information search device such as a system to search for information by a voice signal.
101 EPG受信部
102、402、502 単語抽出部
103、204、303、403、503 辞書作成部
104 固定単語蓄積部
105 認識単語蓄積部
106 視聴履歴単語蓄積部
107 辞書蓄積部
108、205 辞書選択部
109 音声認識部
110 EPG蓄積部
111 時計
112、206、302、404、505 制御部
201 番組・EPG受信部
202 番組・EPG蓄積部
203 録画情報蓄積部
301 単語削除部
401 音楽データ・音楽情報・視聴履歴蓄積部
501 飲食店データ蓄積部
504 利用情報保存部
101 EPG receiving unit 102, 402, 502 Word extraction unit 103, 204, 303, 403, 503 Dictionary creation unit 104 Fixed word storage unit 105 Recognized word storage unit 106 Viewing history word storage unit 107 Dictionary storage unit 108, 205 Dictionary selection unit 109 Voice recognition unit 110 EPG storage unit 111 Clock 112, 206, 302, 404, 505 Control unit 201 Program / EPG reception unit 202 Program / EPG storage unit 203 Recording information storage unit 301 Word deletion unit 401 Music data / music information / viewing History storage unit 501 Restaurant data storage unit 504 Usage information storage unit
Claims (21)
利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、
取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、
予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、
入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、
前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、
作成された前記認識辞書を蓄積する辞書蓄積手段と
を備えることを特徴とする音声認識辞書作成装置。 A speech recognition dictionary creating apparatus for creating a recognition dictionary for performing speech recognition on data related to program information or music content ,
Viewing history word acquisition means for acquiring a viewing history word that is a word to be recognized based on the viewing experience of the data of the user,
Viewing history word accumulation means for accumulating the acquired viewing history words,
Fixed word storage means for storing a predetermined fixed word set in advance;
Word extraction means for extracting a new recognition word, which is a word to be recognized, from input program information or data relating to music content;
Dictionary creation means for creating a plurality of recognition dictionaries having different contents from the new recognition word, the fixed word, and the viewing history word ,
A speech recognition dictionary creating apparatus , comprising: dictionary storage means for storing the created recognition dictionary.
ことを特徴とする請求項1記載の音声認識辞書作成装置。 The speech recognition dictionary creation device according to claim 1, wherein the dictionary creation unit creates a plurality of the recognition dictionaries having different contents based on an attribute of a word registered in the recognition dictionary.
ことを特徴とする請求項1記載の音声認識辞書作成装置。 Before Symbol dictionary creating means, the word for the new recognition, the fixed word, and to determine a new registration word is a word to be registered in the recognition dictionary from the viewing history word, reading of the newly registered word to the newly registered word The speech recognition dictionary creation device according to claim 1, wherein the recognition dictionary is created by adding information indicating a kana and a part of speech.
ことを特徴とする請求項1記載の音声認識辞書作成装置。 The dictionary creation means determines the new recognition word and the fixed word, and words not included in the new recognition word and the fixed word in the viewing history words as the newly registered word. 2. The speech recognition dictionary creating device according to claim 1, wherein:
音声認識により認識された単語である過去認識単語を取得する認識単語取得手段と、
前記過去認識単語を蓄積するための過去認識単語蓄積手段とを備え、
前記辞書作成手段は、前記新規認識用単語、前記固定単語、前記視聴履歴単語、及び前記過去認識単語から内容の相違する前記認識辞書を複数個作成する
ことを特徴とする請求項1〜請求項4のいずれか1項に記載の音声認識辞書作成装置。 The voice recognition dictionary creation device further includes:
A recognized word acquiring means for acquiring a past recognized word that is a word recognized by voice recognition;
Comprising a past recognition word storage means for storing the past recognition words,
The dictionary creation means, said word for the new recognition, said fixed word, the viewing history word, and claims 1, wherein said recognition dictionary to a plurality create having different contents from the past recognized word 5. The speech recognition dictionary creating device according to any one of 4 .
ことを特徴とする請求項5記載の音声認識辞書作成装置。 The dictionary creating means determines a newly registered word to be registered in a recognition dictionary from the new recognition word, the fixed word, the viewing history word, and the past recognized word, and determines the newly registered word in the newly registered word. The speech recognition dictionary creation device according to claim 5, wherein the recognition dictionary is created by adding information indicating a word reading kana and a part of speech.
ことを特徴とする請求項6記載の音声認識辞書作成装置。 The dictionary creation unit may include the new recognition word and the fixed word, and the viewing history word and the past recognition word, and the words not included in the new recognition word and the fixed word, are added to the newly registered word. The speech recognition dictionary creation device according to claim 6, wherein:
ことを特徴とする請求項1または請求項5記載の音声認識辞書作成装置。 The dictionary creation means weights the newly registered word based on whether or not the word is included in the viewing history word, and adds the information on the weighting to create the recognition dictionary. The speech recognition dictionary creation device according to claim 1 or 5, wherein
ことを特徴とする請求項5記載の音声認識辞書作成装置。 The dictionary creation unit weights the newly registered word based on whether or not the word is included in the past recognition word, and adds the information on the weight to create the recognition dictionary. The speech recognition dictionary creation device according to claim 5, wherein
ことを特徴とする請求項5記載の音声認識辞書作成装置。 The dictionary creation unit weights the newly registered word based on whether or not the word is included in the viewing history word and the past recognition word, and adds information regarding the weighting to the recognition dictionary. The speech recognition dictionary creating device according to claim 5, wherein the dictionary is created.
前記単語抽出手段は、前記新規認識用単語とともに、前記新規認識用単語の属性を抽出し、
前記辞書作成手段は、前記新規認識用単語の属性に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成する
ことを特徴とする請求項1または請求項5記載の音声認識辞書作成装置。 The input data is structured data,
The word extracting means, together with the new recognition word, extracts an attribute of the new recognition word,
The dictionary creation means, wherein performs weighting of the newly registered word on the basis of the attributes of the word for the new recognition claim 1 or claim, characterized in that to create the recognition dictionary by adding information about the weighting 5. The speech recognition dictionary creation device according to 5.
ことを特徴とする請求項11記載の音声認識辞書作成装置。 The speech recognition dictionary according to claim 11 , wherein the dictionary creation unit creates a plurality of the recognition dictionaries in which weights of the newly registered words are different based on attributes of the new recognition word, according to purposes. Creation device.
前記辞書作成手段は、前記指示受付手段によって受け付けられた前記利用目的に関する指示に応じて、前記新規認識用単語の属性に基づく前記新規登録単語の重み付けを行って前記認識辞書を作成する
ことを特徴とする請求項11記載の音声認識辞書作成装置。 An instruction receiving unit that receives an instruction regarding a use purpose of the recognition dictionary from the user,
The dictionary creation unit creates the recognition dictionary by weighting the newly registered word based on the attribute of the new recognition word in accordance with the instruction on the purpose of use received by the instruction reception unit. The speech recognition dictionary creating device according to claim 11, wherein
前記利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、
前記辞書作成手段は、前記利用者認識情報毎に前記認識辞書を作成する
ことを特徴とする請求項1または請求項5記載の音声認識辞書作成装置。 The voice recognition dictionary creation device further includes:
Comprising user information acquisition means for acquiring user identification information for identifying the user,
The dictionary creation means, the user creating the recognition dictionary for each recognition information speech recognition dictionary creating apparatus according to claim 1 or claim 5 wherein.
利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、
前記辞書作成手段は、前記利用者認識情報毎にそれぞれ前記新規登録単語の重み付けを行って前記認識辞書を作成する
ことを特徴とする請求項11記載の音声認識辞書作成装置。 The voice recognition dictionary creation device further includes:
A user information acquisition unit for acquiring user identification information for identifying the user,
The speech recognition dictionary creation device according to claim 11 , wherein the dictionary creation unit creates the recognition dictionary by weighting the newly registered word for each of the user recognition information.
テレビ信号から電子番組ガイドであるEPGデータを分離するEPG受信手段を備え、
前記利用者の行動は、番組の視聴であり、
前記視聴履歴単語取得手段は、前記利用者の視聴に基づいて前記視聴履歴単語を取得し、
前記単語抽出手段は、前記EPGデータから前記属性である項目毎に前記新規認識用単語を抽出する
ことを特徴とする請求項1記載の音声認識辞書作成装置。 The voice recognition dictionary creation device further includes:
EPG receiving means for separating EPG data as an electronic program guide from a television signal,
The action of the user is watching a program,
The viewing history word acquiring means acquires the viewing history word based on the user's viewing ,
The word extracting unit, according to claim 1 speech recognition dictionary creating apparatus, wherein the extracting the word for a new recognition from the EPG data for each item that is the attribute.
ことを特徴とする請求項16記載の音声認識辞書作成装置。 17. The speech recognition according to claim 16 , wherein the dictionary creating unit weights the newly registered word based on the item of the EPG data, and creates the recognition dictionary by adding information relating to the weighting. Dictionary creation device.
ことを特徴とする請求項17記載の音声認識辞書作成装置。 The dictionary creating means includes a program recognition dictionary for future programs in which the weight for the registered word whose item is a genre is greater than the weight for the registered word whose item is a title, and the registered word whose item is a title. 18. The speech recognition dictionary creation device according to claim 17, wherein a speech recognition dictionary for a recorded program is created in which the weight of the recorded program is weighted more than the weight of the registered word whose item is the genre.
利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、
取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、
予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、
入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、
前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、
作成された前記認識辞書を蓄積する辞書蓄積手段と、
前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識手段と、
入力されるデータを蓄積するデータ蓄積手段と、
前記音声認識手段で認識された単語を前記データから検索し、該当する情報を出力する制御手段と
を備えることを特徴とする情報検索装置。 An information search device for creating a recognition dictionary for performing voice recognition on program information or data related to music content, and searching for information by a voice signal generated by a user's speech,
Viewing history word acquisition means for acquiring a viewing history word that is a word to be recognized based on the viewing experience of the data of the user,
Viewing history word accumulation means for accumulating the acquired viewing history words,
Fixed word storage means for storing a predetermined fixed word set in advance;
Word extraction means for extracting a new recognition word, which is a word to be recognized, from input program information or data relating to music content;
Dictionary creation means for creating a plurality of recognition dictionaries having different contents from the new recognition word, the fixed word, and the viewing history word ,
Dictionary storage means for storing the created recognition dictionary;
Voice recognition means for recognizing a specific word from the voice signal by referring to the recognition dictionary;
Data storage means for storing input data;
A control unit that searches the data for the word recognized by the voice recognition unit and outputs corresponding information.
利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得ステップと、
入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出ステップと、
前記新規認識用単語、予め設定される所定の固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成ステップと、
前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識ステップと、
前記音声認識ステップで認識された単語を前記入力されたデータから検索し、該当する情報を出力する制御ステップと
を含むことを特徴とする情報検索方法。 An information search method for creating a recognition dictionary for performing voice recognition on program information or data on music content, and searching for information by a voice signal generated by a user's speech,
A viewing history word obtaining step of obtaining a viewing history word that is a word to be recognized based on the viewing experience regarding the data of the user,
A word extraction step of extracting a new recognition word, which is a word to be recognized, from input program information or data relating to music content;
A dictionary creation step of creating a plurality of the recognition dictionaries having different contents from the new recognition word, a predetermined fixed word set in advance, and the viewing history word ;
A voice recognition step of recognizing a specific word from the voice signal by referring to the recognition dictionary;
A search step of searching the input data for a word recognized in the voice recognition step , and outputting corresponding information.
利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得ステップと、
入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出ステップと、
前記新規認識用単語、予め設定される所定の固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成ステップと、
前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識ステップと、
前記音声認識ステップで認識された単語を前記入力されたデータから検索し、該当する情報を出力する制御ステップと
をコンピュータに実行させることを特徴とするプログラム。 A program for creating a recognition dictionary for performing voice recognition on program information or data relating to music content and searching for information by a voice signal generated by a user's speech,
A viewing history word acquiring step of acquiring a viewing history word that is a word to be recognized based on the viewing experience of the user regarding the data,
A word extraction step of extracting a new recognition word, which is a word to be recognized, from input program information or data relating to music content;
A dictionary creation step of creating a plurality of the recognition dictionaries having different contents from the new recognition word, a predetermined fixed word set in advance, and the viewing history word ;
A voice recognition step of recognizing a specific word from the voice signal by referring to the recognition dictionary;
And a control step of searching the input data for the word recognized in the voice recognition step and outputting corresponding information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004056770A JP4601306B2 (en) | 2003-03-13 | 2004-03-01 | Information search apparatus, information search method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003068049 | 2003-03-13 | ||
JP2004056770A JP4601306B2 (en) | 2003-03-13 | 2004-03-01 | Information search apparatus, information search method, and program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004295102A JP2004295102A (en) | 2004-10-21 |
JP2004295102A5 true JP2004295102A5 (en) | 2007-04-12 |
JP4601306B2 JP4601306B2 (en) | 2010-12-22 |
Family
ID=33421626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004056770A Expired - Fee Related JP4601306B2 (en) | 2003-03-13 | 2004-03-01 | Information search apparatus, information search method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4601306B2 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007028463A (en) * | 2005-07-21 | 2007-02-01 | Sony Corp | Reception apparatus and program information presentation method |
JP2007140194A (en) * | 2005-11-18 | 2007-06-07 | Mitsubishi Electric Corp | Program retrieval device and morphemic dictionary control server |
JP4865324B2 (en) * | 2005-12-26 | 2012-02-01 | キヤノン株式会社 | Information processing apparatus and information processing apparatus control method |
JP2007178927A (en) * | 2005-12-28 | 2007-07-12 | Canon Inc | Information retrieving device and method |
JP2007256643A (en) * | 2006-03-23 | 2007-10-04 | Denso Corp | Voice recognition device and navigation system |
JP2007280104A (en) * | 2006-04-07 | 2007-10-25 | Pioneer Electronic Corp | Information processor, information processing method, information processing program, and computer readable recording medium |
US8620658B2 (en) | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
JP4987682B2 (en) * | 2007-04-16 | 2012-07-25 | ソニー株式会社 | Voice chat system, information processing apparatus, voice recognition method and program |
JP5558284B2 (en) * | 2010-09-15 | 2014-07-23 | 株式会社Nttドコモ | Speech recognition system, speech recognition method, and speech recognition program |
JP5694102B2 (en) * | 2011-09-22 | 2015-04-01 | 株式会社東芝 | Speech recognition apparatus, speech recognition method and program |
JP5706384B2 (en) * | 2012-09-24 | 2015-04-22 | 株式会社東芝 | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program |
JP6322125B2 (en) * | 2014-11-28 | 2018-05-09 | 日本電信電話株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP2015143866A (en) * | 2015-02-25 | 2015-08-06 | 株式会社東芝 | Voice recognition apparatus, voice recognition system, voice recognition method, and voice recognition program |
JP7132974B2 (en) * | 2020-05-19 | 2022-09-07 | Necパーソナルコンピュータ株式会社 | Video display device |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2559031B2 (en) * | 1986-09-01 | 1996-11-27 | 富士通株式会社 | Voice recognition system |
JP3444108B2 (en) * | 1996-09-24 | 2003-09-08 | 三菱電機株式会社 | Voice recognition device |
JP2000048029A (en) * | 1998-07-27 | 2000-02-18 | Toshiba Corp | Recording and reproducing device |
JP2001022374A (en) * | 1999-07-05 | 2001-01-26 | Victor Co Of Japan Ltd | Manipulator for electronic program guide and transmitter therefor |
JP3456176B2 (en) * | 1999-09-27 | 2003-10-14 | 日本電気株式会社 | Recording and playback processing device and recording and playback processing system |
JP2001166791A (en) * | 1999-12-13 | 2001-06-22 | Ricoh Co Ltd | Voice recognition remote control system device |
JP2001268669A (en) * | 2000-03-21 | 2001-09-28 | Ricoh Co Ltd | Device and method for equipment control using mobile telephone terminal and recording medium |
JP2001359010A (en) * | 2000-06-16 | 2001-12-26 | Nippon Hoso Kyokai <Nhk> | Broadcast method and broadcast system |
JP2002112126A (en) * | 2000-09-28 | 2002-04-12 | Toshiba Corp | View-video recording processing unit and view-video recording processing method |
JP2002269146A (en) * | 2001-03-08 | 2002-09-20 | Fujitsu Ltd | Word spotting information retrieving device, and method and program for realizing word spotting information retrieving device |
JP4581290B2 (en) * | 2001-05-16 | 2010-11-17 | パナソニック株式会社 | Speech recognition apparatus and speech recognition method |
-
2004
- 2004-03-01 JP JP2004056770A patent/JP4601306B2/en not_active Expired - Fee Related
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7437296B2 (en) | Speech recognition dictionary creation apparatus and information search apparatus | |
US11809483B2 (en) | Intelligent automated assistant for media search and playback | |
US8112420B2 (en) | Information search system, information processing apparatus and method, and information search apparatus and method | |
JP4910582B2 (en) | Information processing apparatus and method, and program | |
US20090129749A1 (en) | Video recorder and video reproduction method | |
EP2912855B1 (en) | Program recommendation device and program recommendation program | |
JP5029030B2 (en) | Information grant program, information grant device, and information grant method | |
US20200195983A1 (en) | Multimedia stream analysis and retrieval | |
JP4601306B2 (en) | Information search apparatus, information search method, and program | |
KR20040058285A (en) | Method and system for personal information retrieval, update and presentation | |
JP2007178927A (en) | Information retrieving device and method | |
JP2004295102A5 (en) | ||
US7761437B2 (en) | Named entity extracting apparatus, method, and program | |
US8352985B2 (en) | Method of storing and displaying broadcast contents and apparatus therefor | |
JP5320470B2 (en) | Title discrimination device | |
JP4734048B2 (en) | Information search device, information search method, and information search program | |
JP2005227545A (en) | Dictionary creation system, program guide system and dictionary creation method | |
JP4963861B2 (en) | Program information providing apparatus and program information providing method | |
JP4480654B2 (en) | Program search system | |
JP4166616B2 (en) | Preference information type data retrieval device | |
JP2008306300A (en) | Information processing device, method, and program | |
JP4731288B2 (en) | PROGRAM RECOMMENDATION DEVICE, PROGRAM RECOMMENDATION METHOD, PROGRAM RECOMMENDATION PROGRAM, AND RECORDING MEDIUM CONTAINING PROGRAM RECOMMENDATION PROGRAM | |
JP2014048946A (en) | Electric device and method for controlling the same | |
JP2006106451A (en) | Speech input method of television broadcast receiver | |
JPWO2006043499A1 (en) | Information processing apparatus, classification reference information database, information generation apparatus, information processing method, information generation method, information processing program, and recording medium recorded with information processing program |