JP2008145697A - Voice information selection device and voice information selection method - Google Patents
Voice information selection device and voice information selection method Download PDFInfo
- Publication number
- JP2008145697A JP2008145697A JP2006332246A JP2006332246A JP2008145697A JP 2008145697 A JP2008145697 A JP 2008145697A JP 2006332246 A JP2006332246 A JP 2006332246A JP 2006332246 A JP2006332246 A JP 2006332246A JP 2008145697 A JP2008145697 A JP 2008145697A
- Authority
- JP
- Japan
- Prior art keywords
- presentation
- presentation candidate
- candidate
- score
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、例えば、カーナビゲーションの音声認識結果である複数の提示候補、施設名や周辺施設などの検索結果である複数の提示候補、CTIにおける複数の提示候補などから、所望の提示候補を選択する音声情報選択装置及び音声情報選択方法に関するものである。 The present invention selects a desired presentation candidate from, for example, a plurality of presentation candidates that are speech recognition results of car navigation, a plurality of presentation candidates that are search results of facility names and surrounding facilities, a plurality of presentation candidates in CTI, and the like The present invention relates to a voice information selection device and a voice information selection method.
複数の提示候補の中から所望の提示候補を1つ選択する際に、最もよく使われる方法としては、提示候補のリストを画面上に表示し、ユーザがマウスやタッチパネルを使用して、そのリストの中から所望の提示候補を選択する方法がある。
この選択方法は、提示候補のリストを表示するディスプレイがあり、そのディスプレイの画面を注視しながら、提示候補の選択処理が行える場合には有効である。
しかし、自動車の運転中のように、ディスプレイの画面の注視や細かい機器操作が危険な状況にある場合や、一般的な電話のように、ディスプレイがない機器を利用する状況にある場合では、画面表示によらず候補の提示と選択を行う必要がある。
When selecting a desired presentation candidate from a plurality of presentation candidates, the most commonly used method is to display a list of presentation candidates on the screen, and the user can use the mouse or touch panel to display the list. There is a method for selecting a desired presentation candidate from among the above.
This selection method is effective when there is a display that displays a list of presentation candidates, and the selection process of the presentation candidates can be performed while gazing at the screen of the display.
However, if you are in a situation where it is dangerous to look at the display screen or perform detailed device operations, such as when driving a car, or if you are using a device that does not have a display, such as a general phone, It is necessary to present and select candidates regardless of the display.
従来、このような状況にある場合、音声によって候補を提示する音声情報選択装置が使用されている。
従来の音声情報選択装置では、音声によって候補を提示する場合、複数の提示候補を何らかの優先度で順位付けして(例えば、複数の提示候補が周辺施設の検索結果であれば、自車位置から距離が短い順、複数の提示候補が音声認識結果であれば、音声の認識尤度が高い順)、順番に提示候補の名称を表す音声を出力するようにしている。
ユーザは、「次候補」や「前候補」の操作ボタンを使用して、音声情報選択装置から出力される音声を変更しながら複数の提示候補を確認し、所望の提示候補が見つかると「選択」の操作ボタンを使用して、所望の提示候補を決定するようにしている(例えば、特許文献1参照)。
Conventionally, in such a situation, a voice information selection device that presents candidates by voice has been used.
In the conventional voice information selection device, when presenting candidates by voice, the plurality of presentation candidates are ranked with some priority (for example, if the plurality of presentation candidates are search results of surrounding facilities, the vehicle position is The voices representing the names of the presentation candidates are output in order from the shortest distance, in the order of the highest speech recognition likelihood (if the plurality of presentation candidates are voice recognition results).
The user confirms a plurality of presentation candidates while changing the voice output from the voice information selection device using the “next candidate” and “previous candidate” operation buttons. ”Is used to determine a desired presentation candidate (see, for example, Patent Document 1).
即ち、音声情報選択装置は、順位が高い提示候補から順番に、その提示候補の名称を表す音声を出力するが、ユーザが提示候補の名称を途中まで聴いた時点で、その提示候補が所望の提示候補でないことが理解できるような場合でも、その提示候補の名称を表す音声の全てを最後まで出力するようにすると、多くの時間を費やすことになる。
そこで、音声情報選択装置は、提示候補の選択時間を短縮する観点から、ユーザによる「次候補」や「前候補」の操作を受け付けて、提示候補の名称を表す音声の出力中であっても、他の提示候補に切り換えることができるようにしている。
しかし、従来の音声情報選択装置は、提示中の候補を他の提示候補に切り換える際、提示中の候補が所望の提示候補でないとするユーザの意図を汲み取って、他の提示候補の順位付けを変更するものではなく、他の提示候補の順位付けは固定であるため、ユーザによる提示候補の選択操作の回数を減らすことはできない。
That is, the voice information selection device outputs voices representing the names of the presentation candidates in order from the presentation candidate with the highest ranking, but when the user listens to the name of the presentation candidate halfway, the presentation candidate is desired. Even when it can be understood that the candidate is not a presentation candidate, if all of the voice representing the name of the presentation candidate is output to the end, a lot of time is spent.
Therefore, from the viewpoint of shortening the selection time of the presentation candidate, the voice information selection device accepts the operation of “next candidate” or “previous candidate” by the user and is outputting the voice representing the name of the presentation candidate. , It is possible to switch to another presentation candidate.
However, when switching the candidate being presented to another presentation candidate, the conventional audio information selection device draws the user's intention that the candidate being presented is not the desired presentation candidate, and ranks the other presentation candidates. Since the ranking of other presentation candidates is not fixed, the number of operations for selecting the presentation candidates by the user cannot be reduced.
上記の音声情報選択装置の他に、提示中の候補に対するユーザの評価を受け付けて、他の提示候補の順位付けを変更する音声情報選択装置も開発されている(例えば、特許文献2参照)。
この音声情報選択装置では、提示中の候補に関する音声出力が終了すると、ユーザから「良い」、「違う」、「全く違う」の評価を入力する。
ユーザから「違う」が入力された場合には、スコアが高い次の提示候補に関する音声出力を開始し、ユーザから「全く違う」が入力された場合には、閾値以上の提示候補を削除するとともに、閾値以下でスコアが最大の提示候補を選択してスコアを再計算する。そして、スコアが最大の提示候補に関する音声を出力する。
ユーザから「良い」が入力された場合には、直前に音声出力している提示候補を選択結果に決定する。選択候補がなくなった場合は、再度、音声の認識処理を実施する。
In addition to the voice information selection device described above, a voice information selection device has been developed that accepts user evaluation of candidates being presented and changes the ranking of other presentation candidates (see, for example, Patent Document 2).
In this audio information selection device, when the audio output related to the candidate being presented ends, the user inputs evaluations of “good”, “different”, and “very different”.
When “different” is input from the user, voice output about the next presentation candidate with a high score is started, and when “very different” is input from the user, the presentation candidates exceeding the threshold are deleted. The presentation candidate having the maximum score below the threshold is selected and the score is recalculated. And the audio | voice regarding the presentation candidate with the largest score is output.
When “good” is input from the user, the presentation candidate that is output immediately before is determined as the selection result. If there are no more selection candidates, speech recognition processing is performed again.
このように、上記の音声情報選択装置では、「良い」、「違う」、「全く違う」の評価で提示候補の順位付けを変更しているが、システムが持つデータ構造の距離(類似度)に対応付けているので、音声認識結果としては、全く異なるものが候補として提示されたときにユーザが「全く違う」の評価を入力すると、データ構造として、異なりが大きいものが選択されてしまうため、ユーザの判断基準と異なる候補変更が行われ、結果的に操作回数の削減が有効に働かない可能性が高くなる。 As described above, in the above-described audio information selection device, the ranking of the presentation candidates is changed based on the evaluation of “good”, “different”, or “completely different”, but the distance (similarity) of the data structure of the system As a result of speech recognition, when a completely different one is presented as a candidate and the user inputs a “very different” evaluation, a data structure having a large difference is selected. Candidate changes different from the user's criteria are made, and as a result, there is a high possibility that the reduction in the number of operations will not work effectively.
例えば、ユーザが「横浜市旭区役所」(ヨコハマシアサヒクヤクショ)を発声したときの音声認識結果として、「横浜市旭区矢指町」(ヨコハマシアサヒクヤサシチョー)や、「横浜市緑区役所」(ヨコハマシミドリクヤクショ)が得られたものとする。
「横浜市緑区役所」は、「横浜市旭区役所」とジャンルが同じで、発声内容との異なりも、ほんの一部だけなので、ユーザは「違う」と評価する可能性が高い。
一方、「横浜市旭区矢指町」については、地理的には近く、音としても類似している部分が多いが、「横浜市旭区役所」とジャンルが異なる。
このため、ユーザによって、「違う」という評価と、「まったく違う」という評価に分かれる可能性が高い。
このように、音声認識結果としての距離と、カテゴリによる距離とは、判断基準がまったく異なるため、提示順の変更はユーザの意図を反映できない可能性が高い。
For example, as a voice recognition result when the user utters “Yokohama Asahi Ward Office” (Yokohama Sahiku Yakusho), “Asahi Ward Yahagicho” (Yokohama Sahiku Yasashicho) ”(Yokohama Midokuryakusho) shall be obtained.
“Yokohama City Midori Ward Office” has the same genre as “Yokohama City Asahi Ward Office”, and the content of the utterance is only a small part, so the user is likely to evaluate as “different”.
On the other hand, “Yazawa-machi, Asahi-ku, Yokohama-shi” is geographically close and has many similar sounds, but the genre is different from “Asahi-ku government office in Yokohama-shi”.
For this reason, there is a high possibility that a user will be divided into an evaluation of “different” and an evaluation of “very different”.
As described above, since the determination criterion is completely different between the distance as the voice recognition result and the distance according to the category, there is a high possibility that the change in the presentation order cannot reflect the intention of the user.
従来の音声情報選択装置は以上のように構成されているので、提示候補の名称を表す音声を出力している途中でも、ユーザが他の提示候補に切り換えることができる。しかし、提示中の候補を他の提示候補に切り換える際、提示中の候補が所望の提示候補でないとするユーザの意図を汲み取って、他の提示候補の順位付けを変更するものではなく、他の提示候補の順位付けは固定であるため、ユーザによる提示候補の選択操作の回数を減らすことができないなどの課題があった。 Since the conventional audio information selection apparatus is configured as described above, the user can switch to another presentation candidate even while outputting the voice representing the name of the presentation candidate. However, when switching the presenting candidate to another presenting candidate, the user's intention that the presenting candidate is not the desired presenting candidate is taken into consideration, and the ranking of the other presenting candidates is not changed. Since the ranking of the presentation candidates is fixed, there is a problem that the number of operations for selecting the presentation candidates by the user cannot be reduced.
この発明は上記のような課題を解決するためになされたもので、ユーザの意図を提示候補の提示順位に反映して、少ない操作で所望の提示候補を選択することができる音声情報選択装置及び音声情報選択方法を得ることを目的とする。 The present invention has been made in order to solve the above-described problems, and an audio information selection device capable of selecting a desired presentation candidate with few operations by reflecting the user's intention in the presentation candidate presentation order, and An object is to obtain a voice information selection method.
この発明に係る音声情報選択装置は、提示候補リスト保持手段に保持されている提示候補リストの中から最もスコアが高い提示候補を選択する提示候補選択手段と、提示候補選択手段により選択された提示候補の名称を表す音声を生成して、その提示候補の名称を表す音声を出力する音声出力手段とを設け、スコア更新手段が音声出力手段における提示候補の名称を表す音声の出力が完了する前に提示候補の変更要求を受けると、提示候補リストに記録されている提示候補のスコアを更新して、提示候補の再選択を提示候補選択手段に指示するようにしたものである。 The audio information selection device according to the present invention includes a presentation candidate selection unit that selects a presentation candidate with the highest score from the presentation candidate list held in the presentation candidate list holding unit, and a presentation selected by the presentation candidate selection unit A voice output unit that generates a voice representing the name of the candidate and outputs a voice representing the name of the presentation candidate, and before the score update unit completes outputting the voice representing the name of the presentation candidate in the voice output unit When the request for changing the presentation candidate is received, the score of the presentation candidate recorded in the presentation candidate list is updated, and the re-selection of the presentation candidate is instructed to the presentation candidate selection means.
この発明によれば、提示候補リスト保持手段に保持されている提示候補リストの中から最もスコアが高い提示候補を選択する提示候補選択手段と、提示候補選択手段により選択された提示候補の名称を表す音声を生成して、その提示候補の名称を表す音声を出力する音声出力手段とを設け、スコア更新手段が音声出力手段における提示候補の名称を表す音声の出力が完了する前に提示候補の変更要求を受けると、提示候補リストに記録されている提示候補のスコアを更新して、提示候補の再選択を提示候補選択手段に指示するように構成したので、ユーザの意図を提示候補の提示順位に反映して、少ない操作で所望の提示候補を選択することができる効果がある。 According to this invention, the presentation candidate selection means for selecting the presentation candidate with the highest score from the presentation candidate list held in the presentation candidate list holding means, and the name of the presentation candidate selected by the presentation candidate selection means Voice output means for generating a voice representing the name of the presentation candidate and outputting a voice representing the name of the presentation candidate, and the score updating means before the completion of the output of the voice representing the name of the presentation candidate in the voice output means When the change request is received, the presentation candidate score recorded in the presentation candidate list is updated, and the presentation candidate selection unit is instructed to reselect the presentation candidate. There is an effect that a desired presentation candidate can be selected with a small number of operations, reflecting the ranking.
実施の形態1.
図1はこの発明の実施の形態1による音声情報選択装置を示す構成図であり、図において、提示候補リスト入力端子1は複数の提示候補のスコア、施設名称(仮名漢字混じりのテキスト)、音韻記号と韻律記号からなる読み情報(以下、「中間言語」と称する)及び地理的な位置情報が記録されている提示候補リストを入力する端子である。
この発明の実施の形態1では、提示候補リスト入力端子1から入力される提示候補リストに記録されている提示候補は、データベースから所定の検索条件で検索された検索結果であるものとする。
提示候補リスト保持部2は提示候補リスト入力端子1から入力された提示候補リストを保持するメモリである。なお、提示候補リスト保持部2は提示候補リスト保持手段を構成している。
FIG. 1 is a block diagram showing a speech information selection apparatus according to
In the first embodiment of the present invention, it is assumed that the presentation candidates recorded in the presentation candidate list input from the presentation candidate
The presentation candidate
ユーザ要求入力端子3は例えば「次候補」や「前候補」の機能ボタンやタッチパネルに対応するユーザ要求信号(提示候補の変更要求)のほか、「選択」の機能ボタンやタッチパネルに対応するユーザ要求信号(提示候補の選択要求)を入力する端子である。
ユーザ要求信号入力部4はユーザ要求入力端子3から入力されたユーザ要求信号を提示候補制御部5に通知する処理を実施する。
The user
The user request
提示候補制御部5は提示候補選択部5aとスコア更新部5bから構成されており、提示候補選択部5aは提示候補リスト保持部2に保持されている提示候補リストの中から最もスコアが高い提示候補を選択する処理を実施する。なお、提示候補選択部5aは提示候補選択手段を構成している。
提示候補制御部5のスコア更新部5bは後述する音声出力部7における音声の出力が完了する前に、ユーザ要求信号入力部4から提示候補の変更要求を示すユーザ要求信号を受けると、その提示候補リストに記録されている提示候補のスコアを更新して、提示候補の再選択を提示候補選択部5aに指示する処理を実施する。なお、スコア更新部5bはスコア更新手段を構成している。
The presentation
When the
音声合成部6は提示候補制御部5の提示候補選択部5aにより選択された提示候補の施設名称を表す合成音を生成するとともに、その合成音における各アクセント句の音声出力開始時刻、その合成音の音声出力終了時刻及び提示候補の変更要求の入力時刻を示す時刻情報を生成する処理を実施する。
音声出力部7は音声合成部6により生成された合成音をスピーカ8に出力するとともに、その合成音の出力の進行状況に応じて、アクセント句の音声出力開始時刻や合成音の音声出力終了時刻を示す時刻情報を提示候補制御部5に通知する処理を実施する。なお、音声合成部6、音声出力部7及びスピーカ8から音声出力手段が構成されている。
The
The
図2はこの発明の実施の形態1による音声情報選択方法を示すフローチャートであり、図3は図2のステップST13の詳細を示すフローチャートである。
図4は音声合成部6により生成される合成音と、各アクセント句の音声出力開始時刻、合成音の音声出力終了時刻及び提示候補の変更要求の入力時刻を示す時刻情報との関係を示している説明図である。
図において、21は合成音を表しており、合成音21は3つのアクセント句「○○ドーナツ」、「東神奈川」、「駅前ショップ」から構成されている例を示している。
22は最初のアクセント句である「○○ドーナツ」が、スコアの下げ対象となる場合のスコア下げ範囲を示している。
23はアクセント句「○○ドーナツ」の音声出力開始時刻、24はアクセント句「東神奈川」の音声出力開始時刻、25はアクセント句「駅前ショップ」の音声出力開始時刻、26は合成音21の音声出力終了時刻、27は提示候補の変更要求の入力時刻を示している。
なお、入力時刻27は、「ドオナツ」の音節「オ」を音声出力しているときに「次候補」に対応するユーザ要求信号(提示候補の変更要求)が入力されたことを示している。
FIG. 2 is a flowchart showing the audio information selection method according to
FIG. 4 shows the relationship between the synthesized speech generated by the
In the figure, 21 represents a synthesized sound, and the synthesized
23 is the voice output start time of the accent phrase “XX donut”, 24 is the voice output start time of the accent phrase “Higashikanagawa”, 25 is the voice output start time of the accent phrase “Ekimae Shop”, and 26 is the voice of the synthesized
Note that the
図5はカーナビゲーションシステムにより周辺施設が検索されたときの検索結果として、複数の提示候補が記録されている提示候補リストを示す説明図である。
図において、提示候補リスト31は提示候補リスト入力端子1がカーナビゲーションシステムから入力されるリスト、提示候補リスト41は提示候補制御部5のスコア更新部5bにより提示候補リスト31のスコアが更新されたリストである。
提示候補リスト51は提示候補制御部5のスコア更新部5bにより提示候補リスト41のスコアが更新されたリストであり、提示候補リスト61は提示候補制御部5のスコア更新部5bにより提示候補リスト51のスコアが更新されたリストである。
提示候補32〜34は提示候補リスト31に記録されている提示候補、提示候補42〜48は提示候補リスト41に記録されている提示候補、提示候補52〜58は提示候補リスト51に記録されている提示候補、提示候補62,63は提示候補リスト61に記録されている提示候補である。
FIG. 5 is an explanatory diagram showing a presentation candidate list in which a plurality of presentation candidates are recorded as a search result when a peripheral facility is searched by the car navigation system.
In the figure, the presentation candidate list 31 is a list in which the presentation candidate
The
The
提示候補の読み情報において、下線が引かれている部分は、地名を表す単語を含む部分を示している。地名か否かの判断は、例えば、次のような方法で判定することができる。
当該施設の位置情報から位置が分り、施設の住所も取り出すことができるので、その住所に含まれる単語、隣接する住所に含まれる単語、あるいは、位置から計算できる最寄り駅の名称を含む単語は地名と判断する。
図6はスコア下げ単語が地名である場合のスコア下げ計算方法を説明する説明図であり、図において、71は現在の自車位置を示し、72〜74は提示候補52〜54の位置を示している。
In the reading information of the presentation candidates, the underlined portion indicates a portion including a word representing a place name. The determination of whether or not the name is a place name can be made by, for example, the following method.
Because the location is known from the location information of the facility and the address of the facility can be taken out, the word included in the address, the word included in the adjacent address, or the word including the name of the nearest station that can be calculated from the location is the place name Judge.
FIG. 6 is an explanatory diagram for explaining a score reduction calculation method when the score reduction word is a place name. In the figure, 71 indicates the current vehicle position, and 72-74 indicate the positions of the presentation candidates 52-54. ing.
次に動作について説明する。
この実施の形態1では、カーナビゲーションシステムでの利用を想定し、例えば、カーナビゲーションシステムが自車位置の周辺施設を検索するものとする。
例えば、ユーザが図示せぬカーナビゲーションシステムの音声入力部に向けて「近くのファーストフード」と発声することにより、図示せぬカーナビゲーションシステムの音声認識部が「近くのファーストフード」を正しく認識し、図示せぬカーナビゲーションシステムのデータ検索部が施設名データベースから該当するジャンル「ファーストフード」の施設を検索するものとする。
このとき、カーナビゲーションシステムのデータ検索部が検索結果(提示候補)として、施設名、読み情報及び位置情報からなる提示候補をスコア順にソートして提示候補リスト31を生成し、その提示候補リスト31が提示候補リスト入力端子1から入力されるものとする。
Next, the operation will be described.
In the first embodiment, it is assumed that the car navigation system is used, and for example, the car navigation system searches for surrounding facilities at the position of the vehicle.
For example, when the user utters “near fast food” toward the voice input unit of a car navigation system (not shown), the voice recognition unit of the car navigation system (not shown) correctly recognizes “near fast food”. Assume that a data search unit of a car navigation system (not shown) searches a facility of the corresponding genre “fast food” from the facility name database.
At this time, the data search unit of the car navigation system generates the presentation candidate list 31 by sorting the presentation candidates including the facility name, the reading information, and the position information in the order of score as the retrieval result (presentation candidate). Is input from the presentation candidate
提示候補制御部5の提示候補選択部5aは、提示候補リスト入力端子1から提示候補リスト31が入力されると、その提示候補リスト31を提示候補リスト保持部2に格納する(ステップST1)。
また、提示候補制御部5の提示候補選択部5aは、情報提示位置を示す情報提示位置変数Iに“1”を初期設定する(ステップST2)。
When the presentation candidate list 31 is input from the presentation candidate
Further, the presentation
提示候補制御部5の提示候補選択部5aは、提示候補リスト31に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=1であるため、1番目の提示候補である施設名称が「○○ドーナツ東神奈川駅前ショップ」の提示候補32を選択し、その提示候補32の読み情報を音声合成部6に出力する。
The presentation
At this time, since I = 1, the first candidate for presentation, the facility name “XX Donut Higashi-Kanagawa Ekimae Shop” is selected, and the reading information of the
音声合成部6は、提示候補制御部5の提示候補選択部5aから提示候補32の読み情報を受けると、その読み情報である中間言語から提示候補32の施設名称を表す合成音21を生成して、その合成音21を音声出力部7に出力する(ステップST3)。
ここでは、提示候補32の読み情報である中間言語を合成音21に変換する手法を想定しているが、仮名漢字混じりのテキストを解析して合成音21を生成するようにしてもよい。
また、音声合成部6は、提示候補32の施設名称を表す合成音21を生成すると、その合成音21における各アクセント句の音声出力開始時刻23,24,25を示す時刻情報と、その合成音21の音声出力終了時刻26を示す時刻情報とを生成して、それらの時刻情報を音声出力部7に出力する。
When the
Here, although the method of converting the intermediate language which is the reading information of the
When the
音声出力部7は、音声合成部6から合成音21と時刻情報を受けると、その合成音21の先頭から順番にスピーカ8に出力することにより、その合成音21の再生を開始する(ステップST4)。
また、音声出力部7は、合成音21の再生を開始すると、その合成音21の再生の進行状況に応じて、アクセント句の音声出力開始時刻や合成音の音声出力終了時刻を示す時刻情報を提示候補制御部5に通知する。
具体的には、アクセント句「○○ドーナツ」の再生を開始するタイミングで、音声出力開始時刻23を示す時刻情報を提示候補制御部5に通知し、アクセント句「東神奈川」の再生を開始するタイミングで、音声出力開始時刻24を示す時刻情報を提示候補制御部5に通知し、アクセント句「駅前ショップ」の再生を開始するタイミングで、音声出力開始時刻25を示す時刻情報を提示候補制御部5に通知する。
また、アクセント句「駅前ショップ」の再生が完了したタイミングで、合成音21の音声出力終了時刻26を示す時刻情報を提示候補制御部5に通知する。
Upon receiving the synthesized
In addition, when the
Specifically, time information indicating the audio output start
In addition, time information indicating the audio
提示候補制御部5のスコア更新部5bは、音声出力部7からの通知(音声出力開始時刻23〜25を示す時刻情報、音声出力終了時刻26を示す時刻情報)を待つとともに、ユーザ要求信号入力部4からの通知(提示候補の変更要求を示すユーザ要求信号、提示候補の選択要求を示すユーザ要求信号)を待つ処理を実施する(ステップST5)。
提示候補制御部5のスコア更新部5bは、音声出力部7又はユーザ要求信号入力部4から通知を受けると、音声出力部7又はユーザ要求信号入力部4の何れかから通知を受けたかを判定する(ステップST6)。
図4の例では、最初に、音声出力部7からアクセント句「○○ドーナツ」の再生を開始するタイミングで、音声出力開始時刻23を示す時刻情報が通知されたのち、「ドオナツ」の音節「オ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が通知されるので、この時点では、音声出力部7から音声出力開始時刻23を示す時刻情報が通知される。
The
When receiving the notification from the
In the example of FIG. 4, first, the time information indicating the sound output start
提示候補制御部5のスコア更新部5bは、音声出力部7からアクセント句「○○ドーナツ」の再生を開始するタイミングで、音声出力開始時刻23を示す時刻情報が通知されると(ステップST5、ST6)、合成音21の再生位置を示す再生位置情報を“現在、アクセント句「○○ドーナツ」を再生している途中”であることがわかるように更新する(ステップST7)。
提示候補制御部5のスコア更新部5bは、合成音21の再生位置を示す再生位置情報を更新すると、その合成音21の再生が完了したか否かを判定する(ステップST8)。
この時点では、音声出力部7から音声出力終了時刻26を示す時刻情報の通知を受けていないので、合成音21の再生が完了していないと判定して、ステップST5の処理に戻る。
When the
When the
At this time, since the notification of the time information indicating the audio
次に、提示候補制御部5のスコア更新部5bは、「ドオナツ」の音節「オ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けると(ステップST5、ST6)、そのユーザ要求信号が提示候補32の選択要求であるか否かを判定する(ステップST10)。
そのユーザ要求信号が提示候補32の選択要求(提示候補32に決定する要求)であれば、一連の処理を終了するが、この時点では、ユーザ要求信号入力部4から通知されたユーザ要求信号は、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるため、ステップST11の処理に移行する。
Next, the
If the user request signal is a request for selecting the presentation candidate 32 (a request to be determined as the presentation candidate 32), the series of processing ends. At this point, the user request signal notified from the user request
提示候補制御部5のスコア更新部5bは、ステップST11において、ユーザ要求信号入力部4から通知されたユーザ要求信号が、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるか否かを判定する。
この時点では、上述したように、ユーザ要求信号入力部4から通知されたユーザ要求信号は、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるため、I+1番目以降の提示候補(I+1番目の提示候補を含む)のスコアを再評価する(ステップST13)。
この時点では、I=1であるため、2番目〜11番目の提示候補のスコアを再評価する。
In step ST11, the
At this time, as described above, the user request signal notified from the user request
At this time, since I = 1, the scores of the second to eleventh presentation candidates are reevaluated.
即ち、提示候補制御部5のスコア更新部5bは、「ドオナツ」の音節「オ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けているので、アクセント句「○○ドーナツ」をスコア下げ単語に決定する(図3のステップST21)。
なお、音声出力部7から音声出力終了時刻26を示す時刻情報の通知を受けた後に、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けたような場合には、スコア下げ単語を決定することができない。
That is, the
After receiving notification of time information indicating the audio
提示候補制御部5のスコア更新部5bは、スコア下げ単語を決定すると(ステップST22)、そのスコア下げ単語が地名であるか否かを判定する(ステップST23)。
この時点では、アクセント句「○○ドーナツ」をスコア下げ単語に決定しているので、スコア下げ単語が地名ではないと判定する。
提示候補制御部5のスコア更新部5bは、スコア下げ単語が地名ではないと判定すると、提示候補リスト31に記録されている2番目〜11番目の提示候補の中で、スコア下げ単語「○○ドーナツ」を含む提示候補32,33,34のスコアを下げるための再計算を行う(ステップST25)。
When the
At this point in time, the accent phrase “XX donut” has been determined as the score-lowering word, so it is determined that the score-lowering word is not a place name.
When the
ここでは、スコアの再計算として、例えば、元のスコアの5分の1を再計算後のスコアとする方法を採用する。
これにより、提示候補32のスコアは0.18、提示候補33のスコアは0.144、提示候補34のスコアは0.076になる。
既に提示済みの候補データ32の提示順位は変わらないが、提示候補33は提示候補47、提示候補34は提示候補48の提示順位に変更される。それ以外の提示候補は、提示候補33,34が抜けた分、提示順位が上になる。
提示候補制御部5のスコア更新部5bは、上記のようにして、提示候補リスト31に記録されている提示候補の提示順位を変更すると、変更後の提示順位を反映している提示候補リスト41を提示候補リスト保持部2に再設定する(ステップST26)。
Here, as the recalculation of the score, for example, a method is adopted in which 1/5 of the original score is used as the recalculated score.
As a result, the score of the
Although the presentation order of the already presented
When the
提示候補制御部5の提示候補選択部5aは、スコア更新部5bが変更後の提示順位を反映している提示候補リスト41を提示候補リスト保持部2に再設定すると、次に提示する提示候補を選択するため、現在の情報提示位置変数Iをインクリメントする(ステップST14)。
この時点では、I=1であるため、I←I+1によってI=2になる。
The presentation
At this time, since I = 1, I = 2 by I ← I + 1.
提示候補制御部5の提示候補選択部5aは、提示候補リスト41に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=2であるため、2番目の提示候補である施設名称が「○△ナルド東神奈川駅前店」の提示候補42を選択し、その提示候補42の読み情報を音声合成部6に出力する。
The presentation
At this time, since I = 2, the
音声合成部6は、提示候補制御部5の提示候補選択部5aから提示候補42の読み情報を受けると、提示候補32の場合と同様に、その提示候補42の読み情報である中間言語から提示候補42の施設名称を表す合成音を生成して、その合成音を音声出力部7に出力する(ステップST3)。
また、音声合成部6は、提示候補42の施設名称を表す合成音を生成すると、提示候補32の場合と同様に、その合成音における各アクセント句の音声出力開始時刻を示す時刻情報と、その合成音の音声出力終了時刻を示す時刻情報とを生成して、それらの時刻情報を音声出力部7に出力する。
When the
Moreover, when the
音声出力部7は、音声合成部6から合成音と時刻情報を受けると、提示候補32の場合と同様に、その合成音の先頭から順番にスピーカ8に出力することにより、その合成音の再生を開始する(ステップST4)。
また、音声出力部7は、合成音の再生を開始すると、その合成音の再生の進行状況に応じて、アクセント句の音声出力開始時刻や合成音の音声出力終了時刻を示す時刻情報を提示候補制御部5に通知する。
この例では、説明の便宜上、「マルサンカクナルド」の音節「サ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が提示候補制御部5に通知されるものとする。
When the
In addition, when the
In this example, for convenience of explanation, the user request signal corresponding to the “next candidate” from the user request
提示候補制御部5のスコア更新部5bは、提示候補32の場合と同様に、音声出力部7からの通知(音声出力開始時刻を示す時刻情報、音声出力終了時刻を示す時刻情報)を待つとともに、ユーザ要求信号入力部4からの通知(提示候補の変更要求を示すユーザ要求信号、提示候補の選択要求を示すユーザ要求信号)を待つ処理を実施する(ステップST5)。
提示候補制御部5のスコア更新部5bは、音声出力部7又はユーザ要求信号入力部4から通知を受けると、音声出力部7又はユーザ要求信号入力部4の何れかから通知を受けたかを判定する(ステップST6)。
この例では、最初に、音声出力部7からアクセント句「○△ナルド」の再生を開始するタイミングで、音声出力開始時刻を示す時刻情報が通知されたのち、「マルサンカクナルド」の音節「サ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が通知されるので、この時点では、音声出力部7から音声出力開始時刻を示す時刻情報が通知される。
As in the case of the
When receiving the notification from the
In this example, first, the time information indicating the sound output start time is notified from the
提示候補制御部5のスコア更新部5bは、音声出力部7からアクセント句「○△ナルド」の再生を開始するタイミングで、音声出力開始時刻を示す時刻情報が通知されると(ステップST5、ST6)、合成音の再生位置を示す再生位置情報を“現在、アクセント句「○△ナルド」を再生している途中”であることがわかるように更新する(ステップST7)。
提示候補制御部5のスコア更新部5bは、合成音の再生位置を示す再生位置情報を更新すると、その合成音の再生が完了したか否かを判定する(ステップST8)。
この時点では、音声出力部7から音声出力終了時刻を示す時刻情報の通知を受けていないので、合成音の再生が完了していないと判定して、ステップST5の処理に戻る。
When the
When the
At this time, since the notification of the time information indicating the sound output end time has not been received from the
次に、提示候補制御部5のスコア更新部5bは、「マルサンカクナルド」の音節「サ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けると(ステップST5、ST6)、そのユーザ要求信号が提示候補42の選択要求であるか否かを判定する(ステップST10)。
そのユーザ要求信号が提示候補42の選択要求(提示候補42に決定する要求)であれば、一連の処理を終了するが、この時点では、ユーザ要求信号入力部4から通知されたユーザ要求信号は、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるため、ステップST11の処理に移行する。
Next, the
If the user request signal is a request for selecting the presentation candidate 42 (a request to be determined as the presentation candidate 42), the series of processing ends. At this point, the user request signal notified from the user request
提示候補制御部5のスコア更新部5bは、ステップST11において、ユーザ要求信号入力部4から通知されたユーザ要求信号が、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるか否かを判定する。
この時点では、上述したように、ユーザ要求信号入力部4から通知されたユーザ要求信号は、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるため、I+1番目以降の提示候補(I+1番目の提示候補を含む)のスコアを再評価する(ステップST13)。
この時点では、I=2であるため、3番目〜11番目の提示候補のスコアを再評価する。
In step ST11, the
At this time, as described above, the user request signal notified from the user request
At this time, since I = 2, the scores of the third to eleventh presentation candidates are reevaluated.
即ち、提示候補制御部5のスコア更新部5bは、「マルサンカクナルド」の音節「サ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けているので、アクセント句「○△ナルド」をスコア下げ単語に決定する(図3のステップST21)。
提示候補制御部5のスコア更新部5bは、スコア下げ単語を決定すると(ステップST22)、そのスコア下げ単語が地名であるか否かを判定する(ステップST23)。
この時点では、アクセント句「○△ナルド」をスコア下げ単語に決定しているので、スコア下げ単語が地名ではないと判定する。
提示候補制御部5のスコア更新部5bは、スコア下げ単語が地名ではないと判定すると、提示候補リスト31に記録されている3番目〜11番目の提示候補の中で、スコア下げ単語「○△ナルド」を含む提示候補43〜46のスコアを下げるための再計算を行う(ステップST25)。スコアの再計算方法は、上記と同様の方法を採用するものとする。
That is, the
When the
At this time, since the accent phrase “◯ ΔNardo” is determined to be a score-reduced word, it is determined that the score-reduced word is not a place name.
When the
これにより、提示済みの提示候補42の提示順位は変わらないが、提示候補43〜46は提示候補55〜58の提示順位に変更される。それ以外の提示候補は、提示候補43〜46が抜けた分、提示順位が上になる。
提示候補制御部5のスコア更新部5bは、上記のようにして、提示候補リスト41に記録されている提示候補の提示順位を変更すると、変更後の提示順位を反映している提示候補リスト51を提示候補リスト保持部2に再設定する(ステップST26)。
As a result, the presentation order of the presented
When the
提示候補制御部5の提示候補選択部5aは、スコア更新部5bが変更後の提示順位を反映している提示候補リスト51を提示候補リスト保持部2に再設定すると、次に提示する提示候補を選択するため、現在の情報提示位置変数Iをインクリメントする(ステップST14)。
この時点では、I=2であるため、I←I+1によってI=3になる。
The presentation
At this time, since I = 2, I = 3 by I ← I + 1.
提示候補制御部5の提示候補選択部5aは、提示候補リスト51に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=3であるため、3番目の提示候補である施設名称が「△バーガー横浜反町店」の提示候補52を選択し、その提示候補52の読み情報を音声合成部6に出力する。
この例では、説明の便宜上、「タンマチテン」の音節「マ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が提示候補制御部5に通知されるものとする。
The presentation
At this time point, since I = 3, the
In this example, for convenience of explanation, a user request signal (request for changing a presentation candidate) corresponding to the “next candidate” is output from the user request
音声合成部6、音声出力部7及び提示候補制御部5のスコア更新部5bでは、提示候補52の場合も、提示候補32,42の場合と同様の処理が実施されるが、提示候補52の場合、音声出力部7が「タンマチテン」の音節「マ」を音声出力しているタイミングで、提示候補制御部5のスコア更新部5bがユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けるので、図3のステップST21において、アクセント句「反町店」をスコア下げ単語に決定する。
提示候補制御部5のスコア更新部5bは、アクセント句「反町店」をスコア下げ単語に決定すると、そのスコア下げ単語には「反町」という地名が含まれているので(ステップST23)、提示候補リスト51に記録されている提示候補の位置情報を考慮して、4番目〜11番目の提示候補のスコアを再計算する(ステップST24)。
In the
When the
以下、提示候補制御部5のスコア更新部5bにおける提示候補のスコアの再計算について具体的に説明する。
現在、ナビゲーションシステムが搭載されている車の自車位置が図6における自車位置71であり、現在提示中の提示候補52の位置が図6における位置72である。
提示候補制御部5のスコア更新部5bは、自車位置71と現在提示中の提示候補52の位置72を基準位置として、4番目〜11番目の提示候補が近いのは、自車位置71であるのか、現在提示中の提示候補52であるのかを判別する。
Hereinafter, the recalculation of the score of the presentation candidate in the
The vehicle position of the vehicle on which the navigation system is currently mounted is the
The
提示候補制御部5のスコア更新部5bは、上記の判別結果に応じて4番目〜11番目の提示候補のスコアを決定する。
例えば、4番目の提示候補53の位置73は、現在提示中の提示候補52より自車位置71に近いため、4番目の提示候補53のスコアを維持する。
一方、5番目の提示候補54の位置74は、自車位置71より現在提示中の提示候補52に近いため、5番目の提示候補54のスコアを下げるようにする。
ここでは、説明の便宜上、6番目〜11番目の提示候補の位置は、現在提示中の提示候補52より自車位置71に近いため、6番目〜11番目の提示候補のスコアを維持するものとする。
The
For example, since the
On the other hand, since the
Here, for convenience of explanation, since the positions of the sixth to eleventh presentation candidates are closer to the
これにより、5番目の提示候補54のスコアが下がり、その提示候補54が提示候補リスト61における候補データ63の位置まで順位が下がる。
提示候補制御部5のスコア更新部5bは、上記のようにして、提示候補リスト51に記録されている提示候補の提示順位を変更すると、変更後の提示順位を反映している提示候補リスト61を提示候補リスト保持部2に再設定する(ステップST26)。
As a result, the score of the fifth presentation candidate 54 is lowered, and the ranking of the presentation candidate 54 is lowered to the position of the
When the
提示候補制御部5の提示候補選択部5aは、スコア更新部5bが変更後の提示順位を反映している提示候補リスト61を提示候補リスト保持部2に再設定すると、次に提示する提示候補を選択するため、現在の情報提示位置変数Iをインクリメントする(ステップST14)。
この時点では、I=3であるため、I←I+1によってI=4になる。
The presentation
At this time, since I = 3, I = 4 by I ← I + 1.
提示候補制御部5の提示候補選択部5aは、提示候補リスト61に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=4であるため、4番目の提示候補である施設名称が「○□フライドチキン六角橋店」の提示候補62を選択し、その提示候補62の読み情報を音声合成部6に出力する。
この例では、アクセント句「マルシカク」と、アクセント句「フライドチキン」と、アクセント句「ロッカクバシテン」が順番に再生されるが、アクセント句「ロッカクバシテン」の再生が完了する前に、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が入力されず、アクセント句「ロッカクバシテン」の再生が完了した後に、ユーザ要求信号入力部4から「選択」の機能ボタンに対応するユーザ要求信号(提示候補の選択要求)が提示候補制御部5に通知されるものとする。
The presentation
At this time, since I = 4, the
In this example, the accent phrase “Marshikaku”, the accent phrase “Fried Chicken”, and the accent phrase “Rocka Bashten” are played in order, but before the playback of the accent phrase “Rocka Bashten” is completed, After the user request signal corresponding to the “next candidate” is not input from the request
音声合成部6、音声出力部7及び提示候補制御部5のスコア更新部5bでは、提示候補62の場合も、提示候補32,42,52の場合と同様の処理が実施されるが、提示候補62の場合、提示候補制御部5のスコア更新部5bが、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けることなく、音声出力部7から音声出力終了時刻を示す時刻情報の通知を受けるので、ステップST8において、提示候補62の施設名称を表す合成音の再生が完了したものと判定する。
In the
提示候補制御部5のスコア更新部5bは、提示候補62の施設名称を表す合成音の再生が完了したものと判定したのち、所定時間t2内にユーザ要求信号入力部4からユーザ要求信号が通知されたか否かを判定する(ステップST9)。
提示候補制御部5のスコア更新部5bは、所定時間t2内にユーザ要求信号入力部4からユーザ要求信号が通知された場合、そのユーザ要求信号が、「選択」の機能ボタンに対応するユーザ要求信号(提示候補の選択要求)であるか否かを判定し(ステップST10)、そのユーザ要求信号が「選択」の機能ボタンに対応するユーザ要求信号(提示候補の選択要求)であれば、提示候補62が最終的に選択された提示候補であると認定して、一連の処理を終了する。
この実施の形態1の場合、提示候補リスト31では6番目の提示候補であった「○□フライドチキン六角橋店」が、提示候補リスト61では4番目の提示候補に変更され、少ない操作で所望の提示候補62を選択することができている。
The
When the user request signal is notified from the user request
In the case of the first embodiment, the “□□ Fried Chicken Rokkakubashi store”, which is the sixth presentation candidate in the presentation candidate list 31, is changed to the fourth presentation candidate in the
提示候補制御部5のスコア更新部5bは、所定時間t2内にユーザ要求信号入力部4からユーザ要求信号が通知されない場合(ステップST9)、提示候補のスコアを変更せずに、次に提示する提示候補を選択するため、現在の情報提示位置変数Iをインクリメントする(ステップST14)。
この時点では、I=4であるため、I←I+1によってI=5になる。
ここでは、所定時間t2内にユーザ要求信号入力部4からユーザ要求信号が通知されない場合(ステップST9)、ステップST14の処理に移行するものについて示したが、ユーザが操作を行うまで処理を中断するようにしてもよい。
If the user request signal is not notified from the user request
At this time, since I = 4, I = 5 by I ← I + 1.
Here, the case where the user request signal is not notified from the user request
以上で明らかなように、この実施の形態1によれば、提示候補リスト保持部2に保持されている提示候補リストの中から最もスコアが高い提示候補を選択する提示候補選択部5aと、提示候補選択部5aにより選択された提示候補の名称を表す音声を生成する音声合成部6と、その提示候補の名称を表す音声を出力する音声出力部7とを設け、スコア更新部5bが音声出力部7における提示候補の名称を表す音声の出力が完了する前に提示候補の変更要求を受けると、提示候補リストに記録されている提示候補のスコアを更新して、提示候補の再選択を提示候補選択部5aに指示するように構成したので、ユーザの意図を提示候補の提示順位に反映して、少ない操作で所望の提示候補を選択することができる効果を奏する。
As apparent from the above, according to the first embodiment, the presentation
なお、この実施の形態1では、音声出力の開始通知をアクセント句単位で行うものについて示したが、これに限るものではなく、例えば、音節単位、形態素単位、文節単位などで音声出力の開始通知を行うようにしてもよい。
また、この実施の形態1では、「次候補」、「前候補」、「選択」の3つの機能ボタンに対応するユーザ要求信号を入力するものについて示したが、「訂正」の機能ボタンに対応するユーザ要求信号の入力を追加し、「訂正」の機能ボタンに対応するユーザ要求信号が入力された場合、提示候補制御部5がユーザの音声を入力して、その音声の音声認識処理を実施し、その音声認識結果に対応する単語を含む候補の提示順を上げるようにしてもよい。
また、提示候補制御部5がその音声認識結果と音響的に近い単語を含まない提示候補のスコアを下げて提示順を再計算するようにしてもよい。
In the first embodiment, the voice output start notification is performed in units of accent phrases. However, the present invention is not limited to this. For example, the voice output start notification is performed in syllable units, morpheme units, or phrase units. May be performed.
In the first embodiment, the user request signal corresponding to the three function buttons “next candidate”, “previous candidate”, and “select” is input, but the function button “correct” is supported. When a user request signal corresponding to the “correction” function button is input, the presentation
In addition, the presentation
この実施の形態1では、ユーザが機能ボタンを操作することにより、ユーザ要求信号を入力するものについて示したが、提示候補制御部5がユーザの発声を音声認識し、その音声認識結果をユーザの操作指示と解釈するようにしてもよい。
In the first embodiment, the user request signal is input by the user operating the function button. However, the presentation
さらに、この実施の形態1では、合成音の作成方法として、予めシステムにデータベース化されている読み情報(中間言語)を基にして合成音を作成するものについて示したが、中間言語をもたない構成も可能であり、提示候補リストが作成された時点で、合成音を作成するとともに、形態素情報又はアクセント句情報を音節の計測時間情報と共に生成して制御に利用することも可能である。 Furthermore, in the first embodiment, as a method for creating a synthesized sound, a method for creating a synthesized sound based on reading information (intermediate language) stored in a database in advance in the system has been described. It is also possible to create a synthesized speech when the presentation candidate list is created, and it is also possible to generate morpheme information or accent phrase information together with syllable measurement time information and use it for control.
また、この実施の形態1では、提示候補リストのスコアを再計算する際、自車の位置情報、スコア下げ対象が地名である現在の提示候補の位置情報、その他の提示候補の位置情報を基にして計算するものについて示したが、それ以外にも、現在設定済みの目的地までのルート、候補施設の位置関係、駐車場の有無に関する情報、施設に付与されている詳細なジャンル情報などをもとに再計算してもよい。 In the first embodiment, when recalculating the score of the presentation candidate list, the position information of the own vehicle, the position information of the current presentation candidate whose score reduction target is the place name, and the position information of other presentation candidates are used. In addition to that, the route to the destination that has already been set, the positional relationship of the candidate facilities, information on the presence or absence of parking lots, detailed genre information given to the facilities, etc. It may be recalculated.
実施の形態2.
上記実施の形態1では、提示候補リストに記録されている提示候補がデータベースから所定の検索条件で検索された検索結果である場合について示したが、提示候補リストに記録されている提示候補がユーザの音声に対する音声認識結果であってもよい。
この際、提示候補リストに記録されている提示候補がデータベースから所定の検索条件で検索された検索結果である場合のスコアの更新アルゴリズムと、提示候補リストに記録されている提示候補がユーザの音声に対する音声認識結果である場合のスコアの更新アルゴリズムとが異なるものとする。
In the first embodiment, the case where the presentation candidate recorded in the presentation candidate list is a search result retrieved from the database under a predetermined search condition has been described. However, the presentation candidate recorded in the presentation candidate list is the user. It may be a voice recognition result for the voice.
In this case, the score update algorithm in the case where the presentation candidate recorded in the presentation candidate list is a search result searched from the database under a predetermined search condition, and the presentation candidate recorded in the presentation candidate list is the user's voice. It is assumed that the score update algorithm in the case of the speech recognition result for is different from
図1の構成図及び図2のフローチャートは、この実施の形態2でも使用する。
図7は図2のステップST13の詳細を示すフローチャートであり、図8はスコア修正の計算式の一例を示す説明図である。
ScoreNewは再計算後のスコアを示しており、ScoreOrgは音声認識結果スコアを表している。
nは読みのアクセント句数を表しており、iは先頭からのアクセント句位置を表している。さらにa、bは0以上1以下の適当な係数であり、αiは施設名の先頭からi番目のアクセント句がプラス評価を受けた時の評価値、βiはi番目のアクセント句がマイナス評価を受けた時の評価値を表している。即ち、αiが大きくなると計算式の分子は大きくなり、βiが大きくなると計算式の分子は小さくなる。
The configuration diagram of FIG. 1 and the flowchart of FIG. 2 are also used in the second embodiment.
FIG. 7 is a flowchart showing details of step ST13 in FIG. 2, and FIG. 8 is an explanatory diagram showing an example of a score correction calculation formula.
Score New indicates the score after recalculation, and Score Org indicates the speech recognition result score.
n represents the number of accent phrases in reading, and i represents the position of the accent phrase from the beginning. Further, a and b are appropriate coefficients from 0 to 1, α i is an evaluation value when the i-th accent phrase is positively evaluated from the beginning of the facility name, and β i is a minus value of the i-th accent phrase The evaluation value when the evaluation is received is shown. That is, as α i increases, the numerator of the calculation formula increases, and as β i increases, the numerator of the calculation formula decreases.
図9はカーナビゲーションシステムの音声認識結果として、複数の提示候補が記録されている提示候補リストを示す説明図である。
図において、提示候補リスト81は提示候補リスト入力端子1がカーナビゲーションシステムから入力されるリスト、提示候補リスト91は提示候補制御部5のスコア更新部5bにより提示候補リスト81のスコアが更新されたリストである。
提示候補リスト101は提示候補制御部5のスコア更新部5bにより提示候補リスト91のスコアが更新されたリストである。
提示候補82〜88は提示候補リスト81に記録されている提示候補、提示候補92〜95は提示候補リスト91に記録されている提示候補、提示候補102〜104は提示候補リスト101に記録されている提示候補である。
図10は図9の提示候補リスト101が更新された提示候補リスト111を示す説明図であり、提示候補112は提示候補リスト111に記録されている提示候補である。
FIG. 9 is an explanatory diagram showing a presentation candidate list in which a plurality of presentation candidates are recorded as a voice recognition result of the car navigation system.
In the figure, a
The
The
FIG. 10 is an explanatory diagram showing the
次に動作について説明する。
この実施の形態2では、カーナビゲーションシステムにおける施設名の音声認識による目的地の設定や、電話番号案内サービスにおける施設名の音声認識を用いる施設検索を想定する。
具体的には、住所や施設名を音声で入力し、その音声の認識結果を選択するアプリケーションを想定し、ユーザが「神奈川県愛川町棚沢」(カナガワケンアイカワチョータナザワ)と発声した場合を例として説明する。
Next, the operation will be described.
In the second embodiment, it is assumed that a destination is set by voice recognition of a facility name in a car navigation system, or a facility search using voice recognition of a facility name in a telephone number guidance service.
Specifically, assuming an application in which an address or facility name is input by voice and the recognition result of the voice is selected, the user utters “Aikawacho Tanagawa, Kanagawa” (Kanagawa Ken Aikawa Chotanazawa) Will be described.
提示候補制御部5の提示候補選択部5aは、提示候補リスト入力端子1から提示候補リスト81が入力されると、上記実施の形態1と同様に、その提示候補リスト81を提示候補リスト保持部2に格納する(ステップST1)。
また、提示候補制御部5の提示候補選択部5aは、情報提示位置を示す情報提示位置変数Iに“1”を初期設定する(ステップST2)。
When the
Further, the presentation
提示候補制御部5の提示候補選択部5aは、提示候補リスト81に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=1であるため、1番目の提示候補である施設名称が「香川県多度津町高見」の提示候補82を選択し、その提示候補82の読み情報を音声合成部6に出力する。
The presentation
At this point in time, since I = 1, the
音声合成部6は、提示候補制御部5の提示候補選択部5aから提示候補82の読み情報を受けると、上記実施の形態1と同様に、その読み情報である中間言語から提示候補82の施設名称を表す合成音を生成して、その合成音を音声出力部7に出力する(ステップST3)。
また、音声合成部6は、提示候補82の施設名称を表す合成音を生成すると、その合成音における各アクセント句「香川県」、「多度津町」、「高見」の音声出力開始時刻を示す時刻情報と、その合成音の音声出力終了時刻を示す時刻情報とを生成して、それらの時刻情報を音声出力部7に出力する。
When the
Also, when the
音声出力部7は、音声合成部6から合成音と時刻情報を受けると、上記実施の形態1と同様に、その合成音の先頭から順番にスピーカ8に出力することにより、その合成音の再生を開始する(ステップST4)。
また、音声出力部7は、合成音の再生を開始すると、上記実施の形態1と同様に、その合成音の再生の進行状況に応じて、アクセント句の音声出力開始時刻や合成音の音声出力終了時刻を示す時刻情報を提示候補制御部5に通知する。
When the
Further, when the reproduction of the synthesized sound is started, the
提示候補制御部5のスコア更新部5bは、音声出力部7からの通知(音声出力開始時刻を示す時刻情報、音声出力終了時刻を示す時刻情報)を待つとともに、ユーザ要求信号入力部4からの通知(提示候補の変更要求を示すユーザ要求信号、提示候補の選択要求を示すユーザ要求信号)を待つ処理を実施する(ステップST5)。
提示候補制御部5のスコア更新部5bは、音声出力部7又はユーザ要求信号入力部4から通知を受けると、音声出力部7又はユーザ要求信号入力部4の何れかから通知を受けたかを判定する(ステップST6)。
ここでは、説明の便宜上、音声出力部7からアクセント句「香川県」の再生を開始するタイミングで、音声出力開始時刻を示す時刻情報が通知されたのち、「カガワケン」の音節「ガ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が通知されるものとする。
The
When receiving the notification from the
Here, for convenience of explanation, after the time information indicating the voice output start time is notified from the
提示候補制御部5のスコア更新部5bは、音声出力部7からアクセント句「香川県」の再生を開始するタイミングで、音声出力開始時刻を示す時刻情報が通知されると(ステップST5、ST6)、合成音の再生位置を示す再生位置情報を“現在、アクセント句「香川県」を再生している途中”であることがわかるように更新する(ステップST7)。
提示候補制御部5のスコア更新部5bは、合成音の再生位置を示す再生位置情報を更新すると、その合成音の再生が完了したか否かを判定する(ステップST8)。
この時点では、音声出力部7から音声出力終了時刻を示す時刻情報の通知を受けていないので、合成音の再生が完了していないと判定して、ステップST5の処理に戻る。
When the
When the
At this time, since the notification of the time information indicating the sound output end time has not been received from the
次に、提示候補制御部5のスコア更新部5bは、「カガワケン」の音節「ガ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けると(ステップST5、ST6)、そのユーザ要求信号が提示候補の選択要求であるか否かを判定する(ステップST10)。
そのユーザ要求信号が提示候補82の選択要求(提示候補82に決定する要求)であれば、一連の処理を終了するが、この時点では、ユーザ要求信号入力部4から通知されたユーザ要求信号は、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるため、ステップST11の処理に移行する。
Next, the
If the user request signal is a request for selecting the presentation candidate 82 (a request to be determined as the presentation candidate 82), the series of processing ends. At this point, the user request signal notified from the user request
提示候補制御部5のスコア更新部5bは、ステップST11において、ユーザ要求信号入力部4から通知されたユーザ要求信号が、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるか否かを判定する。
この時点では、上述したように、ユーザ要求信号入力部4から通知されたユーザ要求信号は、「次候補」に対応するユーザ要求信号(提示候補の変更要求)であるため、I+1番目以降の提示候補(I+1番目の提示候補を含む)のスコアを再評価する(ステップST13)。
この時点では、I=1であるため、2番目〜18番目の提示候補のスコアを再評価する。
In step ST11, the
At this time, as described above, the user request signal notified from the user request
At this time, since I = 1, the scores of the second to eighteenth presentation candidates are reevaluated.
即ち、提示候補制御部5のスコア更新部5bは、「カガワケン」の音節「ガ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けているので、アクセント句「香川県」をスコア下げ単語に決定する(図7のステップST31)。
提示候補制御部5のスコア更新部5bは、スコア下げ単語を決定すると(ステップST32)、提示候補リスト81に記録されている提示候補のスコアを修正する(ステップST33)。
以下、スコアの修正例を具体的に説明する。図8のスコア修正の計算式において、a=0.9、b=0.5であるとする。
That is, the
When the
Hereinafter, a correction example of the score will be specifically described. In the score correction calculation formula of FIG. 8, it is assumed that a = 0.9 and b = 0.5.
具体的な評価値としては、「スコア下げ単語」が決定すると、そのスコア下げ単語の直前までの単語に対して、該当位置で一致する単語がある場合には、αiの値を1プラスする。
一方、「スコア下げ単語」に対して、該当位置で一致する単語がある場合には、βiの値を1プラスする。
また、「スコア下げ単語」に対しては、単語として一致しなくても、部分的に一致する最大の音節長を求め、(最大音節長/全体音節長)をβiに加算する。ただし、初期値は、αi、βiともに0である。
As a specific evaluation value, when the “scoring-down word” is determined, the value of α i is incremented by 1 when there is a matching word at the corresponding position with respect to the word immediately before the down-scoring word. .
On the other hand, if there is a matching word at the corresponding position with respect to the “scoring-down word”, the value of β i is incremented by 1.
For the “score-lowering word”, the maximum syllable length that partially matches even if it does not match as a word is obtained, and (maximum syllable length / total syllable length) is added to β i . However, the initial values are 0 for both α i and β i .
提示候補81の場合、先頭のアクセント句「香川県」がスコア下げ単語であるため、該当部分として、アクセント句「香川県」を先頭に含む提示候補については、βiの値を0から1プラスして1として、スコアを再計算する。
一方、神奈川県は、アクセント句「神奈川県」のうち、4音節の「ガワケン」が連続する最長の音節として一致するので、0.66(=4/6)を同様にβiにプラスする。
上記のようにして、提示候補リスト81に記録されている全ての提示候補のスコアを再計算して、提示候補リスト81を提示候補リスト91のように変更する。
これにより、アクセント句「香川県」から始まる提示候補は、13番目以降に変更される。
提示候補制御部5のスコア更新部5bは、上記のようにして、提示候補リスト81に記録されている提示候補の提示順位を変更すると、変更後の提示順位を反映している提示候補リスト91を提示候補リスト保持部2に再設定する(ステップST34)。
In the case of the
On the other hand, Kanagawa Prefecture, in the accent phrase “Kanagawa Prefecture”, matches four syllable “Gawaken” as the longest continuous syllable, so 0.66 (= 4/6) is similarly added to β i .
As described above, the scores of all the presentation candidates recorded in the
Thereby, the presentation candidate beginning with the accent phrase “Kagawa Prefecture” is changed to the thirteenth and subsequent.
When the
提示候補制御部5の提示候補選択部5aは、スコア更新部5bが変更後の提示順位を反映している提示候補リスト91を提示候補リスト保持部2に再設定すると、次に提示する提示候補を選択するため、現在の情報提示位置変数Iをインクリメントする(ステップST14)。
この時点では、I=1であるため、I←I+1によってI=2になる。
The presentation
At this time, since I = 1, I = 2 by I ← I + 1.
提示候補制御部5の提示候補選択部5aは、提示候補リスト91に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=2であるため、2番目の提示候補である施設名称が「神奈川県寒川最中本舗」の提示候補92を選択し、その提示候補92の読み情報を音声合成部6に出力する。
この例では、説明の便宜上、「サムカワモナカホンポ」の音節「ム」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が提示候補制御部5に通知されるものとする。
The presentation
At this time, since I = 2, the
In this example, for convenience of explanation, the user request signal corresponding to the “next candidate” from the user request
音声合成部6、音声出力部7及び提示候補制御部5のスコア更新部5bでは、提示候補92の場合も、提示候補82の場合と同様の処理が実施されるが、提示候補92の場合、音声出力部7が「サムカワモナカホンポ」の音節「ム」を音声出力しているタイミングで、提示候補制御部5のスコア更新部5bがユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けるので、図7のステップST31において、アクセント句「寒川最中本舗」をスコア下げ単語に決定する。
In the
ここでのスコアの修正は、スコア下げ単語の前がアクセント句「神奈川県」であるため、先頭が「神奈川県」で始まる提示候補の該当部分のαiを1プラスし、アクセント句「寒川最中本舗」を含む提示候補の該当部分のβiを1プラスする。
「寒川」を含む提示候補の該当部分のスコアについては、「寒川最中本舗」との割合を計算してスコアを修正する。
上記のようにして、提示候補リスト91に記録されている全ての提示候補のスコアを再計算して、提示候補リスト91を提示候補リスト101のように変更する。これにより、「寒川」を含む提示候補92〜95のスコアが下がる。
提示候補制御部5のスコア更新部5bは、上記のようにして、提示候補リスト91に記録されている提示候補の提示順位を変更すると、変更後の提示順位を反映している提示候補リスト101を提示候補リスト保持部2に再設定する(ステップST34)。
The correction of the score here is that the accent phrase “Kanagawa Prefecture” precedes the score-decreasing word, so α i of the corresponding part of the candidate that starts with “Kanagawa Prefecture” is added by 1 and the accent phrase “Samukawa Saiban” 1 is added to β i of the corresponding part of the candidate including “Nakahonpo”.
For the score of the corresponding part of the candidate for presentation including “Samukawa”, the score is corrected by calculating the ratio with “Samukawa most central Honpo”.
As described above, the scores of all the presentation candidates recorded in the
When the
提示候補制御部5の提示候補選択部5aは、スコア更新部5bが変更後の提示順位を反映している提示候補リスト101を提示候補リスト保持部2に再設定すると、次に提示する提示候補を選択するため、現在の情報提示位置変数Iをインクリメントする(ステップST14)。
この時点では、I=2であるため、I←I+1によってI=3になる。
The presentation
At this time, since I = 2, I = 3 by I ← I + 1.
提示候補制御部5の提示候補選択部5aは、提示候補リスト101に記録されている提示候補の中から、I番目の提示候補を選択する。
この時点では、I=3であるため、3番目の提示候補である施設名称が「神奈川県愛川町田代」の提示候補102を選択し、その提示候補102の読み情報を音声合成部6に出力する。
この例では、説明の便宜上、「タシロ」の音節「シ」を音声出力しているタイミングで、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)が提示候補制御部5に通知されるものとする。
The presentation
At this time point, since I = 3, the
In this example, for convenience of explanation, a user request signal (request for changing a presentation candidate) corresponding to “next candidate” is output from the user request
音声合成部6、音声出力部7及び提示候補制御部5のスコア更新部5bでは、提示候補102の場合も、提示候補82,92の場合と同様の処理が実施されるが、提示候補102の場合、音声出力部7が「タシロ」の音節「シ」を音声出力しているタイミングで、提示候補制御部5のスコア更新部5bがユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けるので、図7のステップST31において、アクセント句「田代」をスコア下げ単語に決定する。
In the
ここでのスコアの修正は、スコア下げ単語の前がアクセント句「神奈川県」、「愛川町」であるため、「神奈川県」、「愛川町」を含む提示候補の該当部分のαiを1プラスし、アクセント句「田代」を含む提示候補については、βiに音節長比分プラスする。
上記のようにして、提示候補リスト101に記録されている全ての提示候補のスコアを再計算して、提示候補リスト101を提示候補リスト111のように変更する。これにより、提示候補103は1つ順位が上がり、提示候補104は順位が下がる。
提示候補制御部5のスコア更新部5bは、上記のようにして、提示候補リスト101に記録されている提示候補の提示順位を変更すると、変更後の提示順位を反映している提示候補リスト111を提示候補リスト保持部2に再設定する(ステップST34)。
The correction of the score here is because the accent phrases “Kanagawa” and “Aikawa-cho” are in front of the score-decreasing word, so α i of the corresponding part of the presentation candidate including “Kanagawa” and “Aikawa-cho” is 1 For presentation candidates including the accent phrase “Tashiro”, β i is added to the syllable length ratio.
As described above, the scores of all the presentation candidates recorded in the
When the
最後に、提示候補リスト111に記録されている4番目の提示候補である施設名称が「神奈川県愛川町棚沢」の提示候補112が音声出力された後、ユーザが「選択」の機能ボタンを操作して、ユーザ要求信号入力部4から「選択」の機能ボタンに対応するユーザ要求信号(提示候補の選択要求)が提示候補制御部5に通知されると、提示候補112が最終的に選択された提示候補であると認定して、一連の処理を終了する。
この実施の形態2の場合、提示候補リスト81では10番目の提示候補であった「神奈川県愛川町棚沢」が、提示候補リスト111では4番目の提示候補に変更され、少ない操作で所望の提示候補112を選択することができている。
Finally, after the
In the case of the second embodiment, “Tanazawa, Kanagawa Pref.”, Which was the tenth presentation candidate in the
この実施の形態2では、ユーザが不適切と判断した単語より前が一致する提示候補がある場合にも、スコアの再計算によって、提示順を変更するものについて示したが、スコアに関係なく、前が一致するものから優先的に提示するようにしてもよい。
In this
実施の形態3.
上記実施の形態1,2では、提示候補制御部5のスコア更新部5bがユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けたタイミングで、スコア下げ単語を決定するものについて示したが、ユーザが音声出力部7から出力される合成音を聴いてから、「次候補」に対応する機能ボタンを操作するまでにタイムラグ(遅延時間)が発生する。
したがって、あるアクセント句を聴いているとき、そのアクセント句をスコア下げ単語に決定しようとして、「次候補」に対応する機能ボタンを操作したときには、既に、そのアクセント句の音声出力が終了していて、そのアクセント句をスコア下げ単語に決定することができない状況が発生することがある。
そこで、この実施の形態3では、提示候補制御部5のスコア更新部5bがユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けているタイミングより、遅延時間t1(所定時間)だけ早いタイミングでユーザ要求信号(提示候補の変更要求)を受けているものとして、スコア下げ単語を決定するようにしている。
In the first and second embodiments, the timing at which the
Therefore, when listening to an accent phrase and trying to determine that accent phrase as a score-lowering word and operating the function button corresponding to “next candidate”, the voice output of that accent phrase has already ended. In some cases, the accent phrase cannot be determined as a score-reduced word.
Therefore, in the third embodiment, the
以下、提示候補制御部5のスコア更新部5bの処理内容を具体的に説明する。
図11は音声合成部6により生成される合成音と、各アクセント句の音声出力開始時刻、合成音の音声出力終了時刻及び提示候補の変更要求の入力時刻を示す時刻情報との関係を示している説明図である。
図において、21は合成音を表しており、合成音21は3つのアクセント句「○○ドーナツ」、「東神奈川」、「駅前ショップ」から構成されている例を示している。
23はアクセント句「○○ドーナツ」の音声出力開始時刻、24はアクセント句「東神奈川」の音声出力開始時刻、25はアクセント句「駅前ショップ」の音声出力開始時刻、26は合成音21の音声出力終了時刻を示している。
131は遅延時間t1を指しており、132〜134は遅延時間t1を考慮したスコア下げ単語切り換え時刻を表し、135は「○○ドーナツ」の遅延考慮スコア下げ範囲を示している。さらに、136は「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知時刻を示している。
Hereinafter, the processing content of the score update
FIG. 11 shows the relationship between the synthesized speech generated by the
In the figure, 21 represents a synthesized sound, and the synthesized
23 is the voice output start time of the accent phrase “XX donut”, 24 is the voice output start time of the accent phrase “Higashikanagawa”, 25 is the voice output start time of the accent phrase “Ekimae Shop”, and 26 is the voice of the synthesized
131 indicates the delay time t1, 132 to 134 indicate the score reduction word switching time considering the delay time t1, and 135 indicates the delay consideration score reduction range of “XX donut”. Further, 136 indicates a notification time of a user request signal (presentation candidate change request) corresponding to “next candidate”.
音声出力部7は、「○○ドーナツ東神奈川駅前ショップ」の合成音の再生を開始する際、アクセント句「○○ドーナツ」の音声出力開始時刻23を示す時刻情報を提示候補制御部5に通知する。
音声出力部7は、アクセント句「○○ドーナツ」の再生が完了すると、アクセント句「東神奈川」の音声出力開始時刻24を示す時刻情報を提示候補制御部5に通知する。
ここで、アクセント句「○○ドーナツ」の再生の完了と同時に、ユーザが「次候補」に対応する機能ボタンを操作したものとする。
この場合、ユーザがアクセント句「○○ドーナツ」の合成音を聴いてから、「次候補」に対応する機能ボタンを操作するので遅延時間が発生し、ユーザ要求信号(提示候補の変更要求)が提示候補制御部5に通知されるタイミングは、図11の通知時刻136が示すように、アクセント句「東神奈川」の合成音が出力されているタイミングになる。
The
When the reproduction of the accent phrase “XX donut” is completed, the
Here, it is assumed that the user operates the function button corresponding to “next candidate” simultaneously with the completion of the reproduction of the accent phrase “XX donut”.
In this case, since the user listens to the synthesized sound of the accent phrase “XX donut” and then operates the function button corresponding to “next candidate”, a delay time occurs, and the user request signal (request to change the presentation candidate) is generated. The timing notified to the presentation
そこで、提示候補制御部5のスコア更新部5bは、ユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けると、その通知を受けたタイミングより遅延時間t1だけ早いタイミングで当該ユーザ要求信号(提示候補の変更要求)の通知を受けたものとして、スコア下げ単語を決定するようにする。
したがって、図11の例では、アクセント句「○○ドーナツ」がスコア下げ単語に決定されるようになる。
この実施の形態3によれば、ユーザの意思に沿うスコア下げ単語を決定することができる効果を奏する。
Therefore, when the
Therefore, in the example of FIG. 11, the accent phrase “XX donut” is determined as the score-lowering word.
According to the third embodiment, there is an effect that it is possible to determine a score-lowering word according to the user's intention.
実施の形態4.
上記実施の形態3では、提示候補制御部5のスコア更新部5bがユーザ要求信号入力部4から「次候補」に対応するユーザ要求信号(提示候補の変更要求)の通知を受けているタイミングより、遅延時間t1だけ早いタイミングでユーザ要求信号(提示候補の変更要求)を受けているものとして、スコア下げ単語を決定するものについて示したが、スコア更新部5bが提示候補選択部5aにより最終的に選択された提示候補を考慮して、遅延時間t1を調整するようにしてもよい。
In the third embodiment, the
図12は遅延時間t1の調整処理を示すフローチャートである。
図13は複数の提示候補のほか、スコア下げ単語の音声出力終了時間と「次候補」提示要求時間が記録されている提示候補リストを示す説明図である。
121は上記実施の形態2の処理による更新後の提示候補リストであり、122〜124はスコア下げ単語の音声出力終了時間と「次候補」提示要求時間が記録されている提示候補である。
図13では、上記実施の形態2の処理による更新後の提示候補リスト121を例示しているが、上記実施の形態1,3の処理による更新後の提示候補リストを用いてもよい。
FIG. 12 is a flowchart showing the adjustment process of the delay time t1.
FIG. 13 is an explanatory diagram showing a presentation candidate list in which a voice output end time and a “next candidate” presentation request time of a score-lowering word are recorded in addition to a plurality of presentation candidates.
121 is a presentation candidate list that has been updated by the processing of the second embodiment, and 122 to 124 are presentation candidates in which the voice output end time and the “next candidate” presentation request time of the score-lowering word are recorded.
Although FIG. 13 illustrates the updated
次に動作について説明する。
提示候補制御部5のスコア更新部5bは、提示候補選択部5aにより最終的に選択された提示候補を比較対象元に設定する。
ここでは、「神奈川県愛川町棚沢」の提示候補が最終的に選択されて、「神奈川県愛川町棚沢」の提示候補が比較対象元に設定されるものとする。
Next, the operation will be described.
The
Here, it is assumed that the presentation candidate “Aikawacho Tanagawa, Kanagawa” is finally selected, and the presentation candidate “Aikawacho Tanagawa, Kanagawa” is set as the comparison target.
提示候補制御部5のスコア更新部5bは、最終的に選択された提示候補を比較対象元に設定すると、その比較対象元を他の提示候補122〜124と前方から比較し、他の提示候補122〜124において、比較対象元と最初に異なる単語を抽出する(ステップST41)。
図13において、施設名称に下線が引いてある部分が異なる単語を表している。
When the
In FIG. 13, the underlined part of the facility name represents a different word.
提示候補制御部5のスコア更新部5bは、比較対象元と最初に異なる単語を抽出すると、図13の下線の部分が音声出力終了した時間と、ユーザからの「次候補」提示要求時間とをそれぞれ比較し、「次候補」提示要求時間>当該音声終了時間であれば、その差を計算する(ステップST42)。
例えば、提示候補122の場合、当該音声終了時間=570ms、「次候補」提示要求時間=720msであり、「次候補」提示要求時間>当該音声終了時間が成立するため、その差150msを求める。
また、提示候補124の場合、当該音声終了時間=1630ms、「次候補」提示要求時間=1920msであり、「次候補」提示要求時間>当該音声終了時間が成立するため、その差290msを求める。
一方、提示候補123の場合、当該音声終了時間=1620ms、「次候補」提示要求時間=1210msであり、「次候補」提示要求時間>当該音声終了時間が成立しないため、その差を求めない。
When the
For example, in the case of the
In the case of the
On the other hand, in the case of the
提示候補制御部5のスコア更新部5bは、提示候補122,124において、差の平均220msを求める。
スコア更新部5bは、現在の遅延時間t1を差の平均220msを考慮して、その遅延時間t1を再設定する(ステップST43)。
例えば、現在の遅延時間t1と差の平均220msとの相加平均値を、遅延時間t1の再設定値とする。
現在の遅延時間t1が350msであれば、相加平均値である260msを遅延時間t1に再設定する。
この実施の形態4によれば、ユーザの対応操作速度に応じて遅延時間t1を調整することが可能になる。
The
The
For example, an arithmetic average value between the current delay time t1 and the average difference of 220 ms is set as the reset value of the delay time t1.
If the current delay time t1 is 350 ms, the arithmetic average value 260 ms is reset to the delay time t1.
According to the fourth embodiment, the delay time t1 can be adjusted according to the user's corresponding operation speed.
1 提示候補リスト入力端子、2 提示候補リスト保持部(提示候補リスト保持手段)、3 ユーザ要求入力端子、4 ユーザ要求信号入力部、5 提示候補制御部、5a 提示候補選択部(提示候補選択手段)、5b スコア更新部(スコア更新手段)、6 音声合成部(音声出力手段)、7 音声出力部(音声出力手段)、8 スピーカ(音声出力手段)。
DESCRIPTION OF
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332246A JP4846548B2 (en) | 2006-12-08 | 2006-12-08 | Audio information selection device and audio information selection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332246A JP4846548B2 (en) | 2006-12-08 | 2006-12-08 | Audio information selection device and audio information selection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008145697A true JP2008145697A (en) | 2008-06-26 |
JP4846548B2 JP4846548B2 (en) | 2011-12-28 |
Family
ID=39605948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006332246A Expired - Fee Related JP4846548B2 (en) | 2006-12-08 | 2006-12-08 | Audio information selection device and audio information selection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4846548B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010420A (en) * | 2012-07-03 | 2014-01-20 | Seiko Epson Corp | Integrated circuit device |
WO2019163242A1 (en) * | 2018-02-20 | 2019-08-29 | ソニー株式会社 | Information processing device, information processing system, information processing method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190398A (en) * | 1995-01-10 | 1996-07-23 | Sony Corp | Voice recognition device |
JP2003330488A (en) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | Voice recognition device |
-
2006
- 2006-12-08 JP JP2006332246A patent/JP4846548B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190398A (en) * | 1995-01-10 | 1996-07-23 | Sony Corp | Voice recognition device |
JP2003330488A (en) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | Voice recognition device |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010420A (en) * | 2012-07-03 | 2014-01-20 | Seiko Epson Corp | Integrated circuit device |
WO2019163242A1 (en) * | 2018-02-20 | 2019-08-29 | ソニー株式会社 | Information processing device, information processing system, information processing method, and program |
US11694675B2 (en) | 2018-02-20 | 2023-07-04 | Sony Corporation | Information processing apparatus, information processing system, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP4846548B2 (en) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9236045B2 (en) | Methods and apparatus for proofing of a text input | |
JP4757599B2 (en) | Speech recognition system, speech recognition method and program | |
JP5697860B2 (en) | Information search device, information search method, and navigation system | |
JP2014109889A (en) | Content retrieval device, content retrieval method and control program | |
JP2006201749A (en) | Device in which selection is activated by voice, and method in which selection is activated by voice | |
JP2007079397A (en) | Interaction method, interaction device, interaction program, and recording medium | |
JP4664194B2 (en) | Voice quality control device and method, and program storage medium | |
JP4639932B2 (en) | Speech synthesizer | |
JP2013125144A (en) | Speech recognition device and program thereof | |
JP4846548B2 (en) | Audio information selection device and audio information selection method | |
JP2002297374A (en) | Voice retrieving device | |
JP5819147B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP5343293B2 (en) | Speech editing / synthesizing apparatus and speech editing / synthesizing method | |
JP2013092912A (en) | Information processing device, information processing method, and program | |
JP5870686B2 (en) | Synthetic speech correction apparatus, method, and program | |
JP2012226220A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JP2006330484A (en) | Device and program for voice guidance | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JP5196114B2 (en) | Speech recognition apparatus and program | |
JP2004029354A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JPH0934491A (en) | Method and device for voice synthetization and navigation system | |
JP5275470B2 (en) | Speech synthesis apparatus and program | |
JP2006284645A (en) | Speech reproducing device, and reproducing program and reproducing method therefor | |
JP2006337403A (en) | Voice guidance device and voice guidance program | |
JP2005157166A (en) | Apparatus and method for speech recognition, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080704 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111004 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |