JP2011221293A - Command processing device - Google Patents

Command processing device Download PDF

Info

Publication number
JP2011221293A
JP2011221293A JP2010090492A JP2010090492A JP2011221293A JP 2011221293 A JP2011221293 A JP 2011221293A JP 2010090492 A JP2010090492 A JP 2010090492A JP 2010090492 A JP2010090492 A JP 2010090492A JP 2011221293 A JP2011221293 A JP 2011221293A
Authority
JP
Japan
Prior art keywords
command
likelihood
operation cost
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010090492A
Other languages
Japanese (ja)
Inventor
Akio Horii
昭男 堀井
Yohei Okato
洋平 岡登
Toshiyuki Hanazawa
利行 花沢
Tomohiro Iwasaki
知弘 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010090492A priority Critical patent/JP2011221293A/en
Publication of JP2011221293A publication Critical patent/JP2011221293A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a command processing device which facilitates a screen operation of a correction work when a selected command is not a user's intended command.SOLUTION: A command processing device comprises: a command selection section 3 which selects an intermediate command which is likely to be a command candidate according to a likelihood worked-out by assuming a sound model and a language model from an input data while a recognition result of a vocabulary recognition is worked out by a voice recognition process section 2 according to the sound model and the language model with respect to the input data entered by a user; an operation cost database memory 7 which stores the operation cost for an operation between commands by defining an error of the operation made by the user as the operation cost; and a likelihood correction section 4 which selects a command from the intermediate commands for minimizing an worked-out evaluation value based on the operation cost.

Description

本発明は、音声により入力された操作コマンドに応じて処理を実行するコマンド処理装置に関するものである。   The present invention relates to a command processing apparatus that executes processing in response to an operation command input by voice.

従来より、ナビゲーション装置などの画面操作と音声操作を有するマルチモーダルの情報機器が開発されている。画面操作は、画面の遷移関係が機器の特定の機能に対応付けられているコマンドの階層構造に沿って作成されている。このため、操作を進めることでユーザの所望のコマンドに徐々に近づき実行することができる。ただし、1回の画面遷移につき1回の画面操作を行う必要があり、コマンドによっては実行に複数回の操作が必要になり不便である。音声操作はコマンドによらず1回の発声で実行可能であり、画面操作の不便さを補うことが可能である。しかし、誤認識によりユーザの所望のコマンドとは異なるコマンドを実行する場合がある。   Conventionally, a multimodal information device having a screen operation and a voice operation such as a navigation device has been developed. The screen operation is created along a hierarchical structure of commands in which the screen transition relationship is associated with a specific function of the device. For this reason, by proceeding with the operation, the user's desired command can be gradually approached and executed. However, it is necessary to perform one screen operation for each screen transition, which is inconvenient because several operations are required for execution depending on the command. The voice operation can be executed with one utterance regardless of the command, and the inconvenience of the screen operation can be compensated. However, a command different from the user's desired command may be executed due to erroneous recognition.

音声認識処理により得られた語彙からコマンドに写像するコマンド処理装置は、音声認識の分野で利用されており、様々な語彙で機器を操作するのに有効である。例えば特許文献1に開示されたコマンド処理装置では、音声認識で認識したユーザが発声した音響的・言語的に最も確からしい語彙に基づいて、コマンドの選出を行っている。また、特許文献2に開示されたコマンド処理装置では、最も確からしい語彙に基づいて、コマンドと関連語句情報が関連付けられた変換データベースを用いて、以下の式(1)に示すように、最も確からしいコマンドの選出を行っている。

Figure 2011221293

なお、式(1)において、Cはコマンド、Xは入力音声、P(C)はコマンドごとの事前に判明している出現確率、P(X|C)は事前の学習された確率モデルに基づく入力音声の尤度である。arg maxは要素の中で最大の値の要素を返す関数として与えられるものである。 A command processing apparatus that maps a vocabulary obtained by speech recognition processing to a command is used in the field of speech recognition, and is effective for operating devices with various vocabularies. For example, in the command processing device disclosed in Patent Document 1, a command is selected based on a vocabulary most likely to be acoustically and linguistically uttered by a user who has been recognized by speech recognition. Further, in the command processing device disclosed in Patent Document 2, based on the most probable vocabulary, using the conversion database in which the command and related phrase information are associated, the most probable as shown in the following formula (1). The selection of a new command is performed.

Figure 2011221293

In Equation (1), C is a command, X is an input voice, P (C) is a known occurrence probability for each command, and P (X | C) is based on a prior learned probability model. This is the likelihood of the input speech. arg max is given as a function that returns the element with the maximum value among the elements.

特開平9−50291号公報Japanese Patent Laid-Open No. 9-50291 国際公開WO2007/114226号公報International Publication WO2007 / 114226

従来のコマンド処理装置は以上のように構成されているので、コマンドの選出を式(1)に基づいて行い、尤度P(X|C)1位のコマンドを実行するか、尤度上位の複数のコマンド候補を提示してユーザに選択させるため、複数のコマンド候補を提示する場合、尤度に基づいて決定するため、機能の内容として全く異なるコマンド候補を複数提示し、ユーザを混乱させる場合があるという課題があった。この問題は特に機能が複雑になった場合に起こる。
さらに、誤認識が生じた場合に、ユーザにどのように遷移をさせたらいいかわかるような階層的に近いコマンドを選出することができず、修正作業に多大な労力をかけさせてしまうという課題があった。
Since the conventional command processing apparatus is configured as described above, the command selection is performed based on the equation (1) and the command with the highest likelihood P (X | C) is executed, or In order to present multiple command candidates and allow the user to select them, when presenting multiple command candidates, to determine based on likelihood, when presenting multiple completely different command candidates as the content of the function, to confuse the user There was a problem that there was. This problem occurs especially when the function is complicated.
Furthermore, when a misrecognition occurs, it is not possible to select a command that is hierarchically similar so that the user can know how to make a transition, and this causes a great deal of effort for correction work. was there.

この発明は、上記のような課題を解決するためになされたもので、コマンドの階層関係も考慮してコマンドを選出することにより、選出したコマンドがユーザの所望のコマンドでなかった場合に行う修正作業である画面操作に伴う労力を軽減することを目的とする。   The present invention has been made to solve the above-described problems. By selecting a command in consideration of the hierarchical relationship of commands, the correction performed when the selected command is not the user's desired command. The purpose is to reduce the labor associated with screen operations.

この発明に係るコマンド処理装置は、ユーザによって入力される入力データに対して語彙認識を行って、確からしい語彙を認識結果として出力する認識処理部と、認識結果について、モデルに従って結果が出現する場合に逆に入力データから見て当該モデルを推測する尤もらしさである尤度を算出し、当該尤度に基づき確からしいコマンド候補である中間コマンドを選出するコマンド選出部と、ユーザが操作を誤った際の操作を操作コストと定義し、コマンド間の操作に伴う操作コストを記憶する操作コストデータベースメモリと、操作コストに基づいて算出される評価値を最小化するコマンドを中間コマンドから選択する尤度補正部を備えるように構成したものである。   The command processing device according to the present invention performs vocabulary recognition on input data input by a user, and outputs a probable vocabulary as a recognition result, and when the result appears according to a model of the recognition result On the other hand, a likelihood that is a likelihood of guessing the model when viewed from the input data is calculated, and a command selection unit that selects an intermediate command that is a probable command candidate based on the likelihood, and the user performs an operation error. Operation cost database memory that stores the operation cost associated with the operation between commands, and the likelihood of selecting the command that minimizes the evaluation value calculated based on the operation cost from the intermediate command A correction unit is provided.

この発明によれば、認識処理部がユーザによって入力される入力データに対して語彙認識を行って算出した認識結果について、モデルに従って結果が出現する場合に逆に入力データから見て当該モデルを推測する尤もらしさである尤度を算出し、当該尤度に基づき確からしいコマンド候補である中間コマンドを選出するコマンド選出部と、ユーザが操作を誤った際の操作を操作コストと定義し、コマンド間の操作に伴う操作コストを記憶する操作コストデータベースメモリと、操作コストに基づいて算出される評価値を最小化するコマンドを中間コマンドから選択する尤度補正部を備えるように構成したので、コマンドの階層関係を考慮してコマンドを選出することができ、選出したコマンドの修正作業である画面操作に伴う労力を軽減することができる。   According to the present invention, when the recognition result calculated by performing vocabulary recognition on the input data input by the user by the recognition processing unit appears according to the model, the model is inferred from the input data. A command selection unit that calculates a likelihood that is a likelihood to be performed, selects an intermediate command that is a probable command candidate based on the likelihood, and defines an operation when the user makes an operation error as an operation cost, The operation cost database memory for storing the operation cost associated with the operation and the likelihood correction unit for selecting the command for minimizing the evaluation value calculated based on the operation cost from the intermediate command. Commands can be selected in consideration of hierarchical relationships, reducing the labor involved in screen operations, which is a modification of selected commands. Door can be.

この発明のコマンド処理における階層関係の一例を示す説明図である。It is explanatory drawing which shows an example of the hierarchical relationship in the command processing of this invention. この発明のコマンド処理における画面操作に基づく操作コストを表したデータベースを示す図である。It is a figure which shows the database showing the operation cost based on the screen operation in the command processing of this invention. この発明のコマンド処理における操作コストの平均値の一例を示す説明図である。It is explanatory drawing which shows an example of the average value of the operation cost in the command processing of this invention. この発明のコマンド処理における階層関係の一例を示す説明図である。It is explanatory drawing which shows an example of the hierarchical relationship in the command processing of this invention. この発明のコマンド処理における操作コストの期待値の算出を示す説明図である。It is explanatory drawing which shows calculation of the expected value of the operation cost in the command processing of this invention. この発明の実施の形態1によるコマンド処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the command processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1によるコマンド処理装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the command processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1によるコマンド処理装置の変換データベースの一例を示す説明図である。It is explanatory drawing which shows an example of the conversion database of the command processing apparatus by Embodiment 1 of this invention. この発明の実施の形態2によるコマンド処理装置の動作を示すブロック図である。It is a block diagram which shows operation | movement of the command processing apparatus by Embodiment 2 of this invention. この発明の実施の形態2によるコマンド処理装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the command processing apparatus by Embodiment 2 of this invention.

本発明では、コマンド処理装置において、誤認識が生じた場合の修正を考慮して画面操作に基づく操作コストを定義し、操作コストの平均値(評価値)を最小化するようにコマンド選出を行うことを特徴とする。本発明の説明では、まず画面操作に基づくコマンドの階層関係図と操作コストとについて説明を行い、次に操作コストに基づき操作コストの平均値を最小化する音声コマンドの選定手順について説明を行う。   In the present invention, in the command processing device, an operation cost based on the screen operation is defined in consideration of correction in the case of erroneous recognition, and a command is selected so as to minimize the average value (evaluation value) of the operation cost. It is characterized by that. In the description of the present invention, first, a hierarchy diagram of commands based on screen operations and operation costs will be described, and then a voice command selection procedure for minimizing the average value of operation costs based on operation costs will be described.

図1は、この発明による操作コストデータベースのコマンド間の階層関係の一例を示す説明図である。
画面操作に基づくコマンドは、操作画面を提示し、ユーザが画面中から選択する操作を繰り返し行うことで画面遷移し、最終的に所望のコマンドを実行するものである。下位ノードを持つ中間ノードは、コマンド分類を表す選択画面を表し、末端ノードは特定のコマンドを表す。ユーザは、初期ノードF0から画面操作により中間ノードF10およびF20を経て、末端ノードF11〜F13およびF21〜F23に対応付けられた特定のコマンドを実行する。一方、音声操作では直接コマンドに相当する発話を行うことで、初期ノードF0から末端のコマンドである末端ノードF11〜F13およびF21〜F23を実行することができる。
FIG. 1 is an explanatory diagram showing an example of a hierarchical relationship between commands of an operation cost database according to the present invention.
A command based on a screen operation presents an operation screen, and a screen transition is performed by repeatedly performing an operation selected by the user from the screen, and finally a desired command is executed. An intermediate node having lower nodes represents a selection screen representing command classification, and a terminal node represents a specific command. The user executes specific commands associated with the end nodes F11 to F13 and F21 to F23 through the intermediate nodes F10 and F20 by screen operation from the initial node F0. On the other hand, in the voice operation, the end nodes F11 to F13 and F21 to F23, which are the end commands, can be executed from the initial node F0 by directly speaking the command.

次に、操作コストデータベースについて説明を行う。画面操作に基づいて操作を行う場合、ユーザは画面の提示内容を確認し、メニューの選択を繰り返す。もし、誤って所望の操作以外を選択した場合は上位階層に戻り別メニューの選択を行う必要がある。操作コストは、画面遷移に対応付けられ、具体的には平均的な操作時間に対応付けられるものである。この画面操作ごとに発生するコストを図2を用いて説明する。図2は、画面操作に基づく操作コストをデータベースとして表した図であり、具体的には図1で示したコマンド間の移動に伴って発生する操作コストをデータベースに表している。   Next, the operation cost database will be described. When performing an operation based on a screen operation, the user confirms the content presented on the screen and repeats the menu selection. If an operation other than the desired operation is selected by mistake, it is necessary to return to the upper hierarchy and select another menu. The operation cost is associated with the screen transition, and specifically is associated with the average operation time. The cost generated for each screen operation will be described with reference to FIG. FIG. 2 is a diagram showing the operation cost based on the screen operation as a database. Specifically, the operation cost generated in accordance with the movement between commands shown in FIG. 1 is shown in the database.

階層Noは初期ノードであれば「0」、中間ノードであれば「1」、末端ノードであれば「2」というように、下の階層に移動すればするほど値が増加する。対応するコマンドID、コマンド名称も合せて記載している。コマンド間の移動にかかる操作コストも記載しており、例えば、コマンドF11からF12の移動にかかる操作コストは、まずF11からF10に戻る操作コスト「1」、F10からF12へ進む操作コスト「1」が発生するため、操作コストの期待値は全部で操作回数2×F12の尤度6で「12」と算出される。   Hierarchy No is “0” for the initial node, “1” for the intermediate node, “2” for the end node, and the value increases as the level moves down. Corresponding command IDs and command names are also shown. The operation cost for moving between commands is also described. For example, the operation cost for moving from command F11 to F12 is the operation cost “1” for returning from F11 to F10, and the operation cost “1” for proceeding from F10 to F12. Therefore, the expected value of the operation cost is calculated as “12” with a likelihood 6 of the number of operations 2 × F12 in total.

図2において、例えば、後述するコマンド選出部3から出力されるコマンドが「TOLL_FIRST_ROUTE」、「RECOMMENDED_ROUTE」および「SHORTEST_ROUTE」で全て同じ、あるいは近似した尤度であった場合、以下の条件で以下の式(2)から最適なコマンドを求める。
<条件>
・最も単純に一回の操作(コマンド間の一回の移動)を操作コスト「1」として計算。
・F10はスコアが「3」、F11、F12のスコアが「6」、F13のスコアが「5」とする。
式(2)は操作コストの平均値を算出し、この値が最小のコマンドを最終コマンドC^として出力する式で、以下のように表わされる。

Figure 2011221293
In FIG. 2, for example, when the commands output from the command selection unit 3 described later have the same or approximate likelihoods in “TOLL_FIRST_ROUTE”, “RECOMMENDED_ROUTE”, and “SHORTEST_ROUTE”, the following formula is used under the following conditions: The optimum command is obtained from (2).
<Conditions>
・ The simplest operation (one movement between commands) is calculated as the operation cost “1”.
F10 has a score of “3”, F11 and F12 have a score of “6”, and F13 has a score of “5”.
Expression (2) is an expression for calculating an average value of operation costs and outputting a command having the smallest value as the final command C ^ and is expressed as follows.

Figure 2011221293

なお、式(2)において、CおよびC´は個々の音声コマンド、Xは入力音声である。またl()は括弧内の辞書の遷移に伴って発生する操作コストを返す関数である損失関数、P(C´|X)は音声Xが観測された場合にコマンドC´である尤度である。arg minは要素の中で最小の値の要素を返す関数である。式(2)は、式(1)にベイズの決定理論における損失関数lを考慮した場合に相当し、式(3)の条件では式(4)に変形できるため、式(1)と等しい。ベイズ決定理論については参考文献1に記載されている。   In Equation (2), C and C ′ are individual voice commands, and X is an input voice. Also, l () is a loss function that is a function that returns an operation cost that occurs in accordance with the dictionary transition in parentheses, and P (C ′ | X) is a likelihood that the command C ′ is obtained when the speech X is observed. is there. arg min is a function that returns the element having the smallest value among the elements. Equation (2) corresponds to the case where the loss function l in Bayesian decision theory is considered in Equation (1), and can be transformed into Equation (4) under the condition of Equation (3), and is therefore equal to Equation (1). The Bayesian decision theory is described in Reference 1.


Figure 2011221293

Figure 2011221293

Figure 2011221293

Figure 2011221293

参考文献1.
飯島泰造:パターン認識理論,基礎情報工学シリーズ6,森北出版(1989)
Reference 1.
Taizo Iijima: Pattern Recognition Theory, Basic Information Engineering Series 6, Morikita Publishing (1989)

図3は、式(2)を用いて算出された、各コマンドがユーザの所望のコマンド、即ち正解コマンドである場合の操作コストの平均値を示す図である。この図3を参照し、操作コストの平均値が最小となるF10が最終的にコマンドとして出力される。
この例では、ユーザの所望ではないコマンドの選択が行われず、中間ノードでユーザに選択肢を提示し、次の操作で所望のコマンドを選択することが可能となり、操作コストを抑制することができる。また、ユーザの発声が曖昧である場合は常に中間ノードに移動する従来の技術と比較して、比較的近いコマンドが存在する場合はそのコマンドを提示することでユーザの操作コストを軽減する。
FIG. 3 is a diagram illustrating an average value of operation costs when each command is a command desired by the user, that is, a correct command, calculated using Expression (2). Referring to FIG. 3, F10 that minimizes the average operation cost is finally output as a command.
In this example, a command that is not desired by the user is not selected, it is possible to present options to the user at the intermediate node, select the desired command in the next operation, and suppress operation costs. In addition, when the user's utterance is ambiguous, the operation cost of the user is reduced by presenting the command when there is a relatively close command, as compared with the conventional technique that always moves to the intermediate node.

なお、F11とF21が曖昧である可能性が少ない場合等を考慮して、全コマンドに関して操作コストの平均値を求めるのではなく、特定のグループ(図4に示すコマンド間の階層関係の例で示すF10〜F13のグループ)に限定して操作コストの平均値を求めることも可能である。なお、具体的な構成については実施の形態2において記載する。   In consideration of the case where F11 and F21 are unlikely to be ambiguous, the average operation cost is not calculated for all commands, but a specific group (in the example of the hierarchical relationship between commands shown in FIG. 4). It is also possible to obtain the average value of the operation cost by limiting to the group of F10 to F13 shown. A specific configuration will be described in Embodiment 2.

また、式(2)は式(5)に示すように操作コストの期待値や尤度の重みを変更することも可能である。

Figure 2011221293
Further, in Expression (2), as shown in Expression (5), the expected value of the operation cost and the weight of likelihood can be changed.

Figure 2011221293

なお、式(5)において、CおよびC´は個々の音声コマンド、Xは入力音声である。また、l()は括弧内の事象の遷移に伴い発生する操作コストの期待値を返す関数である損失関数、P(C´|X)は音声Xが観測された場合にコマンドC´である尤度である。arg minは要素の中で最小の値の要素を返す関数、λ1は操作コストの重み、λ2は尤度の重みとして与えられるものである。図5に示すように、式(1)と式(2)で操作コストの重みλ1が0の場合は同一の最終コマンドC^が出力される。 In Equation (5), C and C ′ are individual voice commands, and X is an input voice. Further, l () is a loss function that is a function that returns an expected value of the operation cost that occurs in association with the transition of the event in parentheses, and P (C ′ | X) is a command C ′ when the voice X is observed. Likelihood. arg min is a function that returns an element having the smallest value among the elements, λ 1 is given as a weight of the operation cost, and λ 2 is given as a weight of likelihood. As shown in FIG. 5, when the operation cost weight λ 1 is 0 in the equations (1) and (2), the same final command C ^ is output.

なお、上述の例では、一回の画面操作につき操作コストが「1」発生する場合を例に説明したが、同階層の機能を選択する際に発生するコストである認知コスト、誤認識の起こりやすさから発生するコストである誤認識のコスト、上位機能へ戻れない場合のコストである戻るコスト、メニュー画面等に戻り再度同じ階層をたどるコストである再選択コストなどを単独あるいは複合的に用いて操作コストを算出してもよい。
なお、上述の例では、音声認識処理の結果得られる認識結果を対象にコマンドを選出すると説明したが、テキスト入力の結果得られるテキストに基づきコマンドを選出してもよい。
In the above example, the case where an operation cost of “1” is generated for each screen operation has been described as an example. However, a recognition cost or a misrecognition that is a cost generated when selecting a function in the same hierarchy is described. The cost of misrecognition, which is a cost arising from ease, the return cost, which is the cost when returning to a higher function, the reselection cost, which is the cost of returning to the menu screen and following the same hierarchy, etc., is used alone or in combination The operation cost may be calculated.
In the above example, the command is selected based on the recognition result obtained as a result of the speech recognition process. However, the command may be selected based on the text obtained as a result of the text input.

実施の形態1.
次に、上述したコマンド処理を行うコマンド処理装置について説明を行う。図6は、この発明の実施の形態1によるコマンド処理装置の構成を示すブロック図である。
コマンド処理装置10は、音声入力部1、音声認識処理部(認識処理部)2、コマンド選出部3、尤度補正部4、認識辞書データベースメモリ5、変換データベースメモリ6および操作コストデータベースメモリ7で構成されている。
Embodiment 1 FIG.
Next, a command processing apparatus that performs the above-described command processing will be described. FIG. 6 is a block diagram showing the configuration of the command processing apparatus according to Embodiment 1 of the present invention.
The command processing device 10 includes a voice input unit 1, a voice recognition processing unit (recognition processing unit) 2, a command selection unit 3, a likelihood correction unit 4, a recognition dictionary database memory 5, a conversion database memory 6, and an operation cost database memory 7. It is configured.

音声入力部1は、ユーザによって発声される音声を入力し、この音声に対してA/D変換を行って音声データを出力する。音声認識処理部2は、音声入力部1から出力される音声データを入力し、認識辞書データベースメモリ5を参照し、この音声データに対して語彙の認識を行って、認識結果を出力する。この際、音声認識処理部2は最も確からしい語彙を第1候補として予想され得る語彙を例えば第5候補まで求めて確からしい順に並べた候補リストとそれぞれの候補の確からしさを表わす数値である認識尤度を認識結果として出力する(参考文献2参照)。   The voice input unit 1 inputs voice uttered by the user, performs A / D conversion on the voice, and outputs voice data. The voice recognition processing unit 2 inputs the voice data output from the voice input unit 1, refers to the recognition dictionary database memory 5, performs vocabulary recognition on the voice data, and outputs a recognition result. At this time, the speech recognition processing unit 2 obtains a vocabulary that can be expected from the most probable vocabulary as the first candidate, for example, a candidate list in which the vocabulary can be predicted up to the fifth candidate and arranged in a probable order, and a recognition value that represents the probability of each candidate. The likelihood is output as a recognition result (see Reference 2).

参考文献2.
特開昭60−166997
Reference 2.
JP-A-60-166997

コマンド選出部3は、認識結果を入力し、変換データベースメモリ6を参照し、尤度を算出し、中間コマンドと尤度を出力する。この際、コマンド選出部3は最も確からしいコマンドを第1候補として予想され得るコマンドを例えば第5候補まで求めて確からしい順に並べた候補リストを中間コマンドとして出力する。尤度補正部4は、中間コマンドと尤度を入力し、操作コストデータベースメモリ7を参照し、操作コストを用いて、操作コストの平均値を算出し、操作コストの平均値の最小のコマンドを出力する。   The command selection unit 3 inputs the recognition result, refers to the conversion database memory 6, calculates the likelihood, and outputs the intermediate command and the likelihood. At this time, the command selection unit 3 obtains a command that can be predicted as the most likely command as the first candidate, for example, up to the fifth candidate, and outputs a candidate list that is arranged in the most likely order as an intermediate command. The likelihood correction unit 4 inputs an intermediate command and likelihood, refers to the operation cost database memory 7, calculates an average value of the operation cost using the operation cost, and calculates a command having the minimum average operation cost. Output.

認識辞書データベースメモリ5は、音声認識処理部2で尤度を算出する際に用いる音響モデル(モデル)や言語モデル(モデル)のデータベースを記憶するメモリである。変換データベースメモリ6は、ユーザが発声した語句をコマンドに変換するためのコマンド名称・関連語句の対応を記述したデータベースを記憶するメモリである。すなわち、変換データベースメモリ6は、変換情報を複数記憶するテーブル構造に構築されている。   The recognition dictionary database memory 5 is a memory for storing a database of acoustic models (models) and language models (models) used when the speech recognition processing unit 2 calculates the likelihood. The conversion database memory 6 is a memory for storing a database in which correspondences between command names and related words for converting words uttered by the user into commands are described. That is, the conversion database memory 6 is constructed in a table structure that stores a plurality of pieces of conversion information.

操作コストデータベースメモリ7は、コマンド間の階層構造の関係を表し、尤度補正部4で操作コストの平均値を算出するためのコマンド間の遷移に伴う操作コストのデータベースを記憶するメモリである。すなわち、操作コストデータベースメモリ7は、図2に示すように、コマンド間の遷移に伴う操作コストを記憶するメモリである。   The operation cost database memory 7 represents a hierarchical structure relationship between commands, and is a memory for storing a database of operation costs associated with transitions between commands for the likelihood correction unit 4 to calculate an average value of operation costs. That is, the operation cost database memory 7 is a memory for storing operation costs associated with transitions between commands, as shown in FIG.

次に、実施の形態1によるコマンド処理装置の動作について説明する。図7は、実施の形態1によるコマンド処理装置の動作を示すフローチャートである。
音声入力部1は、一般的に話者であるユーザの近傍に設置されるか、またはユーザが保持し、ユーザの音声が入力される。音声入力部1は、この入力に対して、例えば16kHzサンプリング、16ビットでA/D変換を行い、音声データを音声認識処理部2に出力する(ステップST1)。
Next, the operation of the command processing apparatus according to the first embodiment will be described. FIG. 7 is a flowchart showing the operation of the command processing apparatus according to the first embodiment.
The voice input unit 1 is generally installed in the vicinity of a user who is a speaker, or is held by the user, and the user's voice is input. The voice input unit 1 performs A / D conversion with, for example, 16 kHz sampling and 16 bits on this input, and outputs voice data to the voice recognition processing unit 2 (step ST1).

音声認識処理部2は、ステップST1において入力される音声データについて公知の方法と同様に音声区間を判定し、判定した音声区間の音声データに対して、認識辞書データベースメモリ5の音響モデル・言語モデルを参照し、マッチングをとり、最も確からしい語句を認識結果としてコマンド選出部3に出力する(ステップST2)。   The voice recognition processing unit 2 determines a voice section for the voice data input in step ST1 in the same manner as a known method, and the acoustic model / language model of the recognition dictionary database memory 5 is determined for the voice data of the determined voice section. Are matched, and the most probable word / phrase is output as a recognition result to the command selection unit 3 (step ST2).

コマンド選出部3は、ステップST2において入力される認識結果に基づき、変換データベースメモリ6を参照し、中間コマンドおよび尤度を尤度補正部4に出力する(ステップST3)。図8は、実施の形態1のコマンド選出部3が尤度を算出する際に用いる変換データベースを示す図である。以下、図8を参照しながらコマンド選出部3の動作を詳細に説明する。
図8において、例えば、音声認識処理部2に入力されるユーザの発声が“早いルート”だった場合、認識辞書に記載されている音響モデルや言語モデルを用いて算出された確率値を尤度とすると、「TOLL_FIRST_ROUTE」(有料道路優先ルート検索)と「RECOMMENDED_ROUTE」(推奨ルート検索)が尤度6、「SHORTEST_ROUTE」(最短距離検索)が尤度5、「ROUTE_SEARCH」が尤度3となり中間コマンドとして選出される。なお、“”内は認識結果、「」内はコマンド名称とする。
The command selection unit 3 refers to the conversion database memory 6 based on the recognition result input in step ST2, and outputs the intermediate command and likelihood to the likelihood correction unit 4 (step ST3). FIG. 8 is a diagram illustrating a conversion database used when the command selection unit 3 according to Embodiment 1 calculates the likelihood. Hereinafter, the operation of the command selection unit 3 will be described in detail with reference to FIG.
In FIG. 8, for example, when the user's utterance input to the speech recognition processing unit 2 is “fast route”, the probability value calculated using the acoustic model or language model described in the recognition dictionary is used as the likelihood. Then, “TOLL_FIRST_ROUTE” (toll road priority route search) and “RECOMMENDED_ROUTE” (recommended route search) have a likelihood of 6, “SHORSTEST_ROUTE” (shortest distance search) has a likelihood of 5, and “ROUTE_SEARCH” has a likelihood of 3, Elected as. “” Indicates the recognition result, and “” indicates the command name.

尤度補正部4は、ステップST3において入力された中間コマンドおよび尤度に基づき、操作コストデータベースメモリ7を参照し、最終コマンドを出力する(ステップST4)。ステップST4において出力される最終コマンドC^は上述した式(2)に示すように表わされる。尤度補正部4の動作は図2に基づいて説明した上述のとおりである。   The likelihood correcting unit 4 refers to the operation cost database memory 7 based on the intermediate command and the likelihood input in step ST3, and outputs a final command (step ST4). The final command C ^ output in step ST4 is expressed as shown in the above-described equation (2). The operation of the likelihood correction unit 4 is as described above based on FIG.

以上のように、この実施の形態1によれば、コマンド間の遷移に伴う操作コストのデータベースを記憶する操作コストデータベースメモリ7と、当該操作コストデータベースメモリ7の操作コストデータベースを参照し、操作コストを用いて操作コストの平均値を算出し、当該平均値が最小のコマンドを最終コマンドとして出力する尤度補正部4を備えるように構成したので、コマンドの階層関係を考慮してコマンドを選出することができ、選出したコマンドの修正作業である画面操作に伴う労力を軽減することができる。   As described above, according to the first embodiment, the operation cost database memory 7 that stores a database of operation costs associated with transitions between commands and the operation cost database of the operation cost database memory 7 are referred to, and Is used to calculate the average value of the operation costs, and the likelihood correction unit 4 that outputs the command having the smallest average value as the final command is provided. Therefore, the command is selected in consideration of the hierarchical relationship of the commands. It is possible to reduce the labor associated with the screen operation, which is a modification of the selected command.

なお、この実施の形態1では、評価値として操作コストの平均値を例に説明を行ったが、式(5)で表わされる操作コストの平均値に操作コストの期待値や尤度の重みを考慮した値を評価値としてもよい。以下の実施の形態2においても同様である。   In the first embodiment, the average value of the operation cost is described as an example of the evaluation value. However, the expected value of the operation cost and the weight of likelihood are added to the average value of the operation cost represented by the equation (5). A value in consideration may be used as the evaluation value. The same applies to the second embodiment below.

実施の形態2.
この実施の形態2では、実施の形態1の構成に加え、特定のコマンドを選択して操作コストの平均値を算出する構成を示す。
図9は、この実施の形態2によるコマンド処理装置の構成を示すブロック図であり、実施の形態1のコマンド処理装置10にコマンド選択部8を追加して設けている。なお以下では、実施の形態1に係るコマンド処理装置の構成要素と同一または相当する部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
Embodiment 2. FIG.
In the second embodiment, in addition to the configuration of the first embodiment, a configuration is shown in which a specific command is selected and an average value of operation costs is calculated.
FIG. 9 is a block diagram showing a configuration of the command processing device according to the second embodiment, and a command selection unit 8 is additionally provided in the command processing device 10 of the first embodiment. In the following, the same or corresponding parts as those of the command processing apparatus according to the first embodiment are denoted by the same reference numerals as those used in the first embodiment, and the description thereof is omitted or simplified.

コマンド選択部8は、コマンド選出部3が選出した中間コマンドと尤度を入力し、操作コストデータベースメモリ7を参照して、例えば中間コマンドの中で尤度が最大のコマンドとの操作コストが一定値以下のコマンドを選択コマンドとし、当該選択コマンドと尤度を尤度補正部4aに出力する。
尤度補正部4aは、選択コマンドと尤度を入力し、操作コストデータベースメモリ7を参照し、操作コストを用いて、操作コストの平均値を算出し、操作コストの平均値が最小となるコマンドを出力する。
The command selection unit 8 inputs the intermediate command selected by the command selection unit 3 and the likelihood, and refers to the operation cost database memory 7, for example, the operation cost with the command having the maximum likelihood among the intermediate commands is constant. The command below the value is set as a selection command, and the selection command and likelihood are output to the likelihood correction unit 4a.
The likelihood correction unit 4a inputs a selection command and likelihood, refers to the operation cost database memory 7, calculates an average value of the operation cost using the operation cost, and a command that minimizes the average value of the operation cost Is output.

次に、この実施の形態2のコマンド処理装置の動作について図10のフローチャートに従って説明を行う。なお、実施の形態1のコマンド処理装置と同一の処理を行うステップには図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。
コマンド選出部3は、ステップST2において入力される認識結果に基づき、変換データベースメモリ6を参照し、中間コマンドおよび尤度をコマンド選択部8に出力する(ステップST11)。コマンド選択部8は、ステップST11においてコマンド選出部3から入力された中間コマンドおよび尤度に基づき、操作コストデータベースメモリ7を参照し、操作コマンドおよび尤度を取得して尤度補正部4aに出力する(ステップST12)。
Next, the operation of the command processing apparatus according to the second embodiment will be described with reference to the flowchart of FIG. Note that the same reference numerals as those used in FIG. 7 are attached to steps for performing the same processing as that of the command processing apparatus of the first embodiment, and description thereof will be omitted or simplified.
The command selection unit 3 refers to the conversion database memory 6 based on the recognition result input in step ST2, and outputs an intermediate command and likelihood to the command selection unit 8 (step ST11). The command selection unit 8 refers to the operation cost database memory 7 based on the intermediate command and likelihood input from the command selection unit 3 in step ST11, acquires the operation command and likelihood, and outputs the operation command and likelihood to the likelihood correction unit 4a. (Step ST12).

尤度補正部4aは、ステップST12において入力された選択コマンドおよび尤度に基づき、操作コストデータベースメモリ7を参照し、最終コマンドを出力する(ステップST13)。ステップST13において出力される最終コマンドC^は上述した式(2)に示すように表わされる。尤度補正部4aの動作は図2に基づいて説明した上述のとおりである。   The likelihood correcting unit 4a refers to the operation cost database memory 7 based on the selection command and the likelihood input in step ST12, and outputs a final command (step ST13). The final command C ^ output in step ST13 is expressed as shown in the above-described equation (2). The operation of the likelihood correcting unit 4a is as described above based on FIG.

以上のように、この実施の形態2によれば、コマンド間の遷移に伴う操作コストのデータベースを記憶する操作コストデータベースメモリ7と、当該操作コストデータベースメモリ7の操作コストデータベースを参照し、操作コストを用いて操作コストの平均値を算出し、当該平均値が最小のコマンドを最終コマンドとして出力する尤度補正部4aを備えるように構成したので、コマンドの階層関係を考慮してコマンドを選出することができ、選出したコマンドの修正作業である画面操作に伴う労力を軽減することができる。   As described above, according to the second embodiment, the operation cost database memory 7 that stores a database of operation costs associated with the transition between commands and the operation cost database of the operation cost database memory 7 are referred to, and the operation cost is stored. Is used to calculate the average value of the operation costs, and the likelihood correction unit 4a that outputs the command having the smallest average value as the final command is provided. Therefore, the command is selected in consideration of the hierarchical relationship of the commands. It is possible to reduce the labor associated with the screen operation, which is a modification of the selected command.

また、この実施の形態2によれば、操作コストデータベースメモリ7を参照して、所定の条件を満たすコマンドを選択するコマンド選択部8を備えるように構成したので、操作コストの設定によって常に中間コマンドを無視して操作階層上で上位のコマンドを選択するようになるのを防止することができる。さらに、評価値を算出する計算量を抑制することができる。   In addition, according to the second embodiment, the operation cost database memory 7 is referred to and the command selection unit 8 that selects a command that satisfies a predetermined condition is provided. It is possible to prevent the upper command from being selected on the operation hierarchy by ignoring. Furthermore, the calculation amount for calculating the evaluation value can be suppressed.

1 音声入力部、2 音声認識処理部、3 コマンド選出部、4,4a 尤度補正部、5 認識辞書データベースメモリ、6 変換データベースメモリ、7 操作コストデータベースメモリ、8 コマンド選択部、10 コマンド処理装置。   DESCRIPTION OF SYMBOLS 1 Voice input part, 2 Voice recognition process part, 3 Command selection part, 4, 4a Likelihood correction part, 5 Recognition dictionary database memory, 6 Conversion database memory, 7 Operation cost database memory, 8 Command selection part, 10 Command processing apparatus .

Claims (2)

ユーザによって入力される入力データに対して語彙認識を行って、確からしい語彙を認識結果として出力する認識処理部と、
前記認識結果について、モデルに従って結果が出現する場合に逆に前記入力データから見て前記モデルを推測する尤もらしさである尤度を算出し、当該尤度に基づき確からしいコマンド候補である中間コマンドを選出するコマンド選出部と、
ユーザが操作を誤った際の操作を操作コストと定義し、コマンド間の操作に伴う操作コストを記憶する操作コストデータベースメモリと、
前記操作コストに基づいて算出される評価値を最小化するコマンドを前記中間コマンドから選択する尤度補正部とを備えたことを特徴とするコマンド処理装置。
A recognition processing unit that performs vocabulary recognition on input data input by a user and outputs a probable vocabulary as a recognition result;
For the recognition result, when a result appears according to the model, a likelihood that is a likelihood that the model is estimated by looking from the input data is calculated, and an intermediate command that is a probable command candidate is calculated based on the likelihood. A command selection section to select;
An operation cost database memory that defines an operation when the user makes an operation error as an operation cost, and stores an operation cost associated with an operation between commands,
A command processing apparatus comprising: a likelihood correcting unit that selects a command that minimizes an evaluation value calculated based on the operation cost from the intermediate command.
操作コストおよび中間コマンドの尤度を参照し、前記中間コマンドから尤度補正部に出力すべき中間コマンドを選択するコマンド選択部を備えたことを特徴とする請求項1記載のコマンド処理装置。   The command processing apparatus according to claim 1, further comprising a command selection unit that refers to the operation cost and the likelihood of the intermediate command and selects an intermediate command to be output to the likelihood correction unit from the intermediate command.
JP2010090492A 2010-04-09 2010-04-09 Command processing device Pending JP2011221293A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010090492A JP2011221293A (en) 2010-04-09 2010-04-09 Command processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010090492A JP2011221293A (en) 2010-04-09 2010-04-09 Command processing device

Publications (1)

Publication Number Publication Date
JP2011221293A true JP2011221293A (en) 2011-11-04

Family

ID=45038337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010090492A Pending JP2011221293A (en) 2010-04-09 2010-04-09 Command processing device

Country Status (1)

Country Link
JP (1) JP2011221293A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798842A (en) * 2019-04-03 2020-10-20 现代自动车株式会社 Dialogue system and dialogue processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950291A (en) * 1995-08-04 1997-02-18 Sony Corp Voice recognition device and navigation device
JP2000305590A (en) * 1999-04-16 2000-11-02 Alpine Electronics Inc Speech recognition method
WO2007114226A1 (en) * 2006-03-31 2007-10-11 Pioneer Corporation Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device
US20080243505A1 (en) * 2007-03-14 2008-10-02 Victor Barinov Method for variable resolution and error control in spoken language understanding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950291A (en) * 1995-08-04 1997-02-18 Sony Corp Voice recognition device and navigation device
JP2000305590A (en) * 1999-04-16 2000-11-02 Alpine Electronics Inc Speech recognition method
WO2007114226A1 (en) * 2006-03-31 2007-10-11 Pioneer Corporation Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device
US20080243505A1 (en) * 2007-03-14 2008-10-02 Victor Barinov Method for variable resolution and error control in spoken language understanding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200700334009; 南條浩輝他: '"単語の重要度を考慮したベイズリスク最小化音声認識とそれに基づく情報検索"' 電子情報通信学会技術研究報告 Vol.105,No.495, 200512, pp.55-60 *
CSNG200800500012; 南條浩輝他: '"音声理解を指向したベイズリスク最小化枠組みに基づく音声認識"' 電子情報通信学会論文誌 Vol.J91-D,No.5, 200805, pp.1314-1324 *
JPN6013033012; 南條浩輝他: '"単語の重要度を考慮したベイズリスク最小化音声認識とそれに基づく情報検索"' 電子情報通信学会技術研究報告 Vol.105,No.495, 200512, pp.55-60 *
JPN6013033013; 南條浩輝他: '"音声理解を指向したベイズリスク最小化枠組みに基づく音声認識"' 電子情報通信学会論文誌 Vol.J91-D,No.5, 200805, pp.1314-1324 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798842A (en) * 2019-04-03 2020-10-20 现代自动车株式会社 Dialogue system and dialogue processing method
CN111798842B (en) * 2019-04-03 2024-03-26 现代自动车株式会社 Dialogue system and dialogue processing method

Similar Documents

Publication Publication Date Title
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
JP6203288B2 (en) Speech recognition system and method
CN106663424B (en) Intention understanding device and method
KR101801308B1 (en) Word-level correction of speech input
US9384736B2 (en) Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9837075B2 (en) Statistical voice dialog system and method
JP5598331B2 (en) Language model creation device
JP5706384B2 (en) Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program
US20160163314A1 (en) Dialog management system and dialog management method
JP5861649B2 (en) Model adaptation device, model adaptation method, and model adaptation program
WO2008001485A1 (en) Language model generating system, language model generating method, and language model generating program
JP5276610B2 (en) Language model generation apparatus, program thereof, and speech recognition system
WO2012160843A1 (en) Information apparatus
JP5183120B2 (en) Speech recognition in statistical languages using square root counting.
JP4634156B2 (en) Voice dialogue method and voice dialogue apparatus
JP2010091675A (en) Speech recognizing apparatus
JP2012018201A (en) Text correction and recognition method
JP5688677B2 (en) Voice input support device
JP6391925B2 (en) Spoken dialogue apparatus, method and program
JP4661239B2 (en) Voice dialogue apparatus and voice dialogue method
JP2011221293A (en) Command processing device
JP5344396B2 (en) Language learning device, language learning program, and language learning method
JP4877112B2 (en) Voice processing apparatus and program
JP2014149490A (en) Voice recognition error correction device and program of the same
JP4565768B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131105