JP2018028733A - Input device, input device control method, display device and input program - Google Patents

Input device, input device control method, display device and input program Download PDF

Info

Publication number
JP2018028733A
JP2018028733A JP2016159340A JP2016159340A JP2018028733A JP 2018028733 A JP2018028733 A JP 2018028733A JP 2016159340 A JP2016159340 A JP 2016159340A JP 2016159340 A JP2016159340 A JP 2016159340A JP 2018028733 A JP2018028733 A JP 2018028733A
Authority
JP
Japan
Prior art keywords
unit
recognition
user
recognition result
confirm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016159340A
Other languages
Japanese (ja)
Inventor
あづさ 名嘉
Azusa Naka
あづさ 名嘉
悟 池田
Satoru Ikeda
悟 池田
隼輔 堀田
Junsuke Hotta
隼輔 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2016159340A priority Critical patent/JP2018028733A/en
Publication of JP2018028733A publication Critical patent/JP2018028733A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To perform input operation quickly and accurately.SOLUTION: An input device pertaining to the present invention comprises an operation acceptance unit, a selection unit, a recognition unit, a determination unit, and a confirmation unit. The operation acceptance unit accepts operation of a user. The selection unit selects a prediction dictionary from a plurality of prediction dictionaries that corresponds to the operation accepted by the operation acceptance unit. The recognition unit recognizes a speech of the user and calculates the reliability of the recognition on the basis of the prediction dictionary selected by the selection unit. The determination unit determines whether or not to demand a confirmation by the user of the correctness of the recognition result of the recognition unit on the basis of the reliability calculated by the recognition unit. The confirmation unit causes the recognition result to be confirmed by the user when it is determined by the determination unit that the correctness of the recognition result be confirmed.SELECTED DRAWING: Figure 1

Description

本発明は、入力装置、入力装置の制御方法、表示装置および入力プログラムに関する。   The present invention relates to an input device, an input device control method, a display device, and an input program.

複数の音声認識辞書の中からユーザの操作に応じた音声認識辞書を選択して用いることで音声認識の精度を向上させる音声認識装置がある。かかる音声認識装置としては、画面上に表示した地図から検索範囲を絞り込む操作をユーザに行わせ、絞り込んだ検索範囲に対応した音声認識辞書を選択して用いる技術が提案されている(例えば、特許文献1参照)。   There is a speech recognition device that improves the accuracy of speech recognition by selecting and using a speech recognition dictionary corresponding to a user operation from a plurality of speech recognition dictionaries. As such a speech recognition device, a technique has been proposed in which a user performs an operation of narrowing a search range from a map displayed on a screen, and a speech recognition dictionary corresponding to the narrowed search range is selected and used (for example, a patent). Reference 1).

特開2002−372990号公報JP 2002-372990 A

しかしながら、上記した従来の技術では、音声認識の認識結果が誤っていた場合については考慮されていなかった。このため、認識結果が誤っていた場合、ユーザは検索範囲を絞り込む操作からやり直さざるをえず、音声入力に要する全体的な時間がかさんでしまうおそれがあった。   However, in the above-described conventional technology, the case where the recognition result of speech recognition is incorrect is not taken into consideration. For this reason, if the recognition result is incorrect, the user has to start again from the operation of narrowing down the search range, and there is a possibility that the overall time required for voice input is increased.

本発明は、上記に鑑みてなされたものであって、迅速かつ正確に入力操作を行うことができる入力装置、入力装置の制御方法、表示装置および入力プログラムを提供することを目的とする。   The present invention has been made in view of the above, and an object of the present invention is to provide an input device, an input device control method, a display device, and an input program that can perform an input operation quickly and accurately.

上述した課題を解決し、目的を達成するために、本実施形態に係る入力装置は、操作受付部と、選択部と、認識部と、判定部と、確認部とを備える。操作受付部は、ユーザの操作を受け付ける。選択部は、複数の予測辞書の中から前記操作受付部が受け付けた前記操作に対応する前記予測辞書を選択する。認識部は、前記選択部によって選択された前記予測辞書に基づいて前記ユーザの音声の認識および当該認識の信頼度の算出を行う。判定部は、前記認識部によって算出された前記信頼度に基づき、前記認識部による認識結果の正誤を前記ユーザに確認するか否かを判定する。確認部は前記判定部によって前記認識結果の正誤を確認すると判定された場合に、前記ユーザに前記認識結果を確認させる。   In order to solve the above-described problems and achieve the object, the input device according to the present embodiment includes an operation reception unit, a selection unit, a recognition unit, a determination unit, and a confirmation unit. The operation reception unit receives a user operation. The selection unit selects the prediction dictionary corresponding to the operation received by the operation reception unit from a plurality of prediction dictionaries. The recognition unit recognizes the user's voice and calculates a reliability of the recognition based on the prediction dictionary selected by the selection unit. The determination unit determines whether to confirm with the user whether the recognition result by the recognition unit is correct based on the reliability calculated by the recognition unit. The confirmation unit causes the user to confirm the recognition result when the determination unit determines to confirm the correctness of the recognition result.

本発明によれば、迅速かつ正確に入力操作が可能な入力装置、入力装置の制御方法、表示装置および入力プログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the input device which can perform input operation rapidly and correctly, the control method of an input device, a display apparatus, and an input program can be provided.

図1は、本実施形態に係る入力装置の制御方法の概要を示す図である。FIG. 1 is a diagram showing an overview of a method for controlling an input device according to the present embodiment. 図2は、本実施形態に係る表示装置の構成を示すブロック図である。FIG. 2 is a block diagram illustrating a configuration of the display device according to the present embodiment. 図3Aは、予測辞書データベースの具体例を示す図である。FIG. 3A is a diagram illustrating a specific example of a prediction dictionary database. 図3Bは、予測辞書の具体例を示す図である。FIG. 3B is a diagram illustrating a specific example of a prediction dictionary. 図4は、乗員認証における入力操作を説明する図である。FIG. 4 is a diagram illustrating an input operation in occupant authentication. 図5Aは、目的地設定における入力操作を説明する図(その1)である。FIG. 5A is a diagram (part 1) illustrating an input operation in destination setting. 図5Bは、目的地設定における入力操作を説明する図(その2)である。FIG. 5B is a diagram (part 2) illustrating an input operation in destination setting. 図5Cは、目的地設定における入力操作を説明する図(その3)である。FIG. 5C is a diagram (part 3) illustrating an input operation in destination setting. 図6Aは、画像の縮尺変更の場面を示す図(その1)である。FIG. 6A is a diagram (part 1) illustrating a scene of changing the scale of an image. 図6Bは、画像の縮尺変更の場面を示す図(その2)である。FIG. 6B is a diagram (part 2) illustrating a scene of changing the scale of an image. 図7は、本実施形態に係る入力装置が実行する入力手順を示すフローチャートである。FIG. 7 is a flowchart showing an input procedure executed by the input device according to the present embodiment.

以下、添付図面を参照して、本発明に係る入力装置、入力装置の制御方法、表示装置および入力プログラムの実施形態を詳細に説明する。なお、以下に示す実施形態により、この発明が限定されるものではない。   Hereinafter, embodiments of an input device, an input device control method, a display device, and an input program according to the present invention will be described in detail with reference to the accompanying drawings. In addition, this invention is not limited by embodiment shown below.

まず、本実施形態に係る入力装置の制御方法の概要について図1を用いて説明する。図1は、本実施形態に係る入力装置の制御方法の概要を示す図である。なお、図1では、ユーザが、入力装置1を用いてオーディオの楽曲検索を行う場合について説明する。   First, an outline of a method for controlling an input device according to the present embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an overview of a method for controlling an input device according to the present embodiment. In FIG. 1, a case where the user performs audio music search using the input device 1 will be described.

また、図1には、本実施形態に係る入力装置1が、例えば、表示部と操作部とを一体に備えたタッチパネルディスプレイである場合について図示している。また、入力装置1は、周囲の音を集音するマイクMに接続されるものとする。   FIG. 1 illustrates a case where the input device 1 according to the present embodiment is a touch panel display integrally including a display unit and an operation unit, for example. The input device 1 is connected to a microphone M that collects ambient sounds.

ここで、上記した従来技術では、複数の予測辞書の中から、ユーザの操作に応じた予測辞書を選択して用いることで、音声認識の認識精度を向上させることにしている。   Here, in the above-described conventional technology, the recognition accuracy of voice recognition is improved by selecting and using a prediction dictionary corresponding to a user operation from a plurality of prediction dictionaries.

しかしながら、かかる従来技術では、音声認識の認識結果に誤りがある場合については考慮されていなかった。このため、誤認識があった場合、予測辞書を選択する操作から再度やり直すなど、音声入力に要する全体的な時間がかさんでしまうおそれがあった。   However, in the conventional technology, the case where there is an error in the recognition result of the speech recognition has not been considered. For this reason, when there is a misrecognition, there is a possibility that the entire time required for voice input may be increased, such as starting again from the operation of selecting the prediction dictionary.

そこで、本実施形態に係る入力装置1では、音声認識の認識結果に加えて音声認識の信頼度を算出し、算出した信頼度に基づいて音声認識の認識結果をユーザに確認するか否かを判定することとした。これにより、信頼度が低い場合にはユーザに認識結果を修正する機会を付与することができるとともに、信頼度が高い場合にはユーザへの確認そのものを省略することができる。したがって、正しい認識結果を得るまでの全体的な時間を短縮することができる。以下、入力装置1の制御方法の概要についてさらに具体的に説明する。   Therefore, in the input device 1 according to the present embodiment, the reliability of speech recognition is calculated in addition to the recognition result of speech recognition, and whether or not to confirm the speech recognition recognition result to the user based on the calculated reliability is determined. I decided to judge. Thereby, when the reliability is low, the user can be given an opportunity to correct the recognition result, and when the reliability is high, confirmation to the user itself can be omitted. Accordingly, it is possible to shorten the overall time until a correct recognition result is obtained. Hereinafter, the outline of the control method of the input device 1 will be described more specifically.

ユーザが指で楽曲検索ボタンを操作した場合、入力装置1は、楽曲検索の操作としてユーザの操作を受け付ける(ステップS1)。続いて、入力装置1は、複数の予測辞書Dの中から、楽曲検索に対応する予測辞書D1を選択する(ステップS2)。   When the user operates the music search button with a finger, the input device 1 accepts a user operation as a music search operation (step S1). Subsequently, the input device 1 selects the prediction dictionary D1 corresponding to the music search from the plurality of prediction dictionaries D (step S2).

ここで、予測辞書Dとは、音声認識で認識する文字列と、かかる文字列に対応する音声データとが関連付けられた辞書を指す。例えば、楽曲検索に対応する予測辞書D1は、オーディオに登録された曲名と、かかる曲名に対応する音声データとが関連付けて記憶された辞書である。   Here, the prediction dictionary D refers to a dictionary in which a character string recognized by speech recognition is associated with speech data corresponding to the character string. For example, the prediction dictionary D1 corresponding to music search is a dictionary in which music names registered in audio and voice data corresponding to the music names are stored in association with each other.

また、入力装置1は、複数の予測辞書D1〜D3・・・を備えており、ステップS1で受け付けた操作に応じて異なる予測辞書Dを選択する。   The input device 1 includes a plurality of prediction dictionaries D1 to D3... And selects a different prediction dictionary D according to the operation received in step S1.

続いて、入力装置1は、予測辞書D1に基づいて音声を認識するとともに、上記した信頼度を算出する(ステップS3)。具体的には、まず、入力装置1は、ユーザの音声をマイクMから音声信号として取得する。続いて、入力装置1は、音声信号と、選択した予測辞書D1に記憶された音声データとを照合し、例えば、予測辞書D1に登録された曲名の中から最も近い曲名を認識結果とする。   Subsequently, the input device 1 recognizes speech based on the prediction dictionary D1 and calculates the reliability described above (step S3). Specifically, first, the input device 1 acquires the user's voice from the microphone M as a voice signal. Subsequently, the input device 1 collates the voice signal with the voice data stored in the selected prediction dictionary D1, and sets, for example, the closest song name among the song names registered in the prediction dictionary D1 as a recognition result.

ここで、予測辞書D1に類似した曲名が複数存在する場合などに、誤った曲名を認識しかねない。そこで、入力装置1では、認識結果となった曲名に類似する曲名の個数などに基づいて認識結果の信頼度を算出する。そして、算出した信頼度に基づき、認識結果の正誤をユーザに確認するか否かを判定する(ステップS4)。なお、ステップS4の詳細については図2以降を用いて後述する。   Here, when there are a plurality of song names similar to the prediction dictionary D1, an incorrect song name may be recognized. Therefore, the input device 1 calculates the reliability of the recognition result based on the number of song titles similar to the song name that is the recognition result. Then, based on the calculated reliability, it is determined whether or not to confirm the correctness of the recognition result with the user (step S4). Details of step S4 will be described later with reference to FIG.

ここで、入力装置1は、認識結果をユーザに確認すると判定した場合、すなわち、上記した信頼度が低い場合、タッチパネルディスプレイに認識結果である曲名を表示し、ユーザに認識結果の正誤を確認させる(ステップS5)。   Here, when it is determined that the user confirms the recognition result, that is, when the above-described reliability is low, the input device 1 displays the song name that is the recognition result on the touch panel display, and allows the user to confirm whether the recognition result is correct or incorrect. (Step S5).

そして、入力装置1は、ユーザによる認識結果の正誤に対応する操作を受け付けることで、認識結果を確定させる。   Then, the input device 1 accepts an operation corresponding to whether the recognition result is correct or incorrect by the user, thereby confirming the recognition result.

これにより、ユーザはかかる認識結果が誤っていた場合に直ちに修正することができる。換言すると、ユーザは正確に入力を行うことができる。   Thereby, the user can correct immediately when the recognition result is incorrect. In other words, the user can input accurately.

一方、ステップS4の判定において、ユーザに認識結果の正誤を確認しないと判定した場合、すなわち、上記した信頼度が高い場合、入力装置1は、認識結果をユーザに確認せず認識結果を確定させる。これにより、入力装置1は、認識結果をユーザに確認しない分だけ時間を短縮することができる。   On the other hand, when it is determined in step S4 that the user does not confirm the correctness of the recognition result, that is, when the reliability is high, the input device 1 confirms the recognition result without confirming the recognition result with the user. . Thereby, the input device 1 can shorten time by the amount which does not confirm a recognition result with a user.

このように、本実施形態に係る入力装置1の制御方法では、音声認識を行う際に認識結果の信頼度を算出し、算出した信頼度を用いてユーザに認識結果を確認するか否かを判定する。したがって、ユーザは迅速かつ正確に入力操作を行うことができる。   Thus, in the control method of the input device 1 according to the present embodiment, the reliability of the recognition result is calculated when performing speech recognition, and whether or not to confirm the recognition result with the user using the calculated reliability is determined. judge. Therefore, the user can perform an input operation quickly and accurately.

また、入力装置1では、選択した予測辞書Dに基づいて音声を認識するため、全ての予測辞書Dに基づいて音声を認識する場合よりも、音声認識の処理負荷を軽減することが可能となる。   Further, since the input device 1 recognizes speech based on the selected prediction dictionary D, the processing load of speech recognition can be reduced as compared with the case where speech is recognized based on all prediction dictionaries D. .

なお、上述した例では、入力装置1がタッチパネルディスプレイである場合について例示したが、これに限られず、入力装置1は、操作部と表示部と別体とすることにしてもよい。また、操作部として、上記したタッチパネルに加え、ボタンや、マウス、キーボードなどの入力デバイスを用いることができる。また、上記した入力デバイスを所定の数だけ併用することにしてもよい。   In the above-described example, the case where the input device 1 is a touch panel display is illustrated. However, the present invention is not limited to this, and the input device 1 may be separated from the operation unit and the display unit. In addition to the touch panel described above, input devices such as buttons, a mouse, and a keyboard can be used as the operation unit. Further, a predetermined number of input devices may be used in combination.

以下、上記した制御方法によって制御される入力装置1を含む表示装置100について説明する。また、以下では、表示装置100が車両に搭載された車載装置50の表示装置として機能する場合について説明するが、スマートフォンやタブレット端末、パソコンについても適用することもできる。   Hereinafter, the display device 100 including the input device 1 controlled by the above-described control method will be described. Moreover, although the case where the display apparatus 100 functions as a display apparatus of the vehicle-mounted apparatus 50 mounted in the vehicle below is demonstrated, it is also applicable also to a smart phone, a tablet terminal, and a personal computer.

図2を用いて本実施形態に係る入力装置1を含む表示装置100の構成例について説明する。図2は、本実施形態に係る表示装置100の構成を示すブロック図である。   A configuration example of the display device 100 including the input device 1 according to the present embodiment will be described with reference to FIG. FIG. 2 is a block diagram illustrating a configuration of the display device 100 according to the present embodiment.

図2に示すように、表示装置100は、入力装置1と、タッチパネルディスプレイ30とを備える。また、表示装置100は、車載装置50と、マイクMとに接続される。なお、タッチパネルディスプレイ30に入力装置1を含める構成とすることにしてもよい。   As shown in FIG. 2, the display device 100 includes an input device 1 and a touch panel display 30. The display device 100 is connected to the in-vehicle device 50 and the microphone M. The touch panel display 30 may include the input device 1.

このようにすることで、ユーザはタッチパネルディスプレイ30の表示部32に表示された表示画像に連動してタッチ操作を行うことができるため、入力に要する全体的な時間を省略することが可能となる。   In this way, the user can perform a touch operation in conjunction with the display image displayed on the display unit 32 of the touch panel display 30, so that the overall time required for input can be omitted. .

車載装置50は、例えば、車両に搭載されたオーディオ、ナビゲーションシステム、エアコンなどの各種機器を含む。また、車載装置50は、入力装置1による入力結果に基づいて上記した各種機器を制御する。また、車載装置50は、制御結果を反映させた表示画像をタッチパネルディスプレイ30の表示部32に表示させる。   The in-vehicle device 50 includes various devices such as an audio, a navigation system, and an air conditioner mounted on the vehicle, for example. The in-vehicle device 50 controls the various devices described above based on the input result from the input device 1. Further, the in-vehicle device 50 causes the display unit 32 of the touch panel display 30 to display a display image reflecting the control result.

タッチパネルディスプレイ30は、操作部31と、表示部32とを備える。また、タッチパネルディスプレイ30は、例えば、車両のセンターコンソールなど、ユーザが視認および操作が容易な位置に配置される。   The touch panel display 30 includes an operation unit 31 and a display unit 32. Moreover, the touch panel display 30 is arrange | positioned in the position where a user can visually recognize and operate easily, such as a center console of a vehicle, for example.

操作部31は、例えば、操作面を備える静電容量方式の入力デバイスである。また、操作部31は、ユーザによってタッチ操作された場合、かかるタッチ操作に基づく操作内容を示す操作信号を入力装置1の操作受付部11に出力する。   The operation unit 31 is, for example, a capacitance type input device having an operation surface. When the user performs a touch operation, the operation unit 31 outputs an operation signal indicating the operation content based on the touch operation to the operation reception unit 11 of the input device 1.

具体的には、操作部31は、タッチ操作のタッチ位置を検出すると、かかるタッチ位置に対応する操作信号を車載装置50から取得し、かかる操作信号を操作受付部11に出力する。   Specifically, when detecting the touch position of the touch operation, the operation unit 31 acquires an operation signal corresponding to the touch position from the in-vehicle device 50 and outputs the operation signal to the operation reception unit 11.

例えば、操作部31は、楽曲検索のボタンが押下された場合に、楽曲検索を示す操作信号を操作受付部11に出力する。また、操作部31は、地図などの画像が押下された場合、かかる地図が押下された旨を示す操作信号を車載装置50に出力する。また、操作部31は、タッチ操作を検出している場合に、常にタッチ位置に応じた操作信号を操作受付部11に出力するものとする。   For example, the operation unit 31 outputs an operation signal indicating music search to the operation reception unit 11 when a music search button is pressed. In addition, when an image such as a map is pressed, the operation unit 31 outputs an operation signal indicating that the map is pressed to the in-vehicle device 50. In addition, the operation unit 31 always outputs an operation signal corresponding to the touch position to the operation reception unit 11 when a touch operation is detected.

表示部32は、例えば、液晶ディスプレイであり、車載装置50の各種機器の動作状況や、後述する認識部13による音声の認識結果などを表示することで、認識結果をユーザに確認させる。   The display unit 32 is, for example, a liquid crystal display, and displays the operation status of various devices of the in-vehicle device 50, the speech recognition result by the recognition unit 13 described later, and the like, thereby allowing the user to confirm the recognition result.

入力装置1は、制御部10と記憶部20とを備える。制御部10は、例えば、CPU(Central Processing Unit)であり、入力装置1の全体制御を行う。また、制御部10は、操作受付部11と、選択部12と、認識部13と、判定部14と、確認部15とを備える。   The input device 1 includes a control unit 10 and a storage unit 20. The control unit 10 is, for example, a CPU (Central Processing Unit), and performs overall control of the input device 1. In addition, the control unit 10 includes an operation reception unit 11, a selection unit 12, a recognition unit 13, a determination unit 14, and a confirmation unit 15.

操作受付部11は、ユーザの操作を受け付ける。具体的には、操作受付部11は、操作部31を介して入力されたユーザからの操作に基づく操作信号を受け付ける。そして、操作受付部11は、操作信号に応じた操作指示を選択部12に出力する。   The operation reception unit 11 receives a user operation. Specifically, the operation reception unit 11 receives an operation signal based on an operation from the user input via the operation unit 31. Then, the operation reception unit 11 outputs an operation instruction corresponding to the operation signal to the selection unit 12.

また、操作受付部11は、例えば、操作の受け付け継続中である場合に、認識部13に対して音声認識を許可する許可通知を出力する。つまり、操作受付部11が操作を受け付けていない状態では、認識部13は、許可通知を出力せず、認識部13は、音声を認識しないことになる。   In addition, for example, when the operation reception is being continued, the operation reception unit 11 outputs a permission notification that permits voice recognition to the recognition unit 13. That is, in a state where the operation reception unit 11 does not receive an operation, the recognition unit 13 does not output a permission notice, and the recognition unit 13 does not recognize a voice.

すなわち、ユーザが操作面を押下しながら発話した場合にのみ、認識部13は、かかる発話を認識する。これにより、ユーザの意図しないタイミングでの音声入力を抑制することができる。   That is, only when the user utters while pressing the operation surface, the recognition unit 13 recognizes the utterance. Thereby, the voice input at the timing not intended by the user can be suppressed.

また、操作受付部11は、操作部31の操作面における所定領域へのタッチ操作を受け付け、かかる所定領域以外へのタッチ操作を受け付けないことにしてもよい。   Further, the operation accepting unit 11 may accept a touch operation on a predetermined area on the operation surface of the operation unit 31 and may not accept a touch operation on a part other than the predetermined area.

換言すると、ユーザが操作面の所定領域を押下しながら発話した場合にのみ、認識部13は、かかる発話を認識することにしてもよい。したがって、音声認識が行われる操作面の領域が限定されるため、ユーザの意図しない音声入力をより抑制することができる。なお、所定領域は、操作指示に連動した領域、すなわち、例えば、表示部32に操作ボタンが表示された領域であることが好ましい。   In other words, the recognition unit 13 may recognize the utterance only when the user utters while pressing a predetermined area on the operation surface. Therefore, since the area of the operation surface where voice recognition is performed is limited, voice input unintended by the user can be further suppressed. The predetermined area is preferably an area linked to an operation instruction, that is, an area where an operation button is displayed on the display unit 32, for example.

また、操作受付部11は、操作の受け付け継続中以外のタイミングで許可通知を出力することにしてもよい。すなわち、認識部13は、操作受付部11が操作の受け付けの継続中以外にも音声を認識することにしてもよい。かかる場合に、例えば、操作受付部11は、操作部31から操作信号を取得した場合に、許可通知を所定期間連続して認識部13に出力することとすればよい。   Further, the operation reception unit 11 may output a permission notification at a timing other than the time during which the operation reception is continuing. That is, the recognizing unit 13 may recognize a voice other than when the operation accepting unit 11 is continuing to accept the operation. In such a case, for example, when the operation reception unit 11 acquires an operation signal from the operation unit 31, the operation reception unit 11 may output the permission notification to the recognition unit 13 continuously for a predetermined period.

また、操作受付部11は、タッチパネルディスプレイ30の操作部31以外からもユーザの操作を受け付けることができる。例えば、ユーザの物理的な操作ボタンの操作を受け付けたり、あるいは、ユーザの撮像画像から挙動を検出し、かかる挙動に基づいてユーザの操作を受け付けたりすることもできる。   Further, the operation accepting unit 11 can accept a user operation from other than the operation unit 31 of the touch panel display 30. For example, an operation of a physical operation button of the user can be received, or a behavior can be detected from a captured image of the user and a user operation can be received based on the behavior.

具体的には、操作受付部11は、タッチパネルディスプレイ30の近傍に配置された目的地設定ボタンや、楽曲検索ボタンを押下する操作を受け付け、押下されたボタンに応じて目的地設定や、楽曲検索を示す操作指示を選択部12に出力することもできる。   Specifically, the operation reception unit 11 receives an operation of pressing a destination setting button or a music search button arranged in the vicinity of the touch panel display 30, and sets a destination or music search according to the pressed button. Can be output to the selection unit 12.

また、操作受付部11は、ユーザの撮像画像からユーザの視線方向や、指の向きなどの挙動を検出し、視線方向や、指の向きの先に位置する機器に対する操作として受け付けることもできる。   Further, the operation accepting unit 11 can detect behaviors such as the user's line-of-sight direction and finger orientation from the captured image of the user, and can accept the behavior as an operation for a device positioned ahead of the line-of-sight direction and the finger orientation.

ユーザの視線方向または、指の向きがオーディオに向いている場合に、操作受付部11は、例えば、オーディオに関連した操作(例えば、楽曲検索など)として受け付けることもできる。   When the user's line-of-sight direction or finger orientation is facing audio, the operation accepting unit 11 can accept, for example, an operation related to audio (for example, music search).

選択部12は、複数の予測辞書の中から操作受付部11が受け付けたユーザの操作に対応する予測辞書を選択する。具体的には、選択部12は、操作受付部11から取得した操作指示に対応する予測辞書を記憶部20の予測辞書データベース21から選択する。そして、選択部12は、選択した予測辞書の識別子を認識部13に出力する。なお、以下では、かかる識別子を「予測辞書No」で表す。   The selection unit 12 selects a prediction dictionary corresponding to a user operation received by the operation reception unit 11 from a plurality of prediction dictionaries. Specifically, the selection unit 12 selects a prediction dictionary corresponding to the operation instruction acquired from the operation reception unit 11 from the prediction dictionary database 21 of the storage unit 20. Then, the selection unit 12 outputs the identifier of the selected prediction dictionary to the recognition unit 13. Hereinafter, this identifier is represented by “prediction dictionary No”.

認識部13は、選択部12によって選択された予測辞書に基づいてユーザの音声の認識および当該認識の信頼度の算出を行う。まず、認識部13による音声の認識処理について説明する。   The recognition unit 13 recognizes the user's voice based on the prediction dictionary selected by the selection unit 12 and calculates the reliability of the recognition. First, speech recognition processing by the recognition unit 13 will be described.

認識部13は、選択部12から予測辞書Noと、マイクMから入力される音声信号とを取得する。続いて、認識部13は、予測辞書データベース21から予測辞書Noが一致する予測辞書を参照して、かかる予測辞書の音声データと、マイクMから入力される音声信号との特徴量を比較する。   The recognition unit 13 acquires the prediction dictionary No. from the selection unit 12 and the voice signal input from the microphone M. Subsequently, the recognizing unit 13 refers to the prediction dictionary having the same prediction dictionary No from the prediction dictionary database 21 and compares the feature data between the speech data of the prediction dictionary and the speech signal input from the microphone M.

比較の結果、認識部13は、予測辞書の中から尤度が高い文字列を抽出する。そして、認識部13は、抽出した文字列をテキストデータとして判定部14に出力する。また、認識部13は、選択部12から受け取った予測辞書Noを認識部13に渡す。   As a result of the comparison, the recognition unit 13 extracts a character string having a high likelihood from the prediction dictionary. Then, the recognition unit 13 outputs the extracted character string to the determination unit 14 as text data. The recognition unit 13 passes the prediction dictionary No received from the selection unit 12 to the recognition unit 13.

ここで、認識部13は、文字を認識する度に一文字ずつテキストデータに変換し、かかるテキストデータを判定部14に出力するものとする。   Here, each time the character is recognized, the recognition unit 13 converts the character one by one into text data and outputs the text data to the determination unit 14.

続いて、認識部13による信頼度の算出方法について説明する。ここで、図3Aおよび図3Bを用いて予測辞書データベース21および予測辞書について説明しておく。図3Aは、予測辞書データベース21の具体例を示す図である。   Next, a method for calculating reliability by the recognition unit 13 will be described. Here, the prediction dictionary database 21 and the prediction dictionary will be described with reference to FIGS. 3A and 3B. FIG. 3A is a diagram illustrating a specific example of the prediction dictionary database 21.

図3Aに示すように、予測辞書データベース21は、複数の予測辞書を記憶し、予測辞書ごとに、機器、操作指示、予測辞書No、登録数などが関連付けられて記憶される。   As illustrated in FIG. 3A, the prediction dictionary database 21 stores a plurality of prediction dictionaries, and for each prediction dictionary, a device, an operation instruction, a prediction dictionary No, the number of registrations, and the like are associated and stored.

乗員認証に対応する予測辞書1には、例えば、過去に車両に乗車した乗員の名前などの文字列が登録されている。また、目的地設定に対応する予測辞書2には、住所、地名、施設名などの文字列が登録されている。また、楽曲検索に対応する予測辞書4は、曲名やアーティスト名、アルバム名、プレイリスト名などの文字列が登録されている。   In the prediction dictionary 1 corresponding to occupant authentication, for example, a character string such as the name of an occupant who has boarded the vehicle in the past is registered. In the prediction dictionary 2 corresponding to the destination setting, character strings such as an address, a place name, and a facility name are registered. In the prediction dictionary 4 corresponding to music search, character strings such as song names, artist names, album names, and playlist names are registered.

そして、地図縮尺変更および周囲モニター画像縮尺変更には、同一の予測辞書3が対応しており、予測辞書3には、例えば、拡大および縮小など画像の縮尺変更を意味するキーワードを含む文字列が登録されている。   The same prediction dictionary 3 corresponds to the map scale change and the surrounding monitor image scale change. In the prediction dictionary 3, for example, a character string including a keyword that means image scale change such as enlargement or reduction is included. It is registered.

ここで、信頼度とは、音声認識において他の文字列との誤認識のしにくさを示す指標である。また、かかる信頼度は、例えば、予測辞書ごとに登録されている文字列の個数(同図に示す登録数)に応じて5段階で決定される。   Here, the reliability is an index indicating the difficulty of misrecognition with other character strings in speech recognition. In addition, the reliability is determined in five stages according to, for example, the number of character strings registered for each prediction dictionary (the number of registrations shown in the figure).

例えば、予測辞書に登録された文字列の数が少ない程、信頼度は高くなるように算出される。これは、予測辞書に登録された文字列の数が多い程、音声認識によって他の文字列と間違える可能性が高くなるためである。   For example, the smaller the number of character strings registered in the prediction dictionary, the higher the reliability. This is because as the number of character strings registered in the prediction dictionary increases, there is a higher possibility of being mistaken for other character strings by voice recognition.

具体的には、認識部13は、例えば、選択部12から入力される予測辞書Noの登録数を予測辞書データベース21から参照して信頼度を算出する。   Specifically, the recognition unit 13 calculates the reliability by referring to the prediction dictionary database 21 for the number of registrations of the prediction dictionary No. input from the selection unit 12, for example.

例えば、認識部13は、予測辞書の登録数が10個未満である場合に、かかる予測辞書の信頼度を「5」として算出し、かかる登録数が10〜49個の間である場合に、信頼度を「4」として算出する。   For example, the recognition unit 13 calculates the reliability of the prediction dictionary as “5” when the registration number of the prediction dictionary is less than 10, and when the registration number is between 10 and 49, The reliability is calculated as “4”.

また、認識部13は、登録数が50〜99個の間である場合に、信頼度を「3」として算出し、登録数が100〜199個の間である場合に、信頼度を「2」として算出する。また、登録数が200個以上である場合に、信頼度を「1」として算出する。そして、認識部13は、認識結果となるテキストデータと、算出した信頼度とを判定部14に通知する。   The recognition unit 13 calculates the reliability as “3” when the number of registrations is between 50 and 99, and sets the reliability as “2” when the number of registrations is between 100 and 199. ". When the number of registrations is 200 or more, the reliability is calculated as “1”. Then, the recognition unit 13 notifies the determination unit 14 of the text data that is the recognition result and the calculated reliability.

なお、上記した信頼度の算出方法は、一例にすぎず、任意に変更することができる。また、認識部13は、例えば、類似した文字列の数などを考慮して信頼度を算出することにしてもよい。かかる場合に、例えば、認識部13は、類似した文字列の数が多い程、信頼度が低くなるように算出する。   The reliability calculation method described above is merely an example, and can be arbitrarily changed. Further, the recognition unit 13 may calculate the reliability in consideration of, for example, the number of similar character strings. In such a case, for example, the recognition unit 13 calculates so that the reliability is lower as the number of similar character strings is larger.

なお、認識部13は、認識結果から認識の信頼度を算出することにしてもよい。ここで、図3Bを用いて予測辞書の具体例について説明する。図3Bは、予測辞書の具体例を示す図である。図3Bに示すように、予測辞書の文字列に、グループ、頻度、音声データ等が関連付けられて記憶される。   Note that the recognition unit 13 may calculate the recognition reliability from the recognition result. Here, a specific example of the prediction dictionary will be described with reference to FIG. 3B. FIG. 3B is a diagram illustrating a specific example of a prediction dictionary. As shown in FIG. 3B, groups, frequencies, voice data, and the like are stored in association with character strings in the prediction dictionary.

ここで、グループとは、例えば、音声データが類似する文字列を同一の集合体としたものである。図3Bでは、文字列「A」と、文字列「A´」とは、音声データが類似しており、文字列「A」および文字列「A´」と、文字列「B」とは類似しない音声データであるものとする。   Here, for example, a group is a group of character strings having similar voice data as the same aggregate. In FIG. 3B, the character string “A” and the character string “A ′” are similar in audio data, and the character string “A” and the character string “A ′” are similar to the character string “B”. It is assumed that the audio data is not.

したがって、図3Bに示す例では、文字列「A」と、文字列「A´」とがグループ「A」に分類される。また、文字列「B」は、類似した音声データが同一の予測辞書内に存在しないため、グループには属していない。   Therefore, in the example illustrated in FIG. 3B, the character string “A” and the character string “A ′” are classified into the group “A”. Further, the character string “B” does not belong to the group because similar speech data does not exist in the same prediction dictionary.

ここで、認識部13は、例えば、認識結果となる文字列の属しているグループの数に応じて信頼度を算出する。また、認識部13は、算出した信頼度を、図3Aを参照して算出した信頼度(以下、「予測辞書に基づく信頼度」と記載する)の値に加算して、加算した値の信頼度を判定部14に出力することもできる。   Here, the recognition unit 13 calculates the reliability according to the number of groups to which the character string that is the recognition result belongs, for example. The recognizing unit 13 adds the calculated reliability to the value of the reliability calculated with reference to FIG. 3A (hereinafter referred to as “reliability based on the prediction dictionary”), and the reliability of the added value. The degree can also be output to the determination unit 14.

具体的には、認識部13は、認識した文字列が、どのグループにも属していない場合に、信頼度が高くなるように算出する。この場合に、認識部13は、信頼度の値を「1」として算出し、算出した値を上記した予測辞書に基づく信頼度に加算して判定部14に通知する。   Specifically, the recognizing unit 13 calculates so that the reliability is high when the recognized character string does not belong to any group. In this case, the recognition unit 13 calculates the reliability value as “1”, adds the calculated value to the reliability based on the prediction dictionary described above, and notifies the determination unit 14 of the calculated value.

また、例えば、認識部13は、認識した文字列がグループに属している場合に、信頼度を「−1」として算出し、算出した「−1」を予測辞書に基づく信頼度に加算、すなわち、「1」を減算して判定部14に通知する。   For example, when the recognized character string belongs to the group, the recognition unit 13 calculates the reliability as “−1”, and adds the calculated “−1” to the reliability based on the prediction dictionary, that is, , “1” is subtracted and notified to the determination unit 14.

このように、認識部13は、認識した文字列がグループに属していない場合に、信頼度が高くなるように算出する。これは、グループに属していない文字列を、同一の予測辞書内の他の文字列と間違う可能性が低いためである。したがって、かかる場合に、信頼度を高く算出することで、ユーザに認識結果を確認させる回数を低減させることができる。これにより、ユーザの確認処理の処理負荷を軽減することができる。   As described above, the recognition unit 13 calculates the reliability so that the recognized character string does not belong to the group. This is because there is a low possibility that a character string that does not belong to a group is mistaken for another character string in the same prediction dictionary. Therefore, in such a case, the number of times that the user confirms the recognition result can be reduced by calculating the reliability high. Thereby, the processing load of a user's confirmation process can be reduced.

なお、認識部13は、認識結果の文字列が長い程、信頼度が低くなるように算出するなど、認識部13の算出方法は、上記の例に限定されるものではない。また、後述する確認部15が文字列ごとに正誤率を算出し、認識部13は、かかる正誤率に基づいて信頼度を算出することにしてもよい。   The calculation method of the recognition unit 13 is not limited to the above example. For example, the recognition unit 13 calculates the reliability so that the longer the character string of the recognition result, the lower the reliability. Moreover, the confirmation part 15 mentioned later calculates a correctness rate for every character string, and the recognition part 13 may determine reliability based on this correctness rate.

また、認識部13は、認識結果となるテキストデータが参照した予測辞書に含まれない場合、信頼度を低く算出する。これにより、かかる場合に、判定部14では、かかるテキストデータの正誤をユーザに確認すると判定する。そして、確認部15では、かかるテキストデータの正誤をユーザに確認することとなる。   Moreover, the recognition part 13 calculates low reliability, when the text data used as a recognition result is not contained in the referred prediction dictionary. Thereby, in such a case, the determination unit 14 determines to confirm with the user whether the text data is correct or incorrect. The confirmation unit 15 confirms the correctness of the text data with the user.

これは、テキストデータが予測辞書に含まれない場合は、かかるテキストデータを誤認識している可能性が高いためである。このようにすることで、誤ったテキストデータが車載装置50に出力されるのを抑制することができる。   This is because when the text data is not included in the prediction dictionary, there is a high possibility that the text data is erroneously recognized. By doing in this way, it can control that incorrect text data is outputted to in-vehicle device 50.

また、図3Bに示す頻度とは、文字列ごとに使用される頻度を示している。図3Bに示す例では、文字列「A」と、文字列「B」との頻度は「低」であり、文字列「A´」の頻度は、「高」である場合について例示している。しかしながら、頻度の表記は、「高」や「低」に限定されるものではなく、文字列ごとの頻度の順序を識別可能であれば問わない。   Further, the frequency shown in FIG. 3B indicates the frequency used for each character string. In the example illustrated in FIG. 3B, the frequency of the character string “A” and the character string “B” is “low”, and the frequency of the character string “A ′” is “high”. . However, the frequency notation is not limited to “high” or “low”, and may be any number as long as the order of frequencies for each character string can be identified.

なお、かかる頻度は、例えば、判定部14によって更新される。例えば、判定部14が、認識部13から入力されるテキストデータに基づいて、同じテキストデータが入力される度に、頻度を上げるように更新することができる。なお、かかる頻度に基づく処理については、図5A〜図5Cを用いて後述する。   The frequency is updated by the determination unit 14, for example. For example, the determination unit 14 can update the frequency based on the text data input from the recognition unit 13 so as to increase the frequency each time the same text data is input. In addition, the process based on this frequency is later mentioned using FIG. 5A-FIG. 5C.

図2に戻って判定部14について説明する。判定部14は、認識部13によって算出された信頼度に基づいて認識部13による認識結果の正誤をユーザに確認するか否かを判定する。   Returning to FIG. 2, the determination unit 14 will be described. The determination unit 14 determines whether or not to confirm with the user whether the recognition result by the recognition unit 13 is correct based on the reliability calculated by the recognition unit 13.

具体的には、判定部14は、認識部13から通知される信頼度が所定の閾値以下である場合に、認識結果の正誤をユーザに確認すると判定する。この場合に、判定部14は、テキストデータを確認部15に出力し、ユーザに確認するように指示する。   Specifically, the determination unit 14 determines to confirm the correctness of the recognition result with the user when the reliability notified from the recognition unit 13 is a predetermined threshold value or less. In this case, the determination unit 14 outputs the text data to the confirmation unit 15 and instructs the user to confirm.

判定部14は、かかる信頼度が所定の閾値より大きい場合に、認識結果の正誤をユーザに確認することなく確定させる。この場合に、判定部14は、テキストデータを車載装置50に出力する。   The determination unit 14 determines whether the recognition result is correct or not without confirming with the user when the reliability is higher than a predetermined threshold. In this case, the determination unit 14 outputs the text data to the in-vehicle device 50.

なお、所定の閾値は、例えば、信頼度の値が「4」であるが、動的に変更可能であるものとする。例えば、ハンズフリー通話などで電話帳を呼び出して通話を行う場合などに閾値を高く設定させることにしてもよい。換言すると、入力の重要度に応じて閾値を変更することにしてもよい。   Note that the predetermined threshold value is, for example, a reliability value of “4”, but can be changed dynamically. For example, the threshold value may be set high when calling by calling the telephone directory in a hands-free call or the like. In other words, the threshold value may be changed according to the importance of input.

確認部15は、判定部14によって認識部13による認識結果をユーザに確認すると判定された場合に、ユーザに認識結果を確認させる。具体的には、確認部15は、判定部14から認識結果の正誤の確認を指示された場合に、認識結果となるテキストデータをタッチパネルディスプレイ30の表示部32に出力し、表示する。   The confirmation unit 15 causes the user to confirm the recognition result when the determination unit 14 determines to confirm the recognition result by the recognition unit 13 with the user. Specifically, when the confirmation unit 15 is instructed to confirm whether the recognition result is correct or incorrect, the confirmation unit 15 outputs and displays text data that is the recognition result on the display unit 32 of the touch panel display 30.

これにより、ユーザは、テキストデータの正誤を確認することができる。なお、確認部15は、かかるテキストデータをスピーカ(不図示)からテキスト読み上げ機能を用いて音声として出力するなど、認識結果をユーザに提示する方法については問わない。   Thereby, the user can confirm the correctness of text data. In addition, the confirmation part 15 does not ask | require the method of presenting a recognition result to a user, such as outputting this text data from a speaker (not shown) as a sound using a text reading function.

そして、操作受付部11は、例えば、操作部31を介してユーザによるテキストデータの正誤の結果に応じた操作を受け付け、かかる結果に応じた操作信号を確認部15に出力する。   And the operation reception part 11 receives operation according to the result of the correctness of text data by a user via the operation part 31, for example, and outputs the operation signal according to this result to the confirmation part 15.

確認部15は、正誤結果として正しい旨の操作信号を取得した場合、かかる認識結果のテキストデータを車載装置50に出力する。また、確認部15は、かかる操作信号が誤りである旨の操作信号を取得した場合、予測候補リストや文字入力を行うキーボードなどの画面を表示部32に表示する。   When the confirmation unit 15 acquires an operation signal indicating that the result is correct as a correct / incorrect result, the confirmation unit 15 outputs text data of the recognition result to the in-vehicle device 50. Further, when acquiring the operation signal indicating that the operation signal is incorrect, the confirmation unit 15 displays a screen such as a prediction candidate list and a keyboard for inputting characters on the display unit 32.

ここで、予測候補リストとは、例えば、認識結果と同一のグループに属する文字列のリストである。これは、音声認識に誤りがあった場合、ユーザの発話は、同一のグループに属した他の文字列である可能性が高いためである。   Here, the prediction candidate list is, for example, a list of character strings belonging to the same group as the recognition result. This is because if there is an error in speech recognition, the user's utterance is likely to be another character string belonging to the same group.

つまり、確認部15は、認識結果に誤りがあった場合に、予測候補リストを表示部32に表示し、ユーザの予測候補リストから入力候補の選択操作を受け付ける。このようにすることで、ユーザは、修正を迅速に行うことができる。   That is, when there is an error in the recognition result, the confirmation unit 15 displays the prediction candidate list on the display unit 32 and accepts an input candidate selection operation from the user's prediction candidate list. By doing in this way, the user can correct quickly.

また、確認部15は、音声によってもユーザによる正誤の判定結果を取得することができる。具体的には、まず、確認部15は、テキストデータを表示部32に表示した以降に認識部13から入力されるテキストデータを取得する。   Moreover, the confirmation part 15 can acquire the correct / incorrect determination result by the user also by voice. Specifically, the confirmation unit 15 first acquires text data input from the recognition unit 13 after the text data is displayed on the display unit 32.

続いて、確認部15は、かかるテキストデータに、「ハイ」や「ソウダヨ」などの認識結果を肯定するキーワードが含まれる場合、正しい認識結果であるとする。一方、かかるテキストデータに、「チガウ」、「マチガッテイル」などの認識結果を否定するキーワードが含まれる場合に、誤った認識結果であるとする。   Subsequently, when the text data includes a keyword that affirms a recognition result such as “high” or “sodayo”, the confirmation unit 15 assumes that the recognition result is correct. On the other hand, if such text data includes a keyword that denies the recognition result, such as “Chigau” or “Machigatte”, it is assumed that the recognition result is incorrect.

なお、この場合に、確認部15は、認識部13の信頼度を算出する処理を一時的にいったん中断させて、上記したキーワードが入力された場合に、かかる処理を再開させるものとする。このようにすることで、かかるキーワード自体をユーザに確認させることを抑止することができる。   In this case, the confirmation unit 15 temporarily interrupts the process of calculating the reliability of the recognition unit 13 and resumes the process when the keyword described above is input. In this way, it is possible to prevent the user from confirming the keyword itself.

また、確認部15は、選択部12によって選択された予測辞書に基づいて音声認識の途中で予測候補リストを表示部32に表示することもできる。かかる点については図5A〜図5Cを用いて後述する。   The confirmation unit 15 can also display a prediction candidate list on the display unit 32 during speech recognition based on the prediction dictionary selected by the selection unit 12. This will be described later with reference to FIGS. 5A to 5C.

記憶部20は、予測辞書データベース21を備える。また、記憶部20は、例えばRAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置である。なお、予測辞書データベース21については、図3Aおよび図3Bを用いて既に説明したため、ここでの説明は省略する。   The storage unit 20 includes a prediction dictionary database 21. The storage unit 20 is a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. Note that the prediction dictionary database 21 has already been described with reference to FIGS. 3A and 3B, so description thereof is omitted here.

続いて、図4〜図6Bを用いて表示装置100の入力操作の具体例について説明する。なお、図4、図5A〜図5Cでは、認識部13の認識結果の正誤をユーザに確認する場合について説明し、図6Aおよび図6Bでは、かかる認識結果の正誤をユーザに確認しない場合について説明する。   Subsequently, a specific example of the input operation of the display device 100 will be described with reference to FIGS. 4 to 6B. 4 and 5A to 5C explain the case where the user confirms whether the recognition result of the recognition unit 13 is correct or not, and FIGS. 6A and 6B explain the case where the user does not confirm the correctness of the recognition result. To do.

まず、図4を用いて乗員認証に誤りがあった場合を例に、表示装置100の入力操作について説明する。図4は、乗員認証における入力操作を説明する図である。   First, the input operation of the display device 100 will be described with reference to FIG. FIG. 4 is a diagram illustrating an input operation in occupant authentication.

なお、乗員認証とは、車両の乗員を認証することで、乗員にあわせた音楽などの車内サービスを提供することを目的とするものである。また、乗員認証は、例えば、車両のACC電源が起動したタイミングで行われる。   The occupant authentication is intended to provide in-vehicle services such as music tailored to the occupant by authenticating the occupant of the vehicle. The occupant authentication is performed, for example, at the timing when the ACC power source of the vehicle is activated.

例えば、車載装置50は、かかるタイミングで車両に搭載されたカメラ(不図示)で車室内の乗員を撮像し、撮像画像から乗員ごとに顔認証機能を用いることで各乗員を認証する。   For example, the in-vehicle device 50 captures an occupant in the vehicle interior with a camera (not shown) mounted on the vehicle at such timing, and authenticates each occupant by using a face authentication function for each occupant from the captured image.

また、図4には、乗員認証による認識結果をタッチパネルディスプレイ30に表示し、ユーザに認識結果の正誤を確認している場面について図示している。   FIG. 4 shows a scene in which the recognition result by the occupant authentication is displayed on the touch panel display 30 and the user confirms whether the recognition result is correct or incorrect.

具体的には、図4に示すように、タッチパネルディスプレイ30には、認証した各乗員の名前と、顔とを含む乗員画像が表示される。また、かかる乗員画像は、例えば、乗員の座席に対応する位置に表示される。また、各乗員の座席の位置を明確にするため、運転席の上側には、運転席を示すハンドルが表示される。   Specifically, as shown in FIG. 4, an occupant image including the name of each authenticated occupant and a face is displayed on the touch panel display 30. The occupant image is displayed at a position corresponding to the occupant's seat, for example. In addition, in order to clarify the position of each occupant's seat, a handle indicating the driver's seat is displayed above the driver's seat.

例えば、ユーザが、認識結果としてBさんに誤りがあることに気づき、Bさんを修正しようとしてBさんの乗員画像が表示された領域R1を指で押下したとする。   For example, it is assumed that the user notices that Mr. B has an error as a recognition result, and presses the region R1 where the passenger image of Mr. B is displayed with his finger to correct Mr. B.

ここで、タッチパネルディスプレイ30の操作部31は、かかる領域R1を押下する操作に基づき、乗員認証を示す操作信号を入力装置1の操作受付部11に出力する。   Here, the operation unit 31 of the touch panel display 30 outputs an operation signal indicating occupant authentication to the operation reception unit 11 of the input device 1 based on an operation of pressing down the region R1.

続いて、操作受付部11は、かかる操作信号に基づく操作指示を選択部12に出力する。また、操作受付部11は、許可通知を認識部13に出力する。ここで、選択部12は、かかる操作指示に基づいて予測辞書1を選択し、選択した予測辞書1を認識部13に渡す(図3A参照)。   Subsequently, the operation reception unit 11 outputs an operation instruction based on the operation signal to the selection unit 12. In addition, the operation reception unit 11 outputs a permission notification to the recognition unit 13. Here, the selection unit 12 selects the prediction dictionary 1 based on the operation instruction, and passes the selected prediction dictionary 1 to the recognition unit 13 (see FIG. 3A).

認識部13は、例えば、操作受付部11から上記した許可通知を取得している場合、すなわち、ユーザが領域R1を押下している場合に、予測辞書1に基づく音声認識を行う。   For example, the recognition unit 13 performs voice recognition based on the prediction dictionary 1 when the above-described permission notification is acquired from the operation reception unit 11, that is, when the user presses the region R1.

ここで、認識部13は、許可通知を取得している状態で「ここは」、「この場所は」などのタッチ位置を特定する所定のキーワードを認識した場合に、予測辞書に基づく音声認識処理を開始することにしてもよい。   Here, when the recognition unit 13 recognizes a predetermined keyword that specifies a touch position such as “here” or “this place” in a state where the permission notification is acquired, the speech recognition process based on the prediction dictionary is performed. May be started.

これにより、タッチ位置と、かかるキーワードとの双方に基づいてユーザの音声認識と所望する意思とを確認することができる。したがって、ユーザが意図せずタッチパネルディスプレイ30を押下した場合などの音声入力による誤入力を抑止することができる。   Thereby, the user's voice recognition and the desired intention can be confirmed based on both the touch position and the keyword. Accordingly, it is possible to suppress erroneous input due to voice input such as when the user unintentionally presses the touch panel display 30.

また、認識部13は、予測辞書に基づく音声入力を開始すると、認識結果であるテキストデータ、すなわち、乗員名を判定部14に出力する。また、認識部13は、認識の信頼度を算出し、算出した信頼度を判定部14に出力する。   In addition, when the recognition unit 13 starts speech input based on the prediction dictionary, the recognition unit 13 outputs text data that is a recognition result, that is, the occupant name to the determination unit 14. In addition, the recognition unit 13 calculates the reliability of recognition, and outputs the calculated reliability to the determination unit 14.

判定部14は、上記したようにかかる信頼度を閾値以下と判定し、認識結果となる乗員名を確認部15に出力し、ユーザに乗員名を確認させるように指示する。   As described above, the determination unit 14 determines that the reliability is equal to or less than the threshold value, outputs the occupant name as a recognition result to the confirmation unit 15, and instructs the user to confirm the occupant name.

そして、確認部15では、かかる指示に基づき、乗員名を表示部32に表示することで、ユーザに乗員名の正誤を確認する。ここで、確認部15は、乗員名に乗員画像などの画像を併用してユーザに認識結果の正誤を確認することにしてもよい。   Then, the confirmation unit 15 displays the occupant name on the display unit 32 based on the instruction, thereby confirming the correctness of the occupant name to the user. Here, the confirmation unit 15 may confirm the correctness of the recognition result with the user by using an image such as an occupant image together with the occupant name.

例えば、予測辞書データベース21に乗員画像が記憶されている場合、確認部15は、乗員画像を表示部32に表示することにしてもよい。また、確認部15は、乗員名のテキストデータを車載装置50に出力し、車載装置50によりかかる乗員名の乗員画像を表示部32に表示することにしてもよい。   For example, when an occupant image is stored in the prediction dictionary database 21, the confirmation unit 15 may display the occupant image on the display unit 32. Further, the confirmation unit 15 may output the occupant name text data to the in-vehicle device 50 and cause the in-vehicle device 50 to display the occupant name occupant image on the display unit 32.

このように、乗員画像などの画像を併用して認識結果を表示することで、ユーザは文字のみから認識結果を確認する場合に比べて、より直感的に認識結果を把握することができる。   As described above, by displaying the recognition result together with an image such as an occupant image, the user can grasp the recognition result more intuitively than in the case of confirming the recognition result only from characters.

そして、確認部15は、操作受付部11から入力される操作信号や、認識部13から入力される肯定や否定を意味するテキストデータに基づいて認識結果の正誤を確認することとなる。   And the confirmation part 15 will confirm the correctness of a recognition result based on the operation signal input from the operation reception part 11, and the text data which means the affirmation and denial input from the recognition part 13. FIG.

続いて、図5A〜図5Cを用いて、目的地設定を行う場合の入力操作について説明する。図5A〜図5Cは、目的地設定における入力操作を示す図である。なお、図5Aには、タッチパネルディスプレイ30に目的地設定画面が表示されている場面を示している。また、以下の入力操作は、オーディオの楽曲検索の場合についても適用することができる。   Next, an input operation when performing destination setting will be described with reference to FIGS. 5A to 5C. 5A to 5C are diagrams illustrating an input operation in destination setting. FIG. 5A shows a scene where the destination setting screen is displayed on the touch panel display 30. The following input operation can also be applied to audio music search.

また、選択部12によって目的地設定に対応する予測辞書2を既に選択済みであるものとして説明する(図3A参照)。   Further, the description will be made assuming that the prediction dictionary 2 corresponding to the destination setting has already been selected by the selection unit 12 (see FIG. 3A).

例えば、ユーザがタッチパネルディスプレイ30の表示部32に表示された目的地設定画面のカーソルPを押下した状態、すなわち、操作受付部11が操作の受け付け継続中である状態で、「トウキョウ」と発声したとする。かかる場合に、操作受付部11は、許可通知を認識部13に出力する。   For example, the user utters “Tokyo” in a state where the cursor P on the destination setting screen displayed on the display unit 32 of the touch panel display 30 is pressed, that is, in a state where the operation receiving unit 11 is continuing to accept operations. And In such a case, the operation reception unit 11 outputs a permission notification to the recognition unit 13.

認識部13は、許可通知を取得すると、予測辞書2に基づいて音声を認識し、テキストデータとして「トウキョウ」を判定部14に出力する。また、認識部13は、信頼度を算出し、算出した信頼度を判定部14に出力する。   When the recognition unit 13 acquires the permission notification, the recognition unit 13 recognizes the voice based on the prediction dictionary 2 and outputs “Tokyo” to the determination unit 14 as text data. Further, the recognition unit 13 calculates the reliability and outputs the calculated reliability to the determination unit 14.

判定部14は、かかる信頼度を閾値以下として判定し、認識部13から入力された「トウキョウ」のテキストデータを確認部15に出力し、ユーザに確認するように指示する。   The determination unit 14 determines that the reliability is equal to or less than the threshold, outputs the text data “Tokyo” input from the recognition unit 13 to the confirmation unit 15, and instructs the user to confirm.

ここで、確認部15は、予測辞書に基づいて予測候補リストを表示部32に出力することもできる。具体的には、確認部15は、例えば、予測辞書データベース21の予測辞書2から「トウキョウ」から始まる文字列ごとの頻度を参照する。そして、例えば、確認部15は、表示部32に頻度の高い順に予測候補リストを表示する。   Here, the confirmation unit 15 can output the prediction candidate list to the display unit 32 based on the prediction dictionary. Specifically, the confirmation unit 15 refers to, for example, the frequency for each character string starting from “Tokyo” from the prediction dictionary 2 of the prediction dictionary database 21. For example, the confirmation unit 15 displays the prediction candidate list on the display unit 32 in descending order of frequency.

図5Bでは、表示部32に予測候補リストである候補地として、東京ディズニーランド、東京駅などが表示される場合について例示している。   In FIG. 5B, the case where Tokyo Disneyland, Tokyo station, etc. are displayed on the display part 32 as a candidate site which is a prediction candidate list is illustrated.

ここで、例えば、東京ディズニーランドが表示された領域Rp1をユーザが押下すると、操作受付部11は、操作部31を介して領域Rp1の選択操作を受け付け、かかる操作に対応する操作信号を確認部15に出力する。   Here, for example, when the user presses the area Rp1 in which Tokyo Disneyland is displayed, the operation accepting unit 11 accepts a selection operation of the area Rp1 via the operation unit 31, and confirms an operation signal corresponding to the operation. Output to.

確認部15は、かかる操作信号を取得すると、「東京ディズニーランド」のテキストデータを車載装置50に出力する。これにより、車載装置50では、目的地が「東京ディズニーランド」に設定される。   When acquiring the operation signal, the confirmation unit 15 outputs the text data “Tokyo Disneyland” to the in-vehicle device 50. Thereby, in the vehicle-mounted device 50, the destination is set to “Tokyo Disneyland”.

このように、頻度などの履歴に基づいて予測候補リストを表示し、ユーザに選択させることで、入力操作を迅速に行うことができる。   In this way, by displaying the prediction candidate list based on the history such as the frequency and allowing the user to select it, the input operation can be performed quickly.

また、例えば、ユーザが領域Rp1や、領域Rp2を選択せずに、続けて「ディズニーランド」と発話した場合に、認識部13は、「東京ディズニーランド」のテキストデータを判定部14を介して確認部15に出力する。   Further, for example, when the user continuously utters “Disneyland” without selecting the region Rp1 or the region Rp2, the recognition unit 13 sends the text data of “Tokyo Disneyland” via the determination unit 14 to the confirmation unit. 15 is output.

確認部15は、かかるテキストデータを表示部32に表示する。ここで、表示部32には、例えば、図5Cに示す確認画像が表示される。   The confirmation unit 15 displays the text data on the display unit 32. Here, for example, a confirmation image shown in FIG. 5C is displayed on the display unit 32.

例えば、「はい」が表示された領域R2をユーザがタッチ操作すると、確認部15は、「東京ディズニーランド」に対応するテキストデータを車載装置50に出力し、目的地が決定される。   For example, when the user performs a touch operation on the region R2 in which “Yes” is displayed, the confirmation unit 15 outputs text data corresponding to “Tokyo Disneyland” to the in-vehicle device 50, and the destination is determined.

また、「いいえ」が表示された領域R3をユーザがタッチ操作した場合、確認部15は、例えば、他の予測候補リストを表示部32に出力する。かかる場合に、確認部15は、例えば、頻度や現在地からの距離に基づいて予測候補リストを表示する。なお、かかる予測候補リストは、図5Bに示した候補地を除外して表示することが好ましい。   Further, when the user performs a touch operation on the region R <b> 3 in which “No” is displayed, the confirmation unit 15 outputs, for example, another prediction candidate list to the display unit 32. In such a case, the confirmation unit 15 displays the prediction candidate list based on the frequency and the distance from the current location, for example. The prediction candidate list is preferably displayed excluding the candidate sites shown in FIG. 5B.

また、「戻る」が表示された領域R4をユーザがタッチ操作すると、操作受付部11は、かかるタッチ操作に基づく操作信号を操作受付部11から取得して、確認部15に出力する。確認部15は、かかる操作信号を取得すると、例えば、表示部32を図5Aに示した目的地設定画面に戻す。これにより、ユーザは、目的地設定を初めからやり直すことが可能となる。   Further, when the user performs a touch operation on the region R <b> 4 in which “Return” is displayed, the operation reception unit 11 acquires an operation signal based on the touch operation from the operation reception unit 11 and outputs the operation signal to the confirmation unit 15. When the confirmation unit 15 acquires the operation signal, for example, the confirmation unit 15 returns the display unit 32 to the destination setting screen shown in FIG. 5A. Thereby, the user can redo the destination setting from the beginning.

また、「手入力」が表示された領域R5をユーザがタッチ操作した場合、例えば、確認部15は、タッチパネルディスプレイ30に手入力用のキーボードを表示する。これにより、ユーザは、かかるキーボードを用いて手入力による確実な入力操作が可能となる。   When the user performs a touch operation on the region R <b> 5 in which “manual input” is displayed, for example, the confirmation unit 15 displays a keyboard for manual input on the touch panel display 30. Thereby, the user can perform a reliable input operation by manual input using the keyboard.

なお、確認部15は、図5Cに示す画面の状態で、ユーザが、認識部13から領域R2〜R5に対応するテキストデータが入力されると、領域R2〜R5に対応した処理を実行することもできる。すなわち、ユーザは、領域R2〜領域R5に対応する内容を発話することで、領域R2〜R5に対応した各操作を行うこともできる。   5C, when the user inputs text data corresponding to the regions R2 to R5 from the recognition unit 13, the confirmation unit 15 executes processing corresponding to the regions R2 to R5. You can also. That is, the user can also perform each operation corresponding to area | region R2-R5 by speaking the content corresponding to area | region R2-area | region R5.

このように、音声入力によって目的地などを入力することができるため、ユーザは、長い文字列を容易に入力することができる。なお、例えば、目的地設定の予測辞書2を、施設、住所、地名ごとにさらに分割し、分割された予測辞書を選択可能にすることにしてもよい。   Thus, since the destination can be input by voice input, the user can easily input a long character string. Note that, for example, the destination setting prediction dictionary 2 may be further divided for each facility, address, and place name so that the divided prediction dictionary can be selected.

続いて、図6Aおよび図6Bを用いて画像の縮尺を変更する場合の入力操作について説明する。図6Aおよび図6Bは、画像の縮尺変更の場面を示す図である。   Next, an input operation when changing the scale of an image will be described with reference to FIGS. 6A and 6B. 6A and 6B are diagrams showing scenes of changing the scale of an image.

なお、図6Aおよび図6Bでは、周囲モニター画像の縮尺を変更する場合について説明するが、地図画像の縮尺を変更する場合や、その他、画像の縮尺を変更する場合にも適用することができる。   6A and 6B, the case where the scale of the surrounding monitor image is changed will be described. However, the present invention can also be applied to the case where the scale of the map image is changed or the scale of the image is changed.

また、選択部12によって周囲モニター画像の縮尺変更に対応する予測辞書3を既に選択済みであるものとする(図3A参照)。   In addition, it is assumed that the prediction dictionary 3 corresponding to the scale change of the surrounding monitor image has already been selected by the selection unit 12 (see FIG. 3A).

ここで、周囲モニター画像とは、車両の周囲に配置されたカメラによって撮像された撮像画像を合成し、例えば、車両の上方から見下ろすように車両の周囲の様子を示す画像である。   Here, the surrounding monitor image is an image that shows a state of the surroundings of the vehicle so as to look down from above the vehicle, for example, by combining the captured images captured by cameras arranged around the vehicle.

図6Aでは、周囲モニター画像に、自車両C1と、自車両C1の右側後方に、他車両C2とが存在する場面を図示している。また、ここでは、自車両C1が後進するものとする。   FIG. 6A illustrates a scene in which the host vehicle C1 and the other vehicle C2 exist on the right rear side of the host vehicle C1 in the surrounding monitor image. Here, it is assumed that the host vehicle C1 moves backward.

例えば、周囲モニター画像を拡大して表示したい場合に、タッチパネルディスプレイ30の拡大したい箇所へのタッチ操作を行いながら「拡大」と発話したものとする。   For example, when it is desired to enlarge and display a surrounding monitor image, it is assumed that “enlarge” is spoken while performing a touch operation on a portion of the touch panel display 30 to be enlarged.

認識部13は、操作受付部11から上記した許可通知を取得し、かかる許可通知を取得している状態でマイクMから入力される音声信号を「拡大」のテキストデータに変換する。また、認識部13は、信頼度を算出し、算出した信頼度を判定部14に出力する。   The recognizing unit 13 acquires the above-described permission notification from the operation receiving unit 11, and converts the voice signal input from the microphone M into “enlarged” text data in a state where the permission notification is acquired. Further, the recognition unit 13 calculates the reliability and outputs the calculated reliability to the determination unit 14.

上記したように、この場合に、判定部14は、認識結果をユーザに確認しないと判定し、テキストデータをユーザに確認することなく車載装置50に出力する。   As described above, in this case, the determination unit 14 determines not to confirm the recognition result with the user, and outputs the text data to the in-vehicle device 50 without confirming with the user.

車載装置50では、かかるテキストデータが入力されると、操作部31からユーザのタッチ位置を取得し、かかるタッチ位置を中心として、画像を所定倍率だけ拡大して、拡大した画像を表示部32に表示する。   In the in-vehicle device 50, when such text data is input, the touch position of the user is acquired from the operation unit 31, the image is enlarged by a predetermined magnification around the touch position, and the enlarged image is displayed on the display unit 32. indicate.

これにより、図6Bに示すように、ユーザがタッチ操作した位置の画像が拡大して表示されることとなる。なお、例えば、ユーザが、画像をタッチしながら「縮小」と発話した場合は、タッチ位置を中心として縮小された画像が表示されることとなる。   As a result, as shown in FIG. 6B, the image at the position touched by the user is enlarged and displayed. For example, when the user speaks “reduction” while touching the image, the reduced image is displayed with the touch position as the center.

このように、タッチ操作と、音声入力とを併用して画像の縮尺を変更するため、ユーザは、容易に画像の縮尺を変更することができる。また、かかる場合に、認識結果の正誤をユーザに確認しないため、画像の縮尺変更に要する全体的な時間を短縮することができる。   As described above, since the scale of the image is changed using both the touch operation and the voice input, the user can easily change the scale of the image. In this case, since the correctness of the recognition result is not confirmed with the user, the overall time required for changing the scale of the image can be shortened.

続いて、図7を用いて本実施形態に係る入力装置1が実行する入力手順について説明する。図7は、本実施形態に係る入力装置1が実行する処理手順を示すフローチャートである。なお、以下に示す処理は、入力装置1の制御部10によって繰り返し実行される。   Next, an input procedure executed by the input device 1 according to this embodiment will be described with reference to FIG. FIG. 7 is a flowchart illustrating a processing procedure executed by the input apparatus 1 according to the present embodiment. In addition, the process shown below is repeatedly performed by the control part 10 of the input device 1. FIG.

図7に示すように、まず、操作受付部11は、ユーザの操作を受け付ける(ステップS101)。続いて、選択部12は、かかる操作に基づいて予測辞書を選択する(ステップS102)。   As shown in FIG. 7, first, the operation reception unit 11 receives a user operation (step S101). Subsequently, the selection unit 12 selects a prediction dictionary based on the operation (step S102).

続いて、認識部13は、予測辞書に基づいて音声を認識する(ステップS103)。また、認識部13は、選択部12が選択した予測辞書に基づいて認識の信頼度を算出する(ステップS104)。   Subsequently, the recognition unit 13 recognizes speech based on the prediction dictionary (step S103). The recognizing unit 13 calculates the reliability of recognition based on the prediction dictionary selected by the selecting unit 12 (step S104).

続いて、判定部14は、認識部13によって算出された信頼度が閾値を超えるか否かを判定する(ステップS105)。かかる判定において、信頼度が閾値より大きい場合(ステップS105,Yes)、判定部14は、認識結果をユーザに確認せず、認識結果を車載装置50に出力し(ステップS110)、処理を終了する。   Subsequently, the determination unit 14 determines whether or not the reliability calculated by the recognition unit 13 exceeds a threshold value (step S105). In this determination, when the reliability is larger than the threshold (step S105, Yes), the determination unit 14 does not confirm the recognition result to the user, outputs the recognition result to the in-vehicle device 50 (step S110), and ends the process. .

また、ステップS105の判定において、予測辞書の信頼度が閾値以下である場合(ステップS105,No)、確認部15は、認識結果を表示部32に出力し、ユーザに確認させる(ステップS106)。   If the reliability of the prediction dictionary is equal to or lower than the threshold value in the determination in step S105 (No in step S105), the confirmation unit 15 outputs the recognition result to the display unit 32 and causes the user to confirm (step S106).

続いて、確認部15は、ユーザは認識結果を正しいと判断したか否かを判定する(ステップS107)。ステップS107の判定において、ユーザが認識結果を正しいと判断した場合(ステップS107,Yes)、確認部15は、認識結果を車載装置50に出力して(ステップS110)、処理を終了する。   Subsequently, the confirmation unit 15 determines whether or not the user has determined that the recognition result is correct (step S107). If it is determined in step S107 that the user determines that the recognition result is correct (step S107, Yes), the confirmation unit 15 outputs the recognition result to the in-vehicle device 50 (step S110) and ends the process.

また、ステップS107の判定においてユーザが認識結果を誤りと判断した場合(ステップS107,No)、確認部15は、表示部32に予測候補リストを表示する(ステップS108)。なお、ステップS108において、確認部15は、入力用のキーボードを表示部32に表示することにしてもよい。   When the user determines that the recognition result is incorrect in the determination in step S107 (No in step S107), the confirmation unit 15 displays the prediction candidate list on the display unit 32 (step S108). In step S <b> 108, the confirmation unit 15 may display an input keyboard on the display unit 32.

続いて、確認部15は、選択操作を受け付けて(ステップS109)、選択された認識結果を車載装置50に出力して(ステップS110)、処理を終了する。   Subsequently, the confirmation unit 15 receives a selection operation (step S109), outputs the selected recognition result to the in-vehicle device 50 (step S110), and ends the process.

上述してきたように、本実施形態に係る入力装置1は、操作受付部11と、選択部12と、認識部13と、判定部14と、確認部15とを備える。操作受付部11は、ユーザの操作を受け付ける。選択部12は、複数の予測辞書の中から操作受付部11が受け付けた操作に対応する予測辞書を選択する。認識部13は、選択部12によって選択された予測辞書に基づいてユーザの音声の認識および当該認識の信頼度の算出を行う。判定部14は、認識部13によって算出された信頼度に基づき、認識部13による認識結果の正誤をユーザに確認するか否かを判定する。確認部15は判定部14によって認識結果の正誤を確認すると判定された場合に、ユーザに認識結果を確認させる。したがって、迅速かつ正確に入力操作を行うことができる。   As described above, the input device 1 according to the present embodiment includes the operation reception unit 11, the selection unit 12, the recognition unit 13, the determination unit 14, and the confirmation unit 15. The operation reception unit 11 receives a user operation. The selection unit 12 selects a prediction dictionary corresponding to the operation received by the operation reception unit 11 from a plurality of prediction dictionaries. The recognition unit 13 recognizes the user's voice based on the prediction dictionary selected by the selection unit 12 and calculates the reliability of the recognition. Based on the reliability calculated by the recognition unit 13, the determination unit 14 determines whether to confirm with the user whether the recognition result by the recognition unit 13 is correct or incorrect. The confirmation unit 15 causes the user to confirm the recognition result when the determination unit 14 determines to confirm the correctness of the recognition result. Therefore, an input operation can be performed quickly and accurately.

なお、上述した実施形態では、判定部14が認識部13によって算出された信頼度に応じて確認の要否を判定する場合について説明したが、これに限られない。すなわち、認識部13は、認識結果を全て確認部15に出力し、確認部15は、認識結果を全て確認することにしてもよい。   In addition, although embodiment mentioned above demonstrated the case where the determination part 14 determined the necessity of a confirmation according to the reliability calculated by the recognition part 13, it is not restricted to this. That is, the recognition unit 13 may output all the recognition results to the confirmation unit 15, and the confirmation unit 15 may confirm all the recognition results.

1 入力装置
10 制御部
11 操作受付部
12 選択部
13 認識部
14 判定部
15 確認部
21 予測辞書データベース
50 車載装置
100 表示装置
DESCRIPTION OF SYMBOLS 1 Input device 10 Control part 11 Operation reception part 12 Selection part 13 Recognition part 14 Judgment part 15 Confirmation part 21 Predictive dictionary database 50 In-vehicle apparatus 100 Display apparatus

Claims (9)

ユーザの操作を受け付ける操作受付部と、
複数の予測辞書の中から前記操作受付部が受け付けた前記操作に対応する前記予測辞書を選択する選択部と、
前記選択部によって選択された前記予測辞書に基づいて前記ユーザの音声の認識および当該認識の信頼度の算出を行う認識部と、
前記認識部によって算出された前記信頼度に基づき、前記認識部による認識結果の正誤を前記ユーザに確認するか否かを判定する判定部と、
前記判定部によって前記認識結果の正誤を確認すると判定された場合に、前記ユーザに前記認識結果を確認させる確認部と
を備えることを特徴とする入力装置。
An operation reception unit for receiving user operations;
A selection unit that selects the prediction dictionary corresponding to the operation received by the operation reception unit from a plurality of prediction dictionaries;
A recognition unit for recognizing the user's voice and calculating the reliability of the recognition based on the prediction dictionary selected by the selection unit;
Based on the reliability calculated by the recognition unit, a determination unit that determines whether to confirm the correctness of the recognition result by the recognition unit with the user;
An input device comprising: a confirmation unit that allows the user to confirm the recognition result when the determination unit determines to confirm the correctness of the recognition result.
前記認識部は、
前記操作受付部が前記操作の受け付けの継続中である場合に前記音声を認識し、前記継続中以外である場合に前記音声を認識しないこと
を特徴とする請求項1に記載の入力装置。
The recognition unit
The input device according to claim 1, wherein the operation receiving unit recognizes the voice when the operation is being accepted and does not recognize the voice when the operation is not being continued.
前記操作受付部は、
操作面における所定領域へのタッチ操作を受け付け、前記所定領域以外の前記タッチ操作を受け付けず、
前記認識部は、
前記操作受付部が前記タッチ操作を受け付けた場合に、前記音声を認識すること
を特徴とする請求項1または2に記載の入力装置。
The operation reception unit
Accept a touch operation on a predetermined area on the operation surface, do not accept the touch operation other than the predetermined area,
The recognition unit
The input device according to claim 1, wherein the voice is recognized when the operation reception unit receives the touch operation.
前記判定部は、
前記認識部の前記認識結果が前記選択された前記予測辞書に含まれない場合に、前記ユーザに正誤を確認すると判定すること
を特徴とする請求項1、2または3に記載の入力装置。
The determination unit
4. The input device according to claim 1, wherein when the recognition result of the recognition unit is not included in the selected prediction dictionary, it is determined that the user confirms correctness.
前記確認部は、
前記判定部が前記認識結果の正誤を前記ユーザに確認すると判定した場合に、前記予測辞書に基づいて入力候補リストを表示装置へ出力し、
前記操作受付部は、
前記入力候補リストの中から入力候補の選択操作を受け付けること
を特徴とする請求項1〜4のいずれか一つに記載の入力装置。
The confirmation unit
When the determination unit determines to confirm the correctness of the recognition result with the user, the input candidate list is output to the display device based on the prediction dictionary,
The operation reception unit
The input device according to any one of claims 1 to 4, wherein an input candidate selection operation is received from the input candidate list.
前記判定部は、
前記選択部によって画像の縮尺変更に関する前記予測辞書が選択された場合に、前記ユーザに正誤を確認しないと判定すること
を特徴とする請求項1〜5のいずれか一つに記載の入力装置。
The determination unit
The input device according to any one of claims 1 to 5, wherein when the prediction dictionary related to image scale change is selected by the selection unit, it is determined that the user does not confirm correctness.
請求項1〜6のいずれか一つに記載の入力装置と、
前記入力装置による出力結果に基づいて画像を表示する表示部と
を備えることを特徴とする表示装置。
An input device according to any one of claims 1 to 6;
And a display unit that displays an image based on an output result of the input device.
ユーザの操作を受け付ける操作受付工程と、
複数の予測辞書の中から前記操作受付工程において受け付けた前記操作に対応する前記予測辞書を選択する選択工程と、
前記選択工程において選択された前記予測辞書に基づいて前記ユーザの音声の認識および当該認識の信頼度の算出を行う認識工程と、
前記認識工程において算出された前記信頼度に基づき、前記認識工程による認識結果の正誤を前記ユーザに確認するか否かを判定する判定工程と、
前記判定工程において前記認識結果の正誤を確認すると判定された場合に、前記ユーザに前記認識結果を確認させる確認工程と
を含むことを特徴とする入力装置の制御方法。
An operation reception process for receiving a user operation;
A selection step of selecting the prediction dictionary corresponding to the operation received in the operation reception step from a plurality of prediction dictionaries;
A recognition step of recognizing the user's voice based on the prediction dictionary selected in the selection step and calculating a reliability of the recognition;
A determination step of determining whether to confirm to the user whether the recognition result is correct or incorrect based on the reliability calculated in the recognition step;
And a confirmation step for allowing the user to confirm the recognition result when it is determined in the determination step to confirm whether the recognition result is correct or incorrect.
ユーザの操作を受け付ける操作受付手順と、
複数の予測辞書の中から前記操作受付手順において受け付けた前記操作に対応する前記予測辞書を選択する選択手順と、
前記選択手順において選択された前記予測辞書に基づいて前記ユーザの音声の認識および当該認識の信頼度の算出を行う認識手順と、
前記認識手順において算出された前記信頼度に基づき、前記認識手順による認識結果の正誤を前記ユーザに確認するか否かを判定する判定手順と、
前記判定手順において前記認識結果の正誤を確認すると判定された場合に、前記ユーザに前記認識結果を確認させる確認手順と
をコンピュータに実行させることを特徴とする入力プログラム。
An operation acceptance procedure for accepting user operations;
A selection procedure for selecting the prediction dictionary corresponding to the operation received in the operation reception procedure from a plurality of prediction dictionaries;
A recognition procedure for recognizing the user's voice and calculating the reliability of the recognition based on the prediction dictionary selected in the selection procedure;
Based on the reliability calculated in the recognition procedure, a determination procedure for determining whether to confirm the correctness of the recognition result by the recognition procedure with the user;
An input program for causing a computer to execute a confirmation procedure for allowing the user to confirm the recognition result when it is determined in the determination procedure to confirm the correctness of the recognition result.
JP2016159340A 2016-08-15 2016-08-15 Input device, input device control method, display device and input program Pending JP2018028733A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016159340A JP2018028733A (en) 2016-08-15 2016-08-15 Input device, input device control method, display device and input program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016159340A JP2018028733A (en) 2016-08-15 2016-08-15 Input device, input device control method, display device and input program

Publications (1)

Publication Number Publication Date
JP2018028733A true JP2018028733A (en) 2018-02-22

Family

ID=61249037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016159340A Pending JP2018028733A (en) 2016-08-15 2016-08-15 Input device, input device control method, display device and input program

Country Status (1)

Country Link
JP (1) JP2018028733A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026511A1 (en) * 2018-07-30 2020-02-06 株式会社日立製作所 Voice operation support system and voice operation support method
WO2020067532A1 (en) * 2018-09-28 2020-04-02 株式会社ブロードリーフ Vehicle maintenance support device, vehicle maintenance support method and vehicle maintenance support program
JP2020134745A (en) * 2019-02-21 2020-08-31 富士ゼロックス株式会社 Information processing device and program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026511A1 (en) * 2018-07-30 2020-02-06 株式会社日立製作所 Voice operation support system and voice operation support method
JPWO2020026511A1 (en) * 2018-07-30 2021-06-03 株式会社日立製作所 Voice operation support system and voice operation support method
WO2020067532A1 (en) * 2018-09-28 2020-04-02 株式会社ブロードリーフ Vehicle maintenance support device, vehicle maintenance support method and vehicle maintenance support program
JP2020052952A (en) * 2018-09-28 2020-04-02 株式会社ブロードリーフ Vehicle maintenance support device, vehicle maintenance support method, and vehicle maintenance support program
JP7283880B2 (en) 2018-09-28 2023-05-30 株式会社ブロードリーフ Vehicle maintenance support device, vehicle maintenance support method, and vehicle maintenance support program
JP2020134745A (en) * 2019-02-21 2020-08-31 富士ゼロックス株式会社 Information processing device and program
JP7334420B2 (en) 2019-02-21 2023-08-29 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Similar Documents

Publication Publication Date Title
CN106796786B (en) Speech recognition system
US10147420B2 (en) Terminal, unlocking method, and program
US7702130B2 (en) User interface apparatus using hand gesture recognition and method thereof
US9188456B2 (en) System and method of fixing mistakes by going back in an electronic device
US20190304466A1 (en) Voice control method, voice control device and computer readable storage medium
KR101295711B1 (en) Mobile communication terminal device and method for executing application with voice recognition
US20140168130A1 (en) User interface device and information processing method
US20120044183A1 (en) Multimodal aggregating unit
US20170255771A1 (en) Information processing apparatus, information processing method and program
JP5637131B2 (en) Voice recognition device
JP2003345487A (en) Operation assistance method, operation assistance device, program and medium storing program
JP2015153325A (en) information processing apparatus, operation support method and operation support program
JP2018028733A (en) Input device, input device control method, display device and input program
JP2016133378A (en) Car navigation device
JP5217838B2 (en) In-vehicle device operating device and in-vehicle device operating method
US9128517B2 (en) Vehicular terminal with input switching
US8428314B2 (en) Fingerprint-initiated navigating method, method for linking a fingerprint and a navigation destination, and navigating device
JP6214779B2 (en) In-vehicle device control system
CN111583929A (en) Control method and device using offline voice and readable equipment
JP3945187B2 (en) Dialog management device
US11217238B2 (en) Information processing device and information processing method
JPWO2020026402A1 (en) How to link with in-vehicle information devices and mobile terminals
JP5446540B2 (en) Information retrieval apparatus, control method, and program
WO2017206133A1 (en) Speech recognition method and device
WO2022215104A1 (en) Voice interaction device and voice interaction method