JP2014149457A - Voice recognition device, electronic apparatus, and control program of voice recognition device - Google Patents
Voice recognition device, electronic apparatus, and control program of voice recognition device Download PDFInfo
- Publication number
- JP2014149457A JP2014149457A JP2013018898A JP2013018898A JP2014149457A JP 2014149457 A JP2014149457 A JP 2014149457A JP 2013018898 A JP2013018898 A JP 2013018898A JP 2013018898 A JP2013018898 A JP 2013018898A JP 2014149457 A JP2014149457 A JP 2014149457A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- candidate
- word
- voice
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001771 impaired effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
Abstract
Description
本発明は、音声に含まれる語句を認識する音声認識装置および該音声認識装置を備えた電子機器に関する。 The present invention relates to a speech recognition device for recognizing a phrase included in speech and an electronic apparatus including the speech recognition device.
音声に含まれる語句を認識する、音声認識の方法は種々知られている。また、音声認識処理において、当該音声認識の精度の向上のために、様々な技術が開示されている。 Various speech recognition methods for recognizing words contained in speech are known. In the speech recognition process, various techniques are disclosed for improving the accuracy of the speech recognition.
例えば、特許文献1には、音声認識用の記憶装置を階層構造とし利用者の習熟度向上につれ長文節の入力を可能とするように適時的に上位の階層を設定し、利用頻度の少ない語彙を新しい語彙と入れ替えることで音声認識の精度を向上させる技術が開示されている。また、特許文献2には、音声認識の候補となる語句をユーザに提示し、認識結果の絞り込みや修正を行わせることにより音声認識の精度を向上させる技術が開示されている。また、特許文献3および4には、音声から認識候補となる語句の含まれるカテゴリを特定し、当該カテゴリをユーザに提示することにより、ユーザに語句の絞り込みを行わせることにより音声認識精度を向上させる技術が開示されている。 For example, in Patent Document 1, a vocabulary with a low frequency of use is set up in a timely manner so that a storage device for speech recognition has a hierarchical structure and a higher phrase is input timely so that a long phrase can be input as the user's proficiency level increases. A technique for improving the accuracy of speech recognition by replacing with a new vocabulary is disclosed. Patent Document 2 discloses a technique for improving the accuracy of speech recognition by presenting words and phrases that are candidates for speech recognition to the user and narrowing down or correcting the recognition results. Further, Patent Documents 3 and 4 improve the speech recognition accuracy by specifying a category including a phrase that is a recognition candidate from speech and presenting the category to the user, thereby allowing the user to narrow down the phrase. Techniques for making them disclosed are disclosed.
しかしながら、上述のような従来技術においては、音声認識精度を向上させることができるものの、ユーザの操作性を損なう場合があった。例えば、特許文献1に開示の技術では、音声認識に用いる語彙は、利用者の習熟度により決定される。このため、上記技術を用いた機器を複数の利用者が共用している場合、上記語彙が利用者それぞれの習熟度にそぐわないものとなる可能性がある。このような場合、語彙の誤認識およびそれに伴う機器の誤動作が増加し、結果的にユーザの操作性が損なわれてしまう場合があった。また、特許文献2〜4に開示の技術では、最終的な音声認識の結果を得るまでに、ユーザが最初の発話以降も所定の操作を行う必要があるため、ユーザの操作が煩雑になり、操作性を損なっている。 However, in the conventional techniques as described above, although the voice recognition accuracy can be improved, the operability of the user may be impaired. For example, in the technique disclosed in Patent Document 1, the vocabulary used for speech recognition is determined by the proficiency level of the user. For this reason, when a plurality of users share a device using the above technique, the vocabulary may not match the proficiency level of each user. In such a case, erroneous recognition of the vocabulary and associated malfunctions of the device increase, and as a result, the operability of the user may be impaired. In addition, in the technologies disclosed in Patent Documents 2 to 4, since the user needs to perform a predetermined operation after the first utterance before obtaining the final speech recognition result, the user's operation becomes complicated, The operability is impaired.
本発明は上記の問題点に鑑みなされたものであり、その目的は、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができる音声認識装置、および音声認識装置の制御プログラムを実現することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a speech recognition apparatus and a speech recognition apparatus control program capable of improving recognition accuracy in speech recognition without impairing user operability. It is to be realized.
上記の課題を解決するために、本発明の一態様に係る音声認識装置は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、上記ユーザの発話を音声データとして取得する音声データ取得手段と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、を備えていることを特徴としている。 In order to solve the above problems, a speech recognition apparatus according to an aspect of the present invention is a speech recognition apparatus that detects a user's utterance as speech and recognizes a phrase included in the speech. Device status acquisition means for acquiring information indicating the state of the target electronic device, and candidate phrases that are associated with the information indicating the state of the electronic device acquired by the device status acquisition means and that are the target of the speech recognition Candidate phrase determining means for determining the speech, voice data acquiring means for acquiring the user's utterance as voice data, and at least one phrase for specifying the utterance content from the voice data acquired by the voice data acquiring means as a specific phrase The specific word detected by the specific word detection means and the specific word detected by the specific word detection means Identify be any phrase, it is characterized by comprising a recognition word determining means for determining the identified phrase as a recognized word.
本発明の一態様によれば、音声認識装置が、電子機器の現在の状態に応じて、音声認識の対象となる候補語句を決定することで、音声認識に使用する候補語句の絞り込みが自動的に行われることになるため、候補語句の絞り込み、すなわち音声認識精度を向上させるための操作をユーザが行う必要がなくなる。したがって、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができるという効果を奏する。 According to one aspect of the present invention, the speech recognition apparatus determines candidate words / phrases to be subjected to speech recognition in accordance with the current state of the electronic device, thereby automatically narrowing down candidate words / phrases to be used for speech recognition. Therefore, it is not necessary for the user to narrow down candidate words, that is, to improve the speech recognition accuracy. Therefore, it is possible to improve the recognition accuracy in voice recognition without impairing the user operability.
≪実施形態1≫
本発明の第1の実施形態について説明すれば、以下の通りである。なお、本実施形態では、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。以下では、本実施形態について、図1〜4を用いて詳細に説明する。
Embodiment 1
The first embodiment of the present invention will be described as follows. In the present embodiment, an example in which the voice recognition apparatus of the present invention is mounted on a digital camera which is a kind of electronic apparatus will be described. Below, this embodiment is described in detail using FIGS.
〔要部構成〕
まず初めに、デジタルカメラ100の要部構成を図1に基づいて説明する。図1は、デジタルカメラ100の要部構成を示すブロック図である。なお、本実施形態を説明するうえで、直接関係のない部分(例えば、外部機器との接続部分や写真撮影を行う部分など)についての説明は省略する。デジタルカメラ100(電子機器)は、図示の通り、音声認識装置としての認識制御部10と、センサ部20(センサ部、機器状態特定手段)と、機器状態特定部21と、音声検出部30(音声検出手段)と、語句テーブル40と、機器制御部50とを備えている。
[Main part configuration]
First, the main configuration of the
センサ部20は、現在のデジタルカメラ100の状態が変化したことを検知するものである。ここで、デジタルカメラ100の状態の変化とは、デジタルカメラ100が任意の制御指示を受け付けた状態を示す。例えば、デジタルカメラ100に対して、撮影モードや表示モード、各種パラメータの設定などが指示された状態を示す。センサ部20は、デジタルカメラ100に対し制御指示が送信されことを検知し、検知信号を後述の機器状態特定部21へと送信する。なお、センサ部20は、デジタルカメラ100の状態の変化を検出できれば、どのような検知方法を用いてもよい。例えば、センサ部20は、デジタルカメラ100の撮影モードの設定のための設定信号を受信することにより、状態の変化を検知してもよい。この場合、撮影モードの変更に伴い、設定信号も変化するため、設定信号を上記検知信号として機器状態特定部21へと送信すればよい。
The
機器状態特定部21は、上記検知信号からデジタルカメラ100の状態を特定するものである。ここで、デジタルカメラ100の状態とは、デジタルカメラ100が、上記制御指示を受け付けた際の、デジタルカメラ100の状態である。したがって、デジタルカメラ100の状態とは、例えば撮影モード、表示モード、各種パラメータが設定されている状態、すなわち制御状態を示す。機器状態特定部21はデジタルカメラ100の状態を特定すると、特定した状態を示す情報を認識制御部10内の機器状態取得部11へと送信する。なお、機器状態特定部21は、デジタルカメラ100の現在の状態を特定することができれば、どのような特定方法を用いてもよい。例えば、上記センサ部20から上記設定信号を受信した場合は、該設定信号により設定される撮影モードを、デジタルカメラ100の現在の状態であると特定すればよい。
The device
音声検出部30は、デジタルカメラ100のユーザの発話を音声データとして検出するものである。音声検出部30の構成および形態は特に限定しない。音声検出部30にて検出された音声データは、後述の認識制御部10の音声取得部13へと送信される。また、上述のセンサ部20、機器状態特定部21、および音声検出部30は、デジタルカメラ100に内蔵されてもよいし、デジタルカメラ100の外部機器として接続されてもよい。
The
語句テーブル40は、特定語句と照合するための語句を示す情報である。語句テーブル40には、語句に対し、当該語句を候補語句とするか否かの情報と、デジタルカメラ100の制御命令を示す情報とが対応づけられ記憶されている。ここで、「候補語句」とは、後述する認識語句決定部15において、特定語句と照合する対象となる(音声認識において、ユーザの発話に含まれる語句を検出する候補になる)語句を示す。語句テーブル40の詳細なデータ構造については後で詳述する。語句テーブル40は、候補語句決定部12により書き換えられ、認識語句決定部15および制御信号出力部16により参照される。
The phrase table 40 is information indicating a phrase for matching with a specific phrase. In the word / phrase table 40, information indicating whether or not the word / phrase is a candidate word / phrase and information indicating a control command of the
認識制御部10は、デジタルカメラ100の音声認識を統括的に制御するものである。認識制御部10は例えば、CPU(central processing unit)などで実現される。認識制御部10は、さらに詳しくは、機器状態取得部11(機器状態取得手段)、候補語句決定部12(候補語句決定手段)、音声取得部13(音声データ取得手段)、特定語句検出部14(特定語句検出手段)、認識語句決定部15(認識語句決定手段)、および制御信号出力部16を含む。
The
機器状態取得部11は、機器状態特定部21からデジタルカメラ100の状態を示す情報を取得し、取得した情報を後述の候補語句決定部12へと送信するものである。
The device
候補語句決定部12は、機器状態取得部11から受信した、機器の状態を示す情報に対応付けられた語句を、上記音声認識の対象となる候補語句として決定するものである。具体的には、候補語句決定部12は、後述する語句テーブル40に記憶されているどの語句を候補語句とするかを決定するものである。候補語句決定部12の行う候補語句の決定方法については、後で詳述する。
The candidate
音声取得部13は、音声検出部30から音声データを取得し、取得した音声データを特定語句検出部14へと送信するものである。
The
特定語句検出部14は、音声取得部13から送信された音声データに含まれる語句の中から特定の語句(以下、「特定語句」と称する)を検出するものである。ここで、「特定語句」は、デジタルカメラ100を制御するために、当該デジタルカメラ100に対するユーザの音声指示内容を示す語句をいう。特定語句検出部14は、より具体的には、音声データをテキストデータに変換し、予め登録されているデータベース(図示せず)から、当該音声データに含まれる特定語句をテキストデータとして検出する。検出された特定語句は、認識語句決定部15へと送信される。
The specific
なお、特定語句は、後述の認識語句決定部15にて語句テーブル40の語句のうち候補語句として決定された語句と、該特定語句とを照合できる形式で検出されればよく、特定語句の検出形式は特に限定されない。例えば、特定語句は音声データであってもよい。
The specific phrase may be detected in a format that can match the specific phrase with the phrase determined as a candidate phrase among the phrases in the phrase table 40 by the recognition
認識語句決定部15は、特定語句と各候補語句とを照合し、照合の結果特定語句と合致した候補語句を、特定語句が示す語句であると決定するものである。以降、特定語句と各候補語句との照合の結果、特定語句と合致すると判定された候補語句を単に「認識語句」と記述する。認識語句決定部15は、より具体的には、特定語句の文字列と語句テーブル40に格納されている候補語句の文字列とを照合する。照合の結果、両者の文字列が全てまたは一定以上の割合で一致する場合に、上記候補語句が認識語句であると判定する。
The recognition word /
制御信号出力部16は、認識語句決定部15にて決定した認識語句に対応づけられた制御命令を上記語句テーブル40から読み出し、デジタルカメラ100の各種機能を制御する制御コマンドを作成し、作成した制御コマンドを制御信号として機器制御部50へ出力するものである。ここで、「制御コマンド」とは、デジタルカメラ100の各種機能を制御するためのコマンドである。
The control
機器制御部50は、デジタルカメラ100の各種機能を制御するものである。機器制御部50の制御する機能は特に限定されないが、具体例としては、写真撮影やタイマーなどデジタルカメラ100がカメラとして持つ基本的な機能、撮影モードの設定などの各種設定機能、ならびにメニュー画面などの表示および操作機能などが挙げられる。
The
〔語句テーブルのデータ構成〕
次に、図2に基づき語句テーブル40の詳細なデータ構造について説明する。図2は、認識制御部10が音声認識のために利用する語句テーブル40のデータ構造の一例を示す図である。具体的には、図2ではデジタルカメラ100の撮影モード(状態)が「屋外」の場合の語句テーブル40のデータの例を示している。なお、図2において、語句テーブル40をテーブル形式のデータ構造にて示したことは一例であって、語句テーブル40のデータ構造をテーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。図示の通り、語句テーブル40は、「語句」列と、「候補」列と、「制御命令」列とを持つ。語句テーブル40は、「語句」列に、「候補」列および「制御命令」列が対応づけられた構成である。したがって、「語句」列の情報が決まれば、「候補」列および「制御命令」列の情報が一意に決まる。
[Data structure of phrase table]
Next, the detailed data structure of the phrase table 40 will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of a data structure of the phrase table 40 used by the
「語句」列は、認識制御部10が音声認識に用いる語句を格納する。
The “word / phrase” column stores words / phrases used by the
「候補」列は、各行において「語句」列に格納された語句を、音声認識において候補語句とするか否かの情報を格納している。「候補」列の情報は、機器状態取得部11の取得する機器の状態に応じて、候補語句決定部12によって書き換えられる。図2においては、「候補」列が「○」である行の「語句」列に格納された語句は、特定語句との照合の対象となる。すなわち、「候補」列が「○」である行の語句は候補語句である。一方、「候補」列が空欄である行の「語句」列に格納された語句は上記照合の対象とならない。
The “candidate” column stores information as to whether or not the word / phrase stored in the “word / phrase” column in each row is a candidate word / phrase in speech recognition. The information in the “candidate” column is rewritten by the candidate
「制御命令」列は、語句テーブル40の各行において、「語句」列に格納された語句が特定語句と合致する、すなわち、認識語句であると判定された場合に、デジタルカメラ100にて実行する制御命令を示す情報を格納する。ここで、「制御命令」とは、制御信号出力部16が制御コマンドを作成するために必要な情報を示している。「制御命令」列の情報は、制御信号出力部16により読み出される。
The “control command” column is executed by the
なお、各列に格納する情報の形式は特に限定されない。また、「候補」列の情報は、ユーザが自由に変更可能であってもよい。また、語句テーブル40は、デジタルカメラ100においてあらかじめ定められたものであってもよいが、ユーザによって書き換え可能なように記憶されていてもよい。例えば、ユーザが語句テーブル40に対し、新規に語句を追加できるようにしてもよいし、該語句に対応づけられた制御命令や「候補」列の情報を変更できるようにしてもよい。さらに、語句テーブル40は、制御命令を必ずしも記憶している必要はない。しかしながら、語句テーブル40または他のテーブルに制御命令の情報を格納し、上記語句と対応づけた場合、音声認識の際に、認識された語句に対応してデジタルカメラ100の制御を行うことが可能となるというメリットがある。
The format of information stored in each column is not particularly limited. The information in the “candidate” column may be freely changeable by the user. The phrase table 40 may be predetermined in the
〔候補語句決定部による候補語句の決定〕
次に、候補語句決定部12が行う候補語句の決定について、上述の図2を参照して詳述する。候補語句決定部12は、より具体的には、機器状態取得部11から受信した機器の状態を示す情報に基づいて、語句テーブル40中の当該語句の「候補」列の値を切替えるものである。
[Determination of candidate phrases by the candidate phrase determination unit]
Next, determination of candidate words and phrases performed by the candidate word and
デジタルカメラ100の撮影モードが「屋外」の場合、ユーザがホワイトバランスの設定を屋内用の設定に変更するような語句を発話することは非常に少ないと予測される。このように、デジタルカメラ100の各状態において、ユーザが発話しないと予測される語句については、語句テーブル40の「候補」列を空欄とし、当該状態の場合に候補語句から除外する。具体的には、候補語句決定部12は、機器状態取得部11からデジタルカメラ100の状態を示す情報を受信すると、語句テーブル40を参照して、当該状態に予め対応づけられた語句を検索する。そして、候補語句決定部12は、上記状態に対応付けられた語句の「候補」列のみを「○」とし(上記語句を候補語句とし)、他の語句に対応づけられた「候補」列の情報は全て空欄とする。
When the shooting mode of the
なお、候補語句決定部12は、上述の方法で候補語句を絞り込む代わりに、デジタルカメラ100の現在の状態において、実行可能な制御命令に対応づけられた語句を候補語句としてもよい。この場合は、制御命令を示す情報がデジタルカメラ100に格納されており、該制御命令を示す情報が、語句テーブル40の語句に対応づけられる。また、候補語句決定部12は、上述のように「候補」列の情報を書き換える代わりに、デジタルカメラ100の状態により、参照する語句テーブルを変更してもよい。この場合、デジタルカメラ100は、自機の状態それぞれに対応した語句テーブルを備えることとなり、「候補」列の書換えは起こらないので、「候補」列は必ずしも必要ではない。
In addition, the candidate
〔処理の流れ〕
図3は、デジタルカメラ100にて行われる音声認識処理の流れを示した図である。まず初めに、デジタルカメラの状態を示す情報を取得する(S100)。具体的には、機器状態取得部11が、機器状態特定部21によって特定されたデジタルカメラ100の状態を示す情報を取得する。次に、S100で取得したデジタルカメラの状態を示す情報に応じ、語句テーブルの「候補」列を書き換える(S102)。具体的には、候補語句決定部12は、機器状態取得部11から上記状態を示す情報を受信すると、受信した情報が示すデジタルカメラ100の状態に応じて、語句テーブル40の「候補」列の情報を書き換える。これにより、語句テーブル40に含まれる語句のうち、どの語句を音声認識の対象の候補語句とするかが決定される。
[Process flow]
FIG. 3 is a diagram showing a flow of voice recognition processing performed in the
次に、音声を検出する(S104のYES)と、検出した音声から音声データを取得する(S106)。具体的には、音声検出部30が、検出したデジタルカメラ100のユーザの発話を音声データを、音声取得部13によって取得する。続いて、音声データに含まれる特定語句を検出する(S108)。具体的には、特定語句検出部14が、音声取得部13によって取得された音声データから、音声認識の対象となる特定語句を検出する。次に、認識語句を決定する(S110)。具体的には、認識語句決定部15が、特定語句検出部14によって検出された特定語句と合致する、語句テーブル40中の候補語句を認識語句と決定する。
Next, when voice is detected (YES in S104), voice data is acquired from the detected voice (S106). Specifically, the
続いて、制御信号出力部16は、認識語句に対応した制御命令を語句テーブルから読み出し(S112)、読み出した制御命令から制御コマンドを作成し(S114)、制御コマンドを出力する(S116)。最後に、デジタルカメラ100は、制御コマンドに応じた制御を行う(S118)。
Subsequently, the control
〔動作概要〕
続いて、図4に基づいて、本実施形態に係る音声認識装置を搭載したデジタルカメラ100の動作概要を説明する。図4の(a)および(b)は、具体的には、撮影モードが「屋外」であるデジタルカメラ100の動作を示している。ここでは、図2に示す語句テーブル40を用いて候補語句を決定する。すなわち、図2に示す通り、上記デジタルカメラ100の候補語句決定部12は、「ホワイトバランス晴天」という語句は候補語句とするが、「ホワイトバランス蛍光灯」という語句は候補語句としない。
[Operation overview]
Next, an outline of the operation of the
上述のような場合に、ユーザが「ホワイトバランス晴天」という語句を発したとする(図4の(a))。この場合、上記語句は候補語句である。よって、認識語句決定部15にて上記語句と特定語句との照合が行われる。これにより、上記語句が認識語句であると決定され、該認識語句に対応する制御命令(ホワイトバランスを「晴天」の設定に切替える)が制御コマンドとして実行される。つまり、上記ユーザの音声は音声認識され、ホワイトバランスは「晴天」へと変更される。一方、ユーザが「ホワイトバランス蛍光灯」という語句を発した場合(図4の(b))、上記語句は候補語句ではないので認識語句決定部15において特定語句と照合されない。つまり、上記ユーザの音声は音声認識されない。
In the above case, it is assumed that the user utters the phrase “white balance clear sky” ((a) in FIG. 4). In this case, the above phrase is a candidate phrase. Therefore, the recognized word /
このように、本実施形態に係る音声認識装置を搭載したデジタルカメラ100は、その撮影モードにおいてユーザが指示しないであろうと予測される指示を示す語句については、音声認識の候補から除外することができる。
As described above, the
本実施形態1では、音声認識の認識対象となる候補語句をデジタルカメラ100の状態に応じて決定する例について説明したが、これに限定されるものではなく、デジタルカメラ100の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定するようにしてもよい。この場合には、特定語句の検出精度が低下すると考えられる状態である場合において、誤認識の起こりにくい語句を候補語句とすることができる。下記の実施形態2では、特にデジタルカメラ100の状態が所定の状態(誤認識しやすい状態)である場合に、デジタルカメラ100の状態を示す情報に対応付けられた語句の文字数が、音声認識における認識語句の誤検出を生じ易い文字数以上の語句を上記候補語句として決定する例について説明する。
In the first embodiment, an example in which candidate words / phrases to be recognized for speech recognition are determined according to the state of the
≪実施形態2≫
本発明の第2の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態1と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。
<< Embodiment 2 >>
The second embodiment of the present invention will be described as follows. In the present embodiment, as in the first embodiment, an example in which the speech recognition apparatus of the present invention is mounted on a digital camera which is a kind of electronic apparatus will be described. For convenience of explanation, members having the same functions as those described in the first embodiment are denoted by the same reference numerals and description thereof is omitted.
本実施形態が、前記実施形態1と相違している点は、図1に示す認識制御部10内の候補語句決定部12が候補語句を決定する処理である。本実施形態での音声認識処理では、音声を正確に検出できないと予測される状況(誤認識しやすい状態)において、音声認識の精度を極力担保できるよう、誤認識の起こりやすい語句を語句テーブルから除外する。
The present embodiment is different from the first embodiment in the process in which the candidate
ここで、「誤認識の起こりやすい語句」とは、具体的には文字数の少ない(短い)語句や、他の単語と類似した文字や単語を多数含んでいる語句などである。なぜならば、上記のような語句は、他の語句との差異を判別できる部分が少なく、音声認識において正確に判別しづらいからである。 Here, the phrase “prone to misrecognition” is specifically a phrase having a small number of characters (short), a phrase including many characters or words similar to other words, and the like. This is because the phrase as described above has few portions that can be distinguished from other phrases, and is difficult to determine accurately in speech recognition.
次に、本実施形態において候補語句決定部12が行う候補語句の決定について詳述する。本実施形態における候補語句決定部12は、上記第1の実施形態にて説明した候補語句の決定に加え、以下の方法にて候補語句の決定を行う。
Next, the candidate phrase determination performed by the candidate
図5の(a)〜(d)は、本実施形態におけるデジタルカメラ100の動作概要を示す図である。ここで、図5の(a)および(b)に示すデジタルカメラ100は、撮影モードが「自分撮り」以外のモードであり、図5の(c)および(d)に示すデジタルカメラ100は、撮影モードが「自分撮り」である。また、図6は、本発明の第2の実施形態に係る音声認識装置が利用する語句テーブル40の具体例を示す。図6は、さらに詳しくは、デジタルカメラ100の撮影モードが「自分撮り」の場合の語句テーブル40を示している。なお、語句テーブル40のデータ構成自体は第1の実施形態と同様である。
5A to 5D are diagrams showing an outline of the operation of the
ところで、デジタルカメラ100の撮影モード(状態)が「自分撮り」の場合(図5の(c)および(d))は、発話するユーザと、デジタルカメラ100の音声検出部30との距離は通常の場合(図5の(a)および(b))より離れていると考えられる。
By the way, when the shooting mode (state) of the
上記の場合、音声検出部30が検出する音声データの品質は低下し、音声データに基づいて検出される特定語句の検出精度も低下すると考えられる。このように、特定語句の検出精度が低い場合に文字数の少ない語句も候補語句とすると、認識語句の誤検出が増加し却ってユーザの操作性を損なってしまう。
In the above case, it is considered that the quality of the voice data detected by the
そこで、本実施形態における候補語句決定部12は、図6に示すように、「撮影」「メニュー」「閲覧」など、文字数が予め定めた閾値より少ない語句については、対応する「候補」列を空欄とし、候補語句から除外する。上記閾値を音声認識における認識語句の誤検出を生じ易い文字数とすれば、誤検出し易い候補語句を除外することができる。よって、音声認識における認識語句の誤検出を確実に防止することができる。
Therefore, as shown in FIG. 6, the candidate
なお、本実施形態における音声認識処理は、第1の実施形態における音声認識処理と併用することで、さらに音声認識の精度を向上させることができる。例えば、本実施形態においても、撮影モードが「自分撮り」の際にユーザが発話しないであろう「タイマーセット」という語句に対応する「候補」列は空欄としてよい(図6)。 Note that the speech recognition processing in the present embodiment can be further improved in accuracy of speech recognition by being used together with the speech recognition processing in the first embodiment. For example, also in this embodiment, the “candidate” column corresponding to the phrase “timer set” that the user will not utter when the shooting mode is “selfie” may be blank (FIG. 6).
〔動作概要〕
次に、本実施形態に係るデジタルカメラ100の動作概要を、図5を用いて説明する。デジタルカメラ100の撮影モードが「自分撮り」以外の場合(図5の(a)および(b))は、デジタルカメラ100の候補語句決定部12は、「シャッター撮影」および「撮影」のどちらの語句も候補語句とする。一方、上記撮影モードが「自分撮り」の場合(図5の(c)および(d))は、「シャッター撮影」は候補語句とするが、「撮影」は候補語句としない。したがって、デジタルカメラ100の撮影モードが「自分撮り」以外の場合は、ユーザが「シャッター撮影」という語句を発しても(図5の(a))、「撮影」という語句を発しても(図5の(b))、該ユーザの音声は音声認識され、写真撮影が行われる。一方、デジタルカメラ100の撮影モードが「自分撮り」である場合は、ユーザが「シャッター撮影」という語句を発した際(図5の(c))は、ユーザの音声は音声認識されるが、「撮影」という語句を発した際(図5の(d))は、音声認識されない。
[Operation overview]
Next, an outline of the operation of the
このように、本実施形態では、音声検出部30の検出する音声データの品質が低下すると予測される場合は、上記「撮影」のように、誤認識の起こりやすい語句をさらに候補語句から除外するようにしているので、ユーザの操作性と、音声認識の精度の向上とが両立できるという効果を奏する。
Thus, in this embodiment, when it is predicted that the quality of the audio data detected by the
上記の実施形態1,2では何れも、機器状態取得部11がデジタルカメラ100の制御状態を示す情報を機器状態として取得していたが、これに限定されるものではなく、デジタルカメラ100の環境状態を示す情報、すなわちデジタルカメラ100の周囲の明るさや、デジタルカメラ100の傾きなどの検出値を機器状態として取得してもよい。下記の実施形態3では、デジタルカメラ100の環境状態を示す情報を用いて、音声認識処理を行う例について説明する。
In both of the first and second embodiments, the device
≪実施形態3≫
本発明の第3の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態1と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。
<< Embodiment 3 >>
The third embodiment of the present invention will be described as follows. In the present embodiment, as in the first embodiment, an example in which the speech recognition apparatus of the present invention is mounted on a digital camera which is a kind of electronic apparatus will be described. For convenience of explanation, members having the same functions as those described in the first embodiment are denoted by the same reference numerals and description thereof is omitted.
本実施形態に係るデジタルカメラ100では、図1に示すセンサ部20が、デジタルカメラ100の環境状態を示す情報、すなわち明るさや、傾きなどの検出値を検出する各種センサとしてはたらく。上記センサおよび上記情報の例としては、温度センサの検出する機器の外部または内部温度、傾きセンサの検知する電子機器の傾き、光センサの検知する電子機器の外光の強度などが挙げられる。
In the
このように、デジタルカメラ100の環境状態を示す情報、すなわち明るさや傾きなどの検出値を機器状態として取得する場合は、候補語句決定部12における候補語句の決定は、ユーザの操作を全く介さずに行うことができる。つまり、撮影モードの変更など、ユーザの操作をトリガとして候補語句の決定を行うのではなく、デジタルカメラ100の内部または外部の環境に応じて自動的に、該環境に合わせて候補語句を決定することができる。これにより、ユーザの操作性を向上させながら、音声認識の精度を向上させることができる。
As described above, when the information indicating the environmental state of the
〔変形例〕
本発明に係る音声認識装置は上述したデジタルカメラに限らない。本発明に係る音声認識装置は、自機が音声および電子機器の状態を取得できるならば、あらゆる電子機器に搭載し、音声認識を行うことができる。例えば、上記音声認識装置を、テレビに搭載するようにしてもよい。この場合、現在放送中のチャンネルのみを認識対象にする。また、上記音声認識装置を、HDD(hard disc drive)レコーダに搭載してもよい。この場合、番組データにある録画番組のみ認識対象にする。
[Modification]
The speech recognition apparatus according to the present invention is not limited to the digital camera described above. The speech recognition apparatus according to the present invention can be installed in any electronic device and perform speech recognition as long as the device can acquire the state of the speech and the electronic device. For example, the voice recognition device may be mounted on a television. In this case, only the channel currently being broadcast is set as a recognition target. The voice recognition device may be mounted on an HDD (hard disc drive) recorder. In this case, only recorded programs in the program data are recognized.
また、音声認識装置は必ずしも上記電子機器に内蔵されている必要はない。例えば、上記電子機器と通信を行うことにより、上記電子機器の状態や、音声データを取得してもよい。例えば、スマートフォンなどに認識制御部10および音声検出部30を搭載し、テレビなどの家電製品にセンサ部20、機器状態特定部21を搭載してもよい。
Further, the voice recognition device is not necessarily built in the electronic device. For example, the state of the electronic device and audio data may be acquired by communicating with the electronic device. For example, the
〔ソフトウェアによる実現例〕
認識制御部10の制御ブロック(特に候補語句決定部12および認識語句決定部15)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、認識制御部10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
[Example of software implementation]
The control blocks (particularly the candidate
〔まとめ〕
本発明の態様1に係る音声認識装置(認識制御部10)は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器(デジタルカメラ100)の状態を示す情報を取得する機器状態取得手段(機器状態取得部11)と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段(候補語句決定部12)と、上記ユーザの発話を音声データとして取得する音声データ取得手段(音声取得部13)と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段(特定語句検出部14)と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段(認識語句決定部15)と、を備えている。
[Summary]
The speech recognition device (recognition control unit 10) according to aspect 1 of the present invention is a speech recognition device that detects a user's speech as speech and recognizes words included in the speech, and is a target of speech operation. Corresponding to device status acquisition means (device status acquisition unit 11) for acquiring information indicating the status of the electronic device (digital camera 100), and information indicating the status of the electronic device acquired by the device status acquisition means, Candidate phrase determination means (candidate phrase determination section 12) for determining candidate phrases to be subjected to voice recognition, voice data acquisition means (voice acquisition section 13) for acquiring the user's speech as voice data, and the voice data Specific phrase detection means (specific phrase detection unit 14) that detects at least one phrase that specifies the utterance content from the voice data acquired by the acquisition means as a specific phrase The specific phrase detected by the specific phrase detection unit is identified as one of the candidate phrases determined by the candidate phrase determination unit, and the identified phrase is determined as a recognition phrase (Recognition word determining unit 15).
上記構成によれば、電子機器の現在の状態に応じて、音声認識の対象となる候補語句を決定することができる。これにより、ユーザに操作を要求することなく、電子機器が自動的に候補語句の絞り込みを行うことができる。したがって、ユーザの操作性を損なうことなく音声認識における認識精度を向上させることができるという効果を奏する。 According to the said structure, the candidate word / phrase used as the object of speech recognition can be determined according to the present state of an electronic device. Thus, the electronic device can automatically narrow down candidate words and phrases without requiring an operation from the user. Therefore, it is possible to improve the recognition accuracy in voice recognition without impairing the user operability.
本発明の態様2に係る音声認識装置は、上記態様1において、上記候補語句決定手段は、上記電子機器の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定してもよい。 The speech recognition apparatus according to aspect 2 of the present invention is the speech recognition apparatus according to aspect 1, wherein the candidate phrase determination unit determines the phrase from the number of characters in the phrase associated with the information indicating the state of the electronic device as the candidate phrase. You may decide whether or not.
上記構成によれば、候補語句が、電子機器の状態を示す情報に対応付けられた語句の文字数によって決定されることで、認識語句決定手段は、特定語句の文字数と、候補語句の文字数とを認識語句決定のためのパラメータとして、認識語句を決定することになるため、認識語句の決定精度を向上させることが可能となる。これにより、誤った音声認識による電子機器の誤動作のため、ユーザへ再操作を要求することが防止できる。したがって、ユーザの操作性の低下を軽減するとともに、音声認識の精度を向上させることができる。 According to the above configuration, the candidate word / phrase is determined based on the number of characters of the word / phrase associated with the information indicating the state of the electronic device, so that the recognized word / phrase determining unit calculates the number of characters of the specific word / phrase and the number of characters of the candidate word / phrase. Since the recognition word / phrase is determined as a parameter for determining the recognition word / phrase, the determination accuracy of the recognition word / phrase can be improved. Thereby, it is possible to prevent the user from requesting re-operation due to malfunction of the electronic device due to erroneous voice recognition. Therefore, it is possible to reduce the decrease in user operability and improve the accuracy of voice recognition.
本発明の態様3に係る音声認識装置は、上記態様2において、上記候補語句決定手段は、さらに、上記電子機器の状態を示す情報に対応付けられた語句の文字数が、音声認識における認識語句の誤検出を生じ易い文字数以上の語句を上記候補語句として決定してもよい。 The speech recognition apparatus according to aspect 3 of the present invention is the speech recognition apparatus according to aspect 2, wherein the candidate phrase determining means further determines that the number of characters in the phrase associated with the information indicating the state of the electronic device is the recognition phrase in speech recognition. Words that are more than the number of characters that are likely to be erroneously detected may be determined as the candidate words.
上記構成によれば、候補語句決定手段は、誤認識の起こり易い、文字数が所定の値より少ない語句を候補語句から除外することができる。つまり、他の語句との差異を判別できる部分が少なく、音声認識において正確に判別しづらい語句を候補語句から除外することができる。よって、ユーザの操作性と音声認識の精度をさらに向上させることができる。 According to the above configuration, the candidate word determination unit can exclude words and phrases that are likely to be erroneously recognized and whose number of characters is smaller than a predetermined value from the candidate words. That is, there are few portions that can be distinguished from other words and phrases, and words that are difficult to be accurately identified in speech recognition can be excluded from candidate phrases. Therefore, the operability of the user and the accuracy of voice recognition can be further improved.
本発明の態様4に係る音声認識装置は、上記態様1から3のいずれかにおいて、上記機器状態取得手段は、上記電子機器の外部または内部環境を示す機器情報(環境情報)を測定するセンサ部(センサ部20)から、上記電子機器の状態として上記機器情報を取得してもよい。 The speech recognition apparatus according to Aspect 4 of the present invention is the sensor unit according to any one of Aspects 1 to 3, wherein the apparatus state acquisition unit measures apparatus information (environment information) indicating an external or internal environment of the electronic apparatus. The device information may be acquired from the (sensor unit 20) as the state of the electronic device.
上記構成によれば、センサ部が取得した機器情報に基づいて候補語句を決定することができる。したがって、電子機器の内部または外部の環境に応じて自動的に、該環境に合わせて候補語句を決定することができる。これにより、ユーザの操作性を向上させながら、音声認識の精度を向上させることができる。 According to the said structure, a candidate word / phrase can be determined based on the apparatus information which the sensor part acquired. Therefore, it is possible to automatically determine candidate words in accordance with the environment inside or outside the electronic device. Thereby, the accuracy of voice recognition can be improved while improving the operability for the user.
本発明の様態5に係る電子機器は、上記様態1から4のいずれかに記載の音声認識装置を備えた電子機器で、上記ユーザの発話を検出する音声検出手段(音声検出部30)と、自機の状態を特定する機器状態特定手段(機器状態検知部20)とを備えている。 An electronic apparatus according to an aspect 5 of the present invention is an electronic apparatus including the speech recognition device according to any one of the above aspects 1 to 4, and a voice detection unit (voice detection unit 30) that detects the user's utterance; Device state specifying means (device state detection unit 20) for specifying the state of the device itself.
上記構成によれば、上記電子機器は、機器状態特定手段が特定した電子機器の状態から候補語句を決定し、音声検出手段が検出したユーザの音声と、該候補語句とを用いて音声認識を行うことができる。これにより、電子機器は現在の自機の状態において適切な語句を候補語句として音声認識を行うことができる。 According to the above configuration, the electronic device determines a candidate word / phrase from the state of the electronic device specified by the device state specifying unit, and performs voice recognition using the user's voice detected by the voice detecting unit and the candidate word / phrase. It can be carried out. Accordingly, the electronic device can perform speech recognition using an appropriate word / phrase as a candidate word / phrase in the current state of the own device.
本発明の各態様に係る音声認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声認識装置が備える各手段として動作させることにより上記音声認識装置をコンピュータにて実現させる音声認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The speech recognition apparatus according to each aspect of the present invention may be realized by a computer. In this case, the speech recognition apparatus is realized by the computer by operating the computer as each unit included in the speech recognition apparatus. A control program for the speech recognition apparatus and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、音声認識により操作可能な電子機器に好適である。 The present invention is suitable for an electronic device that can be operated by voice recognition.
10 認識制御部(音声認識装置)、11 機器状態取得部(機器状態取得手段)、12 候補語句決定部(候補語句決定手段)、13 音声取得部(音声取得手段)、14 特定語句検出部(特定語句検出手段)、15 認識語句決定部(認識語句決定手段)、20 センサ部(センサ部)、21 機器状態特定部(機器状態特定手段)、30 音声検出部(音声検出手段)、100 デジタルカメラ(電子機器)
DESCRIPTION OF
Claims (5)
音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、
上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、
上記ユーザの発話を音声データとして取得する音声データ取得手段と、
上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、
上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、
を備えていることを特徴とする音声認識装置。 A speech recognition device that detects a user's utterance as speech and recognizes speech included in the speech,
Device status acquisition means for acquiring information indicating the status of an electronic device to be subjected to voice operation;
Candidate phrase determination means for determining candidate phrases that are associated with the information indicating the state of the electronic device acquired by the apparatus status acquisition means and that are the target of speech recognition;
Voice data acquisition means for acquiring the user's speech as voice data;
Specific phrase detection means for detecting at least one phrase that specifies utterance content from the voice data acquired by the voice data acquisition means as a specific phrase;
A recognized word / phrase determining means for specifying that the specific word / phrase detected by the specific word / phrase detecting means is one of the candidate words / phrases determined by the candidate word / phrase determining means, and determining the identified word / phrase as a recognized word / phrase; ,
A speech recognition apparatus comprising:
上記ユーザの発話を検出する音声検出手段と、
自機の状態を特定する機器状態特定手段とを備えることを特徴とする電子機器。 An electronic device comprising the voice recognition device according to any one of claims 1 to 3,
Voice detection means for detecting the user's utterance;
An electronic device comprising: device state specifying means for specifying the state of the device itself.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018898A JP2014149457A (en) | 2013-02-01 | 2013-02-01 | Voice recognition device, electronic apparatus, and control program of voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018898A JP2014149457A (en) | 2013-02-01 | 2013-02-01 | Voice recognition device, electronic apparatus, and control program of voice recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014149457A true JP2014149457A (en) | 2014-08-21 |
Family
ID=51572464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013018898A Pending JP2014149457A (en) | 2013-02-01 | 2013-02-01 | Voice recognition device, electronic apparatus, and control program of voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014149457A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016119615A (en) * | 2014-12-22 | 2016-06-30 | キヤノン株式会社 | Imaging apparatus, setting method for voice command function, computer program and storage medium |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58156998A (en) * | 1982-03-12 | 1983-09-19 | 日本電気株式会社 | Information input unit |
JPH0944604A (en) * | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | Character recognizing processing method |
JP2001034288A (en) * | 1999-07-21 | 2001-02-09 | Nec Saitama Ltd | Voice recognition system and method for portable telephone system |
JP2002108389A (en) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | Method and device for retrieving and extracting individual's name by speech, and on-vehicle navigation device |
JP2002278591A (en) * | 2001-03-22 | 2002-09-27 | Sharp Corp | Information processing device, information processing method and program recording medium |
JP2004086150A (en) * | 2002-06-28 | 2004-03-18 | Denso Corp | Voice control system |
JP2010130487A (en) * | 2008-11-28 | 2010-06-10 | Canon Inc | Imaging apparatus, information processing method, program, and storage medium |
JP2010175921A (en) * | 2009-01-30 | 2010-08-12 | Tokai Rika Co Ltd | Voice recognition device |
JPWO2010113463A1 (en) * | 2009-03-31 | 2012-10-04 | パナソニック株式会社 | IMAGING DEVICE, INTEGRATED CIRCUIT, IMAGING METHOD, PROGRAM, AND RECORDING MEDIUM |
JP2012211932A (en) * | 2011-03-30 | 2012-11-01 | Toshiba Corp | Voice recognition device and voice recognition method |
-
2013
- 2013-02-01 JP JP2013018898A patent/JP2014149457A/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58156998A (en) * | 1982-03-12 | 1983-09-19 | 日本電気株式会社 | Information input unit |
JPH0944604A (en) * | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | Character recognizing processing method |
JP2001034288A (en) * | 1999-07-21 | 2001-02-09 | Nec Saitama Ltd | Voice recognition system and method for portable telephone system |
JP2002108389A (en) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | Method and device for retrieving and extracting individual's name by speech, and on-vehicle navigation device |
JP2002278591A (en) * | 2001-03-22 | 2002-09-27 | Sharp Corp | Information processing device, information processing method and program recording medium |
JP2004086150A (en) * | 2002-06-28 | 2004-03-18 | Denso Corp | Voice control system |
JP2010130487A (en) * | 2008-11-28 | 2010-06-10 | Canon Inc | Imaging apparatus, information processing method, program, and storage medium |
JP2010175921A (en) * | 2009-01-30 | 2010-08-12 | Tokai Rika Co Ltd | Voice recognition device |
JPWO2010113463A1 (en) * | 2009-03-31 | 2012-10-04 | パナソニック株式会社 | IMAGING DEVICE, INTEGRATED CIRCUIT, IMAGING METHOD, PROGRAM, AND RECORDING MEDIUM |
JP2012211932A (en) * | 2011-03-30 | 2012-11-01 | Toshiba Corp | Voice recognition device and voice recognition method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016119615A (en) * | 2014-12-22 | 2016-06-30 | キヤノン株式会社 | Imaging apparatus, setting method for voice command function, computer program and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210118463A1 (en) | Interactive server, control method thereof, and interactive system | |
EP3195310B1 (en) | Keyword detection using speaker-independent keyword models for user-designated keywords | |
US9778747B2 (en) | Method and system for multimodal and gestural control | |
KR102623272B1 (en) | Electronic apparatus and Method for controlling electronic apparatus thereof | |
EP3020040B1 (en) | Method and apparatus for assigning keyword model to voice operated function | |
KR102072826B1 (en) | Speech recognition apparatus and method for providing response information | |
US9948764B2 (en) | Artificial intelligence audio apparatus and operation method thereof | |
CN116364076A (en) | Processing method, control method, identification method and device thereof, and electronic equipment | |
US7792678B2 (en) | Method and device for enhancing accuracy of voice control with image characteristic | |
US11457061B2 (en) | Creating a cinematic storytelling experience using network-addressable devices | |
WO2018202073A1 (en) | Method and apparatus for voice control over intelligent device, and intelligent device | |
KR20140089863A (en) | Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof | |
US11050828B2 (en) | Electronic device, server and method of controlling the same | |
WO2015062511A1 (en) | Smart television cursor control method and device therefor | |
WO2018154900A1 (en) | Information processing device, information processing method, and program | |
KR20190138436A (en) | Electronic device and method providing information associated with image to application through input unit | |
EP3788621A1 (en) | Adaptive diarization model and user interface | |
KR102517219B1 (en) | Electronic apparatus and the control method thereof | |
US10691717B2 (en) | Method and apparatus for managing data | |
US11463617B2 (en) | Information processing apparatus, information processing system, image capturing apparatus, information processing method, and memory | |
CN104134440A (en) | Voice detection method and device used for portable terminal | |
KR20180086032A (en) | Electronic apparatus, control method of electronic apparatus, and recording media | |
JP2020095702A (en) | Information processing device, imaging device, method for controlling information processing device, and program | |
JP2014149457A (en) | Voice recognition device, electronic apparatus, and control program of voice recognition device | |
US11818457B2 (en) | Image capturing apparatus, control method therefor, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180109 |