JP2019215393A - Image display device and television receiver - Google Patents
Image display device and television receiver Download PDFInfo
- Publication number
- JP2019215393A JP2019215393A JP2018111058A JP2018111058A JP2019215393A JP 2019215393 A JP2019215393 A JP 2019215393A JP 2018111058 A JP2018111058 A JP 2018111058A JP 2018111058 A JP2018111058 A JP 2018111058A JP 2019215393 A JP2019215393 A JP 2019215393A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- acquisition
- display device
- angle mode
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声認識機能付テレビに関する。より詳しくは、音声認識機能付テレビにおける音声認識の精度向上に関する。 The present invention relates to a television with a voice recognition function. More specifically, the present invention relates to improving the accuracy of speech recognition in a television with a speech recognition function.
近年、音声認識機能を搭載した製品が多数発売されている。音声認識機能によって、リモコン等を用いず、機器を操作出来たり、必要な情報を手軽に取得出来るので便利である。テレビに音声認識機能が搭載された製品も発売されつつある。 In recent years, many products equipped with a voice recognition function have been released. The voice recognition function is convenient because the device can be operated and necessary information can be easily obtained without using a remote controller or the like. Products equipped with a voice recognition function on a television are also on the market.
テレビで音声認識機能を利用する場合、テレビの音量を上げ下げしたり、チャンネルを切り替えたりするリモコンの代わりを行ったり、明日の天気等の情報を確認する場合もある。いずれにしても、通常、使用者は、テレビに正対し、テレビの視聴に適切な位置にすると考えられる。そのため、音声認識の方向は、テレビに正対した方向のみとするのが妥当と考えられる。他の方向の雑音を抑えることで、音声の認識率を上げることが出来る。 When using the voice recognition function on the TV, there are cases where the volume of the TV is raised or lowered, a channel is switched, a remote controller is replaced, or information such as tomorrow's weather is checked. In any case, it is generally considered that the user faces the television and is in a position suitable for watching the television. Therefore, it is considered appropriate that the direction of voice recognition be only the direction directly facing the television. By suppressing noise in other directions, the speech recognition rate can be increased.
しかしながら、使用者の視聴スタイルによっては、必ずしもそうとは言えない。例えば、使用者が、居間のテレビを台所から視聴している場合もある。また、他の作業をしながら、テレビをBGMとして視聴している場合もある。
そこで、使用者の視聴スタイルに合わせて、音声認識範囲を変えられる技術が求められていた。
However, this is not always the case depending on the viewing style of the user. For example, a user may be watching television in the living room from the kitchen. In some cases, the user watches television as background music while performing other tasks.
Therefore, there has been a demand for a technique capable of changing a voice recognition range in accordance with a user's viewing style.
このような問題に対して、従来からも様々な技術が提案されている。例えば、視聴者の位置をカメラでとらえ、音声認識の指向性の方向を変化させる技術が開示されている(特許文献1)。 To solve such a problem, various techniques have been conventionally proposed. For example, a technique has been disclosed in which the position of a viewer is captured by a camera, and the direction of the directivity of voice recognition is changed (Japanese Patent Application Laid-Open No. H10-163,086).
しかしながら、複数の視聴者の場合には、指向性の設定が難しいし、カメラ映像が不明瞭な場合は、設定が難しかった。そのため、使用者の視聴スタイルに合わせて、音声認識範囲を変えるという課題解決となっていない。 However, setting of directivity is difficult for a plurality of viewers, and setting is difficult when the camera image is unclear. Therefore, the problem of changing the voice recognition range in accordance with the user's viewing style has not been solved.
本発明に係る画像表示装置は、指向性を持ち、指向性の方向である指向方向を所定の角度に設定し音声取得を、並行して複数回行い、それぞれの該音声取得の該角度は異なり、該音声取得によって取得した音声データの中から、該音声データの特徴量に応じて候補音声データを選定し、該候補音声データの指向方向を発話者方向とし、該有効音声データがキーワード音声か否かを判別し、該発話者方向を指向方向とした該音声取得を行い、コマンド音声を取得する音声入力部を備え、複数の該音声取得による音声取得範囲が狭い狭角度モードと、複数の該音声取得による該音声取得範囲が広い広角度モードと、を備え、該狭角度モードと該広角度モードを切り替え可能であることを手段とする。 The image display device according to the present invention has directivity, sets a directivity direction, which is a direction of directivity, to a predetermined angle, performs sound acquisition a plurality of times in parallel, and the angle of each sound acquisition is different. Selecting candidate voice data from the voice data acquired by the voice acquisition in accordance with the feature amount of the voice data, setting the direction of the candidate voice data to the speaker direction, and determining whether the valid voice data is the keyword voice. A voice input unit that obtains the command voice by performing the voice acquisition with the speaker direction as the directivity direction, and a narrow angle mode in which the voice acquisition range by the voice acquisition is narrow; A wide-angle mode in which the voice acquisition range by the voice acquisition is wide, and the mode can be switched between the narrow-angle mode and the wide-angle mode.
この発明によれば使用者の視聴スタイルに合わせて、音声認識範囲を変えられるので、
音声認識率を向上させることが出来る。
According to the present invention, since the voice recognition range can be changed according to the user's viewing style,
The voice recognition rate can be improved.
本発明である画像表示装置は、使用者の視聴スタイルに合わせて、音声認識範囲を変えられることを最大の特徴とする。以下、実施例を図面に基づいて説明する。
なお、本実施例で示される画像表示装置の全体形状及び各部の形状は、下記に述べる実施例に限定されるものではなく、本発明の技術的思想の範囲内、即ち、同一の作用効果を発揮できる形状及び寸法の範囲内で変更することができるものである。
(実施例1)
The greatest feature of the image display device of the present invention is that the voice recognition range can be changed in accordance with the viewing style of the user. Hereinafter, embodiments will be described with reference to the drawings.
Note that the overall shape and the shape of each part of the image display device shown in the present embodiment are not limited to the embodiments described below, and are within the scope of the technical idea of the present invention, that is, the same operation and effect. It can be changed within the range of shapes and dimensions that can be exhibited.
(Example 1)
図1から図4に沿って、本発明の構成を説明する。
図1は、本発明に係る表示装置のブロック図である。図2(a)は、本発明に係る表示装置の一実施形態での、狭角度モードを説明する図である。図2(b)は、同じく、広角度モードを説明する図である。図3は、本発明に係る表示装置の一実施形態を説明するフローチャートである。図4(a)は、本発明に係る表示装置のメニュー表示を示す図である。
The configuration of the present invention will be described with reference to FIGS.
FIG. 1 is a block diagram of a display device according to the present invention. FIG. 2A is a diagram illustrating a narrow angle mode in one embodiment of the display device according to the present invention. FIG. 2B is a diagram illustrating the wide angle mode. FIG. 3 is a flowchart illustrating an embodiment of the display device according to the present invention. FIG. 4A is a diagram showing a menu display of the display device according to the present invention.
(ブロック図の説明)
表示装置1は、音声認識機能付テレビジョン受信機であり、一般的なテレビ受信機に音声認識機能が搭載されたものである。
表示装置1は、主に、音声入力機能と制御機能と映像表示機能と音声出力機能からなる。
(Explanation of block diagram)
The display device 1 is a television receiver with a voice recognition function, and is a general television receiver equipped with a voice recognition function.
The display device 1 mainly includes an audio input function, a control function, a video display function, and an audio output function.
音声入力機能は、マイクアレイ100と音声入力処理部200から構成されている。マイクアレイ100は、複数の無指向性マイクから構成される。本例では、マイクを4つとする。マイクは、直線状に配置される。各マイクに入った音は、後段で、マイク毎に遅延がかけられ、加算され、指向性を備えた音声情報として使用される。遅延量を変えることで指向方向を変えることが出来る。この方式は、ビームフォーミングとも呼ばれている。この動作が並行して行われ、複数の音声情報が生成される。
言い換えれば、指向性を持ち指向方向を設定可能な音声取得を、並行して複数行うことになる。
複数の音声取得の方向を異ならせることによって、1つの音声取得動作ではカバーできない広い範囲の音声を取得することができる。
また、1つの音声取得について、テレビの表示部の表示面に対する法線方向、つまり、テレビの正面方向に、指向性を持たせることで、テレビの正面に重点を置いた音声取得が出来る。
音声入力処理部200は、マイクアレイ100によって入力された音声についての処理を行う部分であり、音声のノイズ除去、キーワードの認識、コマンド音声の確定等を行う。音声入力処理部200は、主に、前処理部210と音声認識部220と音声認識パラメータ部 230から成る。
The voice input function includes a
In other words, a plurality of voice acquisitions having directivity and capable of setting the directivity direction are performed in parallel.
By making the directions of obtaining a plurality of sounds different, it is possible to obtain a wide range of sounds that cannot be covered by one sound obtaining operation.
In addition, for one audio acquisition, by giving directivity to the normal direction to the display surface of the display unit of the television, that is, the front direction of the television, it is possible to acquire audio with emphasis on the front of the television.
The voice
前処理部210は、マイクから入力された音声の認識率を上げるために、ノイズ、エコー成分等を除去する部分である。例えば、エコーキャンセル、ノイズリダクションを行う。エコーキャンセルでは、音声処理部600からの音声情報を使用し、テレビから発せられる音成分を除去する。この処理により、テレビ音声による認識不良、誤認識を除去出来る。ノイズリダクションでは、低音、高音のノイズの除去、定常的なノイズの除去を行う。
The preprocessing
音声認識部220は、キーワード検出とコマンド検出の2つの動作を行う。
キーワード検出時は、前処理部210で生成された複数の音声データを元に、複数の角度毎の音声データを生成する。音声データの特徴量に応じて、有効音声データを特定する。有効音声データを取得した際の指向方向を発話者方向とする。そして、有効音声データがキーワード音声であるかを判別する。音声データの特徴量としては、発話音量の大きさが考えられる。発話者の方向と指向方向が合うと音量が大きくなるからである。
発話がキーワード音声であれば、制御部300に対して、キーワードが受信されたことを伝える。
コマンド検出時は、設定された角度の音声を受信し、音声データをコマンド音声データとして、制御部300に送信する。
音声認識パラメータ部230は、キーワード検出時の音声受信角度を設定するパラメータ群である。この値を変えることで、音声取得の範囲を変えたり、音声取得の方向を変えたりすることが出来る。制御部300からの指示で、音声認識パラメータ部230の中から適切なパラメータが音声認識部220に送られる。
The
At the time of keyword detection, voice data for each of a plurality of angles is generated based on the plurality of voice data generated by the
If the utterance is a keyword voice, the
When a command is detected, a voice at a set angle is received, and voice data is transmitted to the
The voice
制御機能は、表示装置1全体を制御する部分である。主に、制御部300と通信部310とRC受光部320からなる。
制御部300は、テレビの映像音声の制御、音声認識関連の制御、外部との通信とを行う部分である。マイコンと、メモリであるROM、RAMを備える。
音声入力処理部200に対して、音声認識パラメータ部230を介して、音声認識角度パラメータを送り、角度を変更する。
音声入力処理部200で取得したコマンド音声を通信部310、インターネット700を介して、音声解析部800に送ったり、音声解析部800からの解析結果を通信部310を介して、テキスト情報として受信したりする。音声解析部800の結果のテキストを画像処理部430を介して表示したり、音声解析部800の結果のテキストを、音声に変換して、音声処理部600に音声データとして送信したりする。
The control function is a part that controls the entire display device 1. It mainly includes a
The
A voice recognition angle parameter is sent to the voice
The command voice acquired by the voice
通信部310は、外部とネットワーク通信を行う部分である。インターネットと接続し、ネット上の音声解析部800とやりとりすることが出来る。有線でもいいし、無線でもよい。
RC受光部320は、テレビのリモコンの受信部であり、赤外線リモコンからのデータを受信し、制御部300に送信する。
The
RC
映像表示機能は、テレビの映像関連であり、放送波の受信や、制御部300からのテキストデータの映像への重畳を行う。主に、チューナ400、アンテナ410、復号化部420、画像処理部430、表示部500からなる。
チューナ400は、一般的な放送受信のためのチューナであり、アンテナ410からの放送波を受信し、番組を選局する。復号化部420は、受信データのTS化を行い、映像、音声、メタ情報等を分離する部分であり、映像は画像処理部430に、音声は音声処理部600に送られる。
制御部300は映像/音声ソースのタイミングを映像処理部430、音声処理部600に送信する。また、ユーザー操作の効果や字幕等の情報を適切な位置に表示したサブ画面を作成し、映像処理部に出力する。サブ画面とは、映像に重畳するためのレイアである。ま
た、情報のための音声入力があった際に音声認識モードとなったことを示すマークや、音声認識結果のテキスト、音声認識の認識範囲モードの表示等も行う。
画像処理部430は、映像の輝度、彩度、色相等の調整、映像の高精細化やスケーリング等を行う。また、サブ画面等を映像に重畳する処理を行う。
The video display function is related to the video of a television, and performs reception of broadcast waves and superimposition of text data from the
The
The
The
音声出力機能は、テレビの音声出力に関連する部分である。主に、音声処理部600とスピーカ610から成る。音声処理部600は、音声データからDAコンバータ等で音声波形を生成し、アンプを介して、スピーカ610に音声を出力する。
また、音声データを前処理部210に送り、エコーキャンセルさせる。前処理部210に送る音声データには、スピーカ610から発せられる音量に応じたデータ、又は音量レベルを付加する。
The audio output function is a part related to the audio output of the television. It mainly comprises an
In addition, the audio data is sent to the
(狭角度モードの動作例)
次に、狭角度モードと広角度モードの動作を図2、図3に沿って、説明する。
図2(a)、図2(b)は、狭角度モードの動作例である。図2(c)、図2(d)は、広角度モードの動作例である。図3は、いずれの場合も含むフローチャートである。
動作例として、音声検出方向は5つあり、各方向は、音声検出角度が60度の扇型の範囲を持つ。音声取得可能範囲は、図2(a)のように、B1、B2、B3、B4、B5とする。中央に当たるB3の方向を音声取得領域中央方向Cとする。本例では、音声取得領域中央方向Cの方向は、テレビの表示面に対向する方向とする。
各音声取得可能範囲の刻み角度は、狭角度モードは10度、広角度モードは30度とする。
(Operation example in narrow angle mode)
Next, the operation in the narrow angle mode and the wide angle mode will be described with reference to FIGS.
FIGS. 2A and 2B show an operation example in the narrow angle mode. 2C and 2D are operation examples in the wide angle mode. FIG. 3 is a flowchart including both cases.
As an operation example, there are five voice detection directions, and each direction has a fan-shaped range with a voice detection angle of 60 degrees. The voice obtainable range is B1, B2, B3, B4, and B5 as shown in FIG. The direction of B3 corresponding to the center is defined as a voice acquisition area center direction C. In this example, the direction of the audio acquisition area center direction C is a direction facing the display surface of the television.
The step angle of each audio obtainable range is 10 degrees in the narrow angle mode and 30 degrees in the wide angle mode.
まず、狭角度モードの動作を図2(a)、図2(b)に沿って説明する。表示装置1は、上から見た形状であり、紙面上、左が映像表示側、右がテレビの背面側とする。マイクアレイ100はテレビの映像表示位置の中央に配置されている。また、特別に指定のない限り、右側、左側とは、テレビを正面から見ているユーザーを基準に右側(紙面上のB5の方向)、左側(紙面上のB1方向)とする。
テレビ起動後、音声認識パラメータを設定する(S101)。サーチ方向数は5個、サーチ方向は正面、サーチ刻み角は10度と設定する。
キーワードは、「OKベーグル」とする。
First, the operation in the narrow angle mode will be described with reference to FIGS. 2 (a) and 2 (b). The display device 1 has a shape viewed from the top, and the left side is the image display side and the right side is the back side of the television on the paper. The
After starting the television, the voice recognition parameters are set (S101). The number of search directions is set to 5, the search direction is set to the front, and the search step angle is set to 10 degrees.
The keyword is “OK bagel”.
使用者Hが「OKベーグル」と発話する(図2(a))。マイクアレイ100、音声入力処理部200は5つの方向毎に並行して音声を取得する(S102)。
使用者Hは、音声取得領域中央方向Cよりも若干左側にずれた位置に居る。最も音量の大きな方向は音声取得可能範囲B2の方向であるので、発話者方向をB2とし、この方向から取得された音声データを候補音声データとする。
B2を使用者Hの方向として記憶する(S103)。
The user H speaks "OK bagel" (FIG. 2A). The
The user H is located at a position slightly shifted leftward from the center direction C of the voice acquisition area. Since the direction of the loudest volume is the direction of the voice obtainable range B2, the speaker direction is set to B2, and voice data obtained from this direction is set as candidate voice data.
B2 is stored as the direction of the user H (S103).
発話内容は、キーワード音声かを確認する。キーワードの確認出来た場合は、コマンド音声取得状態に入る、キーワード音声で無ければ、音声取得動作(S102)に戻る。 It confirms whether the utterance content is a keyword voice. If the keyword is confirmed, the command voice acquisition state is entered. If the keyword is not the keyword voice, the process returns to the voice acquisition operation (S102).
コマンド音声取得状態として、まず、音声取得方向をS103で記憶した方向であるB2に設定する(図2(b))。音声取得方向の刻み角度が小さいため、微調整が可能である。使用者Hの位置を音声取得範囲のほぼ中央に調整することが出来る。 First, as the command voice acquisition state, the voice acquisition direction is set to B2, which is the direction stored in S103 (FIG. 2B). Since the step angle in the voice acquisition direction is small, fine adjustment is possible. The position of the user H can be adjusted to almost the center of the voice acquisition range.
コマンド音声取得待ちに入る(S105)。使用者Hが「音量下げて」と発話すると、その音声を取得する(S106、S107)。取得した音声データは、制御部300、通信部310を介して、音声解析部800に送られる(S108)。音声解析部800では、データベース、大型コンピュータ等を用いて、音声データを解析し、音声をテキスト化
する。この例では、“オンリョウサゲテ”となる。音声がテレビの操作を指示する内容であるので、テレビ操作のコマンドである“VOL DWN”を生成する。また、音声が問い合わせの内容であれば、それに対する回答をテキストデータとして生成する。
音声解析部800は、コマンド音声をテキスト化したデータである“オンリョウサゲテ”と、回答となるデータである“VOL DWN”を表示装置1に送信する(S109)。
The process enters a command voice acquisition wait state (S105). When the user H speaks "Turn down the volume", the voice is acquired (S106, S107). The acquired audio data is sent to the
The
制御部300は、コマンド音声のテキストを表示したサブ画面の映像を画像処理部430に送り、画像処理部430は、主映像にサブ画面の映像を重畳する。回答となるデータが、テレビ操作のデータであれば、テレビの操作を行う。回答となるデータがテキストデータであれば、回答のサブ画面の映像を作成し、画像処理部430に送り、主映像にサブ画面の映像を重畳する。併せて制御部300は、テキストから音声データを生成し、音声処理部600に音声データを送信する。音声処理部600はスピーカ610を用いて、テキストの内容を音声出力する(S110)。
The
一連の動作によって、テレビの正面付近にいる使用者Hの方向を特定し、音声取得角度を調整し、使用者Hの発話の認識率を上げることが出来る。そのため、狭角度モードは、使用者が、テレビの正面付近にいる生活スタイルの使用者に最適である。 Through a series of operations, the direction of the user H near the front of the television can be specified, the voice acquisition angle can be adjusted, and the recognition rate of the utterance of the user H can be increased. Therefore, the narrow angle mode is optimal for a lifestyle user whose user is near the front of the television.
本実施例の狭角度モードの説明では、キーワード音声を取得する際、複数の音声取得を行う例としたが、テレビの表示部の表示面に対する法線方向を指向方向とする音声取得のみとし、コマンド音声の取得も同じ正面方向としてもよい。使用者がテレビの正面にいる場合は、問題無く、キーワード音声や、コマンド音声を取得出来る。 In the description of the narrow angle mode of the present embodiment, when acquiring the keyword voice, a plurality of voices are obtained.However, only the voice is obtained with the direction normal to the display surface of the display unit of the television as the directivity direction. The command voice may be obtained in the same front direction. When the user is in front of the television, the keyword voice and the command voice can be obtained without any problem.
また、キーワード音声を取得する際、広角度モードと同様に、広範囲の音声を取得し、コマンド音声を取得する際、正面のみの音声を取得してもよい。このようにすることで、キーワード音声を取得しやすくなる。 Also, when acquiring the keyword voice, similarly to the wide angle mode, a wide range of voice may be obtained, and when obtaining the command voice, only the frontal voice may be obtained. By doing so, it becomes easier to acquire the keyword voice.
(広角度モードの動作例)
次に、広角度モードでの動作を、図2(c)、図2(d)に沿って説明する。
テレビ起動後、音声認識パラメータを設定する(S101)。サーチ方向数は5個、サーチ方向は正面、サーチ刻み角は30度と設定する。5つの音声取得方向で、テレビの表示面方向の180度をほぼカバーする。使用者Hの位置は、テレビの正面よりも大きく左よりの位置とする。
(Operation example in wide angle mode)
Next, the operation in the wide angle mode will be described with reference to FIGS. 2C and 2D.
After starting the television, the voice recognition parameters are set (S101). The number of search directions is set to 5, the search direction is set to the front, and the search step angle is set to 30 degrees. The five sound acquisition directions cover almost 180 degrees in the direction of the display surface of the television. The position of the user H is set to be larger than the front of the television and to the left.
使用者Hが「OKベーグル」と発話する(図2(c))。マイクアレイ100、音声入力処理部200は5つの方向毎に並行して音声を取得する(S102)。
使用者Hは、音声取得領域中央方向Cよりも大きく左側にずれた位置に居る。最も音量の大きな方向は音声取得可能範囲B2の方向であるので、発話者方向をB2とし、この方向から取得された音声データを候補音声データとする。B2を使用者Hの方向として記憶する(S103)。
The user H speaks "OK bagel" (FIG. 2C). The
The user H is located at a position shifted to the left more than the center direction C of the voice acquisition area. Since the direction of the loudest volume is the direction of the voice obtainable range B2, the speaker direction is set to B2, and voice data obtained from this direction is set as candidate voice data. B2 is stored as the direction of the user H (S103).
発話内容は、キーワード音声かを確認する。キーワードの確認出来た場合は、コマンド音声取得状態に入る、キーワード音声で無ければ、音声取得動作(S102)に戻る。 It confirms whether the utterance content is a keyword voice. If the keyword is confirmed, the command voice acquisition state is entered. If the keyword is not the keyword voice, the process returns to the voice acquisition operation (S102).
コマンド音声取得状態として、まず、音声取得方向をS103で記憶した方向であるB2に設定する(図2(d))。音声取得方向の刻み角度が大きいため、使用者Hの位置が大きくずれていても、カバーが可能である。しかし、使用者Hの位置をサーチ範囲の中央からずれた位置に来る場合もある。その場合は、音声の認識率が低くなる。 First, as the command voice acquisition state, the voice acquisition direction is set to B2, which is the direction stored in S103 (FIG. 2D). Since the step angle in the voice acquisition direction is large, it is possible to cover even if the position of the user H is largely shifted. However, the position of the user H may be shifted from the center of the search range. In that case, the voice recognition rate is low.
コマンド音声取得待ちに入る(S105)。使用者Hが「音量下げて」と発話すると、その音声を取得する(S106、S107)。取得した音声データは、制御部300、通信部310を介して、音声解析部800に送られる(S108)。音声解析部800では、データベース、大型コンピュータ等を用いて、音声データを解析し、音声をテキスト化する。この例では、“オンリョウサゲテ”となる。音声がテレビの操作を指示する内容であるので、テレビ操作のコマンドである“VOL DWN”を生成する。また、音声が問い合わせの内容であれば、それに対する回答をテキストデータとして生成する。
音声解析部800は、コマンド音声をテキスト化したデータである“オンリョウサゲテ”と、回答となるデータである“VOL DWN”を表示装置1に送信する(S109)。
The process enters a command voice acquisition wait state (S105). When the user H speaks "Turn down the volume", the voice is acquired (S106, S107). The acquired audio data is sent to the
The
制御部300は、コマンド音声のテキストを表示したサブ画面の映像を、画像処理部430に送り、画像処理部430は、主映像にサブ画面の映像を重畳する。サブ画面とは、主映像に、他の画像データ等を重畳する内容を描画するグラフィックプレーンである。回答となるデータが、テレビ操作のデータであれば、テレビの操作を行う。回答となるデータがテキストデータであれば、回答のサブ画面の映像を作成し、画像処理部430に送り、主映像にサブ画面の映像を重畳する。併せて制御部300は、テキストから音声データを生成し、音声処理部600に音声データを送信する。音声処理部600はスピーカ610を用いて、テキストの内容を音声出力する(S110)。
The
一連の動作によって、テレビの正面から大きくずれた位置にいる使用者Hの方向を特定し、音声取得角度を調整し、使用者Hの発話を認識することが出来る。そのため、広角度モードは、使用者が、テレビの正面付近にいない場合が多い生活スタイルの使用者に最適である。 Through a series of operations, it is possible to identify the direction of the user H located at a position significantly deviated from the front of the television, adjust the voice acquisition angle, and recognize the utterance of the user H. Therefore, the wide angle mode is most suitable for a lifestyle user who is often not near the front of the television.
(メニュー表示)
上述のように、表示装置1の音声認識モードとして、少なくとも狭角度モードと広角度モードを持つ必要がある。そこで、使用者が、容易に2つのモードを切り替えられるメニューを用いる(図4(a))。表示装置1の表示部500にメニュー画面510を表示する。狭角度モード選択ボタン520と広角度モード選択ボタン530とを持つ。2つのボタンは、例えば、リモコンの上下キー、決定ボタンで、選択、決定する。図2(a)は、広角度モードが選択された画面である。広角度モードが選択されると、制御部300は、音声認識パラメータ部230のパラメータから広角度モードのパラメータを選択し、音声認識部220のパラメータをセットする。
(Menu display)
As described above, the voice recognition mode of the display device 1 needs to have at least the narrow angle mode and the wide angle mode. Therefore, a menu is used in which the user can easily switch between the two modes (FIG. 4A). A
(音声認識角度等表示)
図5に沿って、音声認識角度表示について説明する。音声認識のモードが複数あると、使用者は、現在、どちらのモードか確認することが必要な場合がある。図5(a)は、広角度モードを設定した場合である。表示部500にコンテンツ映像550が表示され、画面の下部分に音声認識角度表示領域560を割り当てる。広角度モードを表すように、音声認識有効角度570は、細長い棒状の表示としている。使用者は、細長い棒状の表示を見て、広い角度を認識するモードと分かる。
(Indication of voice recognition angle, etc.)
The display of the voice recognition angle will be described with reference to FIG. If there are multiple voice recognition modes, the user may need to confirm which mode is currently selected. FIG. 5A shows a case where the wide angle mode is set. A
図5(b)は、狭角度モードを設定した場合である。表示部500にコンテンツ映像550が表示され、画面の下部分に音声認識角度表示領域560を割り当てる。狭角度モードを表すように、音声認識有効角度570は、小さい棒状の表示としている。使用者は、小さい棒状の表示を見て、狭い角度を認識するモードと分かる。
FIG. 5B shows a case where the narrow angle mode is set. A
図5(c)は、さらに、付加的な情報を示す図である。音声取得表示580は、キーワード音声、コマンド音声を取得していることを示す表示である。音声認識角度表示領域5
60の中央上部分に表示が出ることで、使用者は、音声が取得できていることを確認出来る。また、音声入力、回答のテキストである音声テキスト590を画面に出すことで、使用者は、発話した内容や、回答の内容を確実に把握することが出来る。
FIG. 5C is a diagram showing additional information. The
By displaying the display in the upper center portion of 60, the user can confirm that sound has been acquired. In addition, by displaying
このように、本発明によれば、音声認識機能を持つテレビにおいて、複数の音声認識範囲を持つ音声認識機能によって、使用者の視聴スタイルに合わせて、音声認識範囲を変えることが出来、使用者の利便性を向上させることが出来る。 As described above, according to the present invention, in a television having a voice recognition function, the voice recognition range having a plurality of voice recognition ranges can be used to change the voice recognition range in accordance with the viewing style of the user. Convenience can be improved.
また、本実施例による構成を言い換えれば、表示部を持つ音声認識機能付き表示装置であって、指向性を持ち、指向性の方向である指向方向を所定の角度に設定し音声取得を、並行して複数回行う。所定の角度は、例えば、向を各音声取得毎に一定の刻み角度をいう。音声データの特徴量に応じて候補音声データを選定し、該候補音声データの指向方向を発話者方向とし、該候補音声データがキーワード音声か否かを判別する。
候補音声データを取得した際の角度である発話者方向を指向方向とした該音声取得を行い、コマンド音声を取得する音声入力部を備える。
複数の該音声取得による音声取得範囲が狭い(水平方向の取得角度が狭い)狭角度モードと、複数の該音声取得による該音声取得範囲が広い(水平方向の取得角度が狭い)広角度モードと、を備え、該狭角度モードと該広角度モードを切り替え可能である。
In other words, in other words, the configuration according to the present embodiment is a display device with a voice recognition function having a display unit, which has directivity, sets a directivity direction that is a directivity direction to a predetermined angle, and performs voice acquisition in parallel. And do it multiple times. The predetermined angle refers to, for example, a fixed step angle for each voice acquisition. The candidate voice data is selected according to the feature amount of the voice data, the direction of the candidate voice data is set as the speaker direction, and it is determined whether or not the candidate voice data is a keyword voice.
A voice input unit is provided for obtaining the voice with the utterer direction, which is the angle at which the candidate voice data was obtained, as the directional direction, and obtaining a command voice.
A narrow-angle mode in which a plurality of audio acquisition ranges are narrow (a narrow acquisition angle in the horizontal direction); and a wide-angle mode in which the plurality of audio acquisition ranges are wide (a narrow acquisition angle in the horizontal direction). , And can be switched between the narrow angle mode and the wide angle mode.
また、音声認識機能付き表示装置であって、表示部の表示面に対する法線方向を正面方向とした際、指向性の方向である指向方向を正面方向に設定し音声取得を行い、該音声取得によって取得した音声データがキーワード音声か否かを判別する。音声取得は、1方向のみについて行う。
指向方向を正面方向に設定し該音声取得を行い、コマンド音声を取得する。
このモードを狭角度モードとする。
指向性を持ち、指向性の方向である指向方向を所定の角度に設定し音声取得を、並行して複数回行い、それぞれの該音声取得の該角度は異なり、該音声取得によって取得した音声データの中から、該音声データの特徴量に応じて候補音声データを選定し、該候補音声データの指向方向を発話者方向とし、該有効音声データがキーワード音声か否かを判別する。
該発話者方向を指向方向とした該音声取得を行い、コマンド音声を取得する。このモードを広角度モードとする。
複数の該音声取得による音声取得範囲が狭い(水平方向の取得角度が狭い)狭角度モードと、複数の該音声取得による該音声取得範囲が広い(水平方向の取得角度が狭い)広角度モードと、を備え、該狭角度モードと該広角度モードを切り替え可能である。
Also, in the display device with a voice recognition function, when the normal direction to the display surface of the display unit is set to the front direction, the directivity direction, which is the direction of the directivity, is set to the front direction, and voice acquisition is performed. Is determined as to whether or not the voice data acquired is a keyword voice. Voice acquisition is performed only in one direction.
The pointing direction is set to the front direction, the voice is obtained, and the command voice is obtained.
This mode is referred to as a narrow angle mode.
It has directivity, and sets the directivity direction, which is the direction of the directivity, to a predetermined angle, performs voice acquisition a plurality of times in parallel, the angle of each voice acquisition is different, and the voice data acquired by the voice acquisition is different. , Candidate voice data is selected in accordance with the feature amount of the voice data, the direction of the candidate voice data is set as the speaker direction, and it is determined whether or not the valid voice data is a keyword voice.
The voice is acquired with the speaker direction as the directional direction, and a command voice is acquired. This mode is referred to as a wide angle mode.
A narrow angle mode in which a plurality of voice acquisition ranges are narrow (the horizontal acquisition angle is narrow); and a wide angle mode in which the plurality of voice acquisition ranges are wide (the horizontal acquisition angle is narrow). , And can be switched between the narrow angle mode and the wide angle mode.
(実施例2)
実施例1において、複数の音声認識範囲をメニューで切り替える例を説明した。しかし、2つのモードを変える毎に、メニューを表示させ、設定することは、場合によっては、面倒である。
そこで、メニューでの設定変更を行うことなく、モードを変える技術が求められていた。
(Example 2)
In the first embodiment, an example has been described in which a plurality of voice recognition ranges are switched using a menu. However, displaying and setting a menu every time the two modes are changed may be troublesome in some cases.
Therefore, a technique for changing the mode without changing the setting in the menu has been demanded.
図4(b)、図6、図7に沿って、説明する。図4(b)は、本実施例のメニュー表示例である。図6(a)、(b)は、電源投入1回目の音声認識動作である。図6(c)、(d)は、2回目以降の音声認識動作である。図7は、電源投入1回目、2回目の音声認識のフローチャートである。
本実施例のモードをオートモードとして説明する。
This will be described with reference to FIGS. 4B, 6, and 7. FIG. FIG. 4B is a menu display example of the present embodiment. 6A and 6B show the first speech recognition operation when the power is turned on. FIGS. 6C and 6D show the second and subsequent speech recognition operations. FIG. 7 is a flowchart of the first and second power-on speech recognition.
The mode of this embodiment will be described as an auto mode.
図4(b)に示すメニューを表示し、オートモード選択ボタン540を選択実行し、オ
ートモードとしておく。
テレビの電源を入れた後、音声認識パラメータを広角度モードに設定する(S201)。図6(a)に示すように、広範囲の音声を拾うモードとなる。
使用者Hが“OKベーグル”と発話し、音声データを取得する(S202)。5つの方向の音声データを比較し、最も音量の大きな方向を特定し、変数SCN1に記憶する。図6(a)の例では、B2を変数SCN1に記憶する(S203)。
音声がキーワードで無ければS202に戻る。キーワードであれば、S205に移る(S204)。音声取得方向を変数SCN1に記憶されたB2に設定する(S205)。コマンド音声を待ち、音声を取得する(S206)。
音声解析部800にデータを送信し、解析結果を受け、制御部300で表示部500等に結果を表示する(S207)。
The menu shown in FIG. 4B is displayed, and the auto
After turning on the television, the voice recognition parameters are set to the wide angle mode (S201). As shown in FIG. 6A, a mode is set in which a wide range of sound is picked up.
The user H speaks "OK bagel" and acquires voice data (S202). The voice data in the five directions are compared, the direction with the highest volume is specified, and stored in the variable SCN1. In the example of FIG. 6A, B2 is stored in the variable SCN1 (S203).
If the voice is not a keyword, the process returns to S202. If it is a keyword, the process proceeds to S205 (S204). The voice acquisition direction is set to B2 stored in the variable SCN1 (S205). It waits for the command voice and acquires the voice (S206).
The data is transmitted to the
2回目の音声認識に備え、パラメータをセットする。狭角度モードに設定し、中央方向は、SCN1に記憶されたB2の方向とする(S208)。
音声取得領域中央方向Cの方向は、テレビの正面ではなく、ほぼ使用者Hの方向となる。
使用者Hが“OKベーグル”と発話し、音声データを取得する(S209)。5つの方向の音声データを比較し、最も音量の大きな方向を特定し、変数SCN2に記憶する。図6(c)の例では、B2を変数SCN2に記憶する(S210)。
音声がキーワードで無ければS212に戻る。キーワードであれば、S215に移る(S211)。音声取得方向を変数SCN2に記憶されたB2に設定する(S212)。コマンド音声を待ち、音声を取得する(S213)。
音声解析部800にデータを送信し、解析結果を受け、制御部300で表示部500等に結果を表示する(S214)。
The parameters are set in preparation for the second speech recognition. The mode is set to the narrow angle mode, and the center direction is the direction of B2 stored in the SCN1 (S208).
The direction of the sound acquisition area center direction C is not the front of the television but substantially the direction of the user H.
The user H speaks "OK bagel" and acquires voice data (S209). The sound data in the five directions are compared, the direction in which the volume is the highest is specified, and the direction is stored in the variable SCN2. In the example of FIG. 6C, B2 is stored in the variable SCN2 (S210).
If the voice is not a keyword, the process returns to S212. If it is a keyword, the process proceeds to S215 (S211). The voice acquisition direction is set to B2 stored in the variable SCN2 (S212). It waits for the command voice and acquires the voice (S213).
The data is transmitted to the
この動作によって、使用者が正面方向に居なくても、音声認識範囲を使用者の方向に正確に合わせることが出来る。使用者は、メニューによる設定を行いことなく、音声認識率を向上させることが出来る。
また、使用者がテレビの正面から大きく離れた場合であっても、使用者の方向を精度よく捉えられるので、音声認識の認識率を向上させることができる。
With this operation, the voice recognition range can be accurately adjusted to the direction of the user even when the user is not in the front direction. The user can improve the speech recognition rate without making settings using the menu.
Further, even when the user is far away from the front of the television, the direction of the user can be accurately grasped, so that the recognition rate of voice recognition can be improved.
1 表示装置
100 マイクアレイ
200 音声入力処理部
210 前処理部
220 音声認識部
230 音声認識パラメータ部
300 制御部
310 通信部
320 RC受光部
400 チューナ
410 アンテナ
420 復号化部
430 画像処理部
500 表示部
510 メニュー画面
520 狭角度モード選択ボタン
530 広角度モード選択ボタン
540 オートモード選択ボタン
550 コンテンツ映像
560 音声認識角度表示領域
570 音声認識有効角度
580 音声取得表示
590 音声テキスト
600 音声処理部
610 スピーカ
700 インターネット
800 音声解析部
H 使用者
B1、・・・、B5 音声取得可能範囲
C 音声取得領域中央方向
1
Claims (8)
指向性を持ち、指向性の方向である指向方向を所定の角度に設定し音声取得を、並行して複数回行い、
それぞれの該音声取得の該角度は異なり、
該音声取得によって取得した音声データの中から、該音声データの特徴量に応じて候補音声データを選定し、該候補音声データの指向方向を発話者方向とし、該候補音声データがキーワード音声か否かを判別し、
該発話者方向を指向方向とした該音声取得を行い、コマンド音声を取得する音声入力部を備え、
複数の該音声取得による音声取得範囲が狭い狭角度モードと、
複数の該音声取得による該音声取得範囲が広い広角度モードと、を備え、
該狭角度モードと該広角度モードを切り替え可能であることを特徴とする表示装置。 A display device with a voice recognition function having a display unit,
With directivity, set the directivity direction, which is the direction of the directivity, to a predetermined angle, perform voice acquisition multiple times in parallel,
The angle of each of the audio acquisitions is different,
From the voice data acquired by the voice acquisition, candidate voice data is selected according to the feature amount of the voice data, the direction of the candidate voice data is set to the speaker direction, and whether or not the candidate voice data is a keyword voice And determine
The voice acquisition unit performs the voice acquisition with the speaker direction as the directivity direction, and includes a voice input unit that acquires a command voice.
A narrow angle mode in which the voice acquisition range by the plurality of voice acquisitions is narrow;
A wide angle mode in which the voice acquisition range is wide by a plurality of the voice acquisitions,
A display device capable of switching between the narrow angle mode and the wide angle mode.
表示部の表示面に対する法線方向を正面方向とした際、指向性の方向である指向方向を正面方向に設定し音声取得を行い、該音声取得によって取得した音声データがキーワード音声か否かを判別し、
指向方向を正面方向に設定し該音声取得を行い、コマンド音声を取得する狭角度モードと、
指向性を持ち、指向性の方向である指向方向を所定の角度に設定し音声取得を、並行して複数回行い、
それぞれの該音声取得の該角度は異なり、
該音声取得によって取得した音声データの中から、該音声データの特徴量に応じて候補音声データを選定し、該候補音声データの指向方向を発話者方向とし、該候補音声データがキーワード音声か否かを判別し、
該発話者方向を指向方向とした該音声取得を行い、コマンド音声を取得する
広角度モードと、を備え、
音声取得範囲が狭い該狭角度モードと音声取得範囲が広い該広角度モードを切り替え可能であることを特徴とする表示装置。 A display device with a voice recognition function,
When the normal direction to the display surface of the display unit is set to the front direction, the directivity direction, which is the direction of the directivity, is set to the front direction and voice acquisition is performed, and whether or not the voice data acquired by the voice acquisition is a keyword voice is determined. Determine,
A narrow-angle mode in which the pointing direction is set to the front direction and the voice is obtained, and a command voice is obtained;
With directivity, set the directivity direction, which is the direction of the directivity, to a predetermined angle, perform voice acquisition multiple times in parallel,
The angle of each of the audio acquisitions is different,
From the voice data acquired by the voice acquisition, candidate voice data is selected according to the feature amount of the voice data, the direction of the candidate voice data is set to the speaker direction, and whether or not the candidate voice data is a keyword voice And determine
A wide-angle mode for performing the voice acquisition with the speaker direction as the directivity direction and acquiring a command voice,
A display device capable of switching between the narrow angle mode in which the sound acquisition range is narrow and the wide angle mode in which the sound acquisition range is wide.
1回目の前記音声データの取得は、前記広角度モードで行い、
2回目以降の前記音声データの取得時の前記音声取得の方向を、1回目の前記音声データの取得で、決定した発話者方向とし、前記狭角度モードで行うことを特徴とする請求項1から請求項6に記載の表示装置。 When the state of the display device changes,
The first acquisition of the audio data is performed in the wide angle mode,
2. The method according to claim 1, wherein a direction of the voice acquisition at the time of acquiring the voice data for the second time or later is set to a determined speaker direction in the first acquisition of the voice data, and the direction is obtained in the narrow angle mode. The display device according to claim 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018111058A JP7041589B2 (en) | 2018-06-11 | 2018-06-11 | Image display device and television receiver |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018111058A JP7041589B2 (en) | 2018-06-11 | 2018-06-11 | Image display device and television receiver |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019215393A true JP2019215393A (en) | 2019-12-19 |
JP7041589B2 JP7041589B2 (en) | 2022-03-24 |
Family
ID=68919493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018111058A Active JP7041589B2 (en) | 2018-06-11 | 2018-06-11 | Image display device and television receiver |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7041589B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109361A (en) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | Device, method, and program for setting directivity |
JP2007221300A (en) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | Robot and control method of robot |
JP2007329702A (en) * | 2006-06-08 | 2007-12-20 | Toyota Motor Corp | Sound-receiving device and voice-recognition device, and movable object mounted with them |
-
2018
- 2018-06-11 JP JP2018111058A patent/JP7041589B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109361A (en) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | Device, method, and program for setting directivity |
JP2007221300A (en) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | Robot and control method of robot |
JP2007329702A (en) * | 2006-06-08 | 2007-12-20 | Toyota Motor Corp | Sound-receiving device and voice-recognition device, and movable object mounted with them |
Also Published As
Publication number | Publication date |
---|---|
JP7041589B2 (en) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102312124B1 (en) | Devices with enhanced audio | |
US10491809B2 (en) | Optimal view selection method in a video conference | |
KR101826274B1 (en) | Voice controlled audio recording or transmission apparatus with adjustable audio channels | |
JP5855571B2 (en) | Audio zoom | |
EP2446642B1 (en) | Method and apparatus for processing audio signals | |
JP4945675B2 (en) | Acoustic signal processing apparatus, television apparatus, and program | |
US20150078595A1 (en) | Audio accessibility | |
EP3503580A1 (en) | Audio processing based upon camera selection | |
JP5380777B2 (en) | Audio conferencing equipment | |
KR102454761B1 (en) | Method for operating an apparatus for displaying image | |
JP6678315B2 (en) | Voice reproduction method, voice interaction device, and voice interaction program | |
JP7041589B2 (en) | Image display device and television receiver | |
KR102522567B1 (en) | Electronic apparatus and operating method for the same | |
JP2007329753A (en) | Voice communication device and voice communication device | |
KR101143164B1 (en) | Method and apparatus for managing audio input signal in case of photographing moving images in portable termination | |
JP2020160387A (en) | Electronic apparatus, control method and program | |
JP2014068193A (en) | Television receiver and screen display method of the same | |
JP2019537071A (en) | Processing sound from distributed microphones | |
KR20230113853A (en) | Psychoacoustic reinforcement based on audio source directivity | |
WO2024026181A1 (en) | Audio signal enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220107 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7041589 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |