JP2021089376A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2021089376A
JP2021089376A JP2019220035A JP2019220035A JP2021089376A JP 2021089376 A JP2021089376 A JP 2021089376A JP 2019220035 A JP2019220035 A JP 2019220035A JP 2019220035 A JP2019220035 A JP 2019220035A JP 2021089376 A JP2021089376 A JP 2021089376A
Authority
JP
Japan
Prior art keywords
score
voice
unit
information processing
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019220035A
Other languages
English (en)
Other versions
JP7248564B2 (ja
Inventor
千葉 俊一
Shunichi Chiba
俊一 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVS Regza Corp
Original Assignee
TVS Regza Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVS Regza Corp filed Critical TVS Regza Corp
Priority to JP2019220035A priority Critical patent/JP7248564B2/ja
Priority to CN202080005757.3A priority patent/CN113228170B/zh
Priority to PCT/CN2020/123669 priority patent/WO2021109751A1/zh
Publication of JP2021089376A publication Critical patent/JP2021089376A/ja
Application granted granted Critical
Publication of JP7248564B2 publication Critical patent/JP7248564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】トリガワードを検出させるために試行するユーザの判断を支援することができる情報処理装置及びプログラムを提供する。【解決手段】情報処理装置(テレビジョン装置)は、音声入力部に入力されたユーザの音声を音声信号として取得する入力受付部11と、音声認識サービスを開始させるためのトリガワードを音声信号から検出するための基準となる音声データに対する音声信号のスコアを算出するスコア算出部14と、スコアを表示部に表示させる表示制御部15と、を備える。【選択図】図3

Description

本発明の実施形態は、情報処理装置及びプログラムに関する。
音声認識機能を備えるテレビジョン装置等の機器では、例えばユーザが音声によって機器の操作をすることができる。このような機器は、ユーザが発したトリガワードを検出すると音声認識サービスを起動する。
特開2012−008554号公報
しかしながら、ユーザの発話の仕方および周囲の環境等によっては、トリガワードの検出精度が低くなってしまう。検出精度の低下には種々の要因が考えられるため、トリガワードが検出されない原因が何であるのかユーザが判断できない場合がある。
本発明が解決しようとする課題は、トリガワードを検出させるために試行するユーザの判断を支援することができる情報処理装置及びプログラムを提供することにある。
実施形態の情報処理装置は、音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、前記スコアを表示部に表示させる表示制御部と、を備える。
図1は、実施形態にかかる音声認識システムの構成の一例を示す図である。 図2は、実施形態にかかるテレビジョン装置のハードウェア構成の一例を示す図である。 図3は、実施形態にかかるテレビジョン装置の機能構成の一例を示す図である。 図4は、実施形態にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。 図5は、実施形態にかかるテレビジョン装置によるスコア算出方法の幾つかの例を示す図である。 図6は、実施形態にかかるテレビジョン装置におけるトリガワード検出処理の手順の一例を示すフロー図である。 図7は、実施形態の変形例1にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。 図8は、実施形態の変形例2のテレビジョン装置の機能構成の一例を示す図である。 図9は、実施形態の変形例2にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。 図10は、実施形態の変形例2にかかるテレビジョン装置が表示するスコア表示画面の他の例を示す図である。 図11は、実施形態の変形例3にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。
(音声認識システムの構成)
図1は、実施形態にかかる音声認識システム1の構成の一例を示す図である。図1に示すように、音声認識システム1は、テレビジョン装置10及び音声認識サーバ20を備え、例えばテレビジョン装置10のユーザに音声認識サービスを提供する。音声認識サービスによって、ユーザは、例えば音声によりテレビジョン装置10の操作をすることができる。
テレビジョン装置10と音声認識サーバ20とは、例えばインターネット等のネットワーク40を介して、無線または有線にて相互に接続されている。ネットワーク40は、例えばDLNA(Digital Living Network Alliance)(登録商標)に基づくホームネットワークや家庭内LAN(Local Area Network)等であってもよい。
情報処理装置としてのテレビジョン装置10は、例えば放送局からの放送信号を受信して各種の番組を受信することができる。また、テレビジョン装置10は、音声認識機能を有し、ユーザが発したトリガワードを検出すると音声認識サービスを開始する。トリガワードは、音声認識サービス開始のトリガとなる所定の音声コマンドである。テレビジョン装置10の音声認識機能は、専ら、このトリガワードを検出するために用いられる。音声認識サービス開始後は、テレビジョン装置10は、例えば音声認識サーバ20の音声認識機能を利用して、音声認識サービスをユーザに提供する。このように、テレビジョン装置10は、音声認識サーバ20との通信を行う通信装置としても機能する。
音声認識サーバ20は、例えばクラウド上に置かれたクラウドサーバ等として構成されている。ただし、音声認識サーバ20は、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等の物理的な構成を備える1つ以上のコンピュータとして構成されていてもよい。クラウドサーバ若しくはコンピュータを構成するCPUが、例えばROM等に記憶されているプログラムを実行することにより、音声認識サーバ20の音声認識機能等の機能が実現される。
音声認識サーバ20は、音声認識機能等を実現するための機能部として、音声認識部21、処理部22、通信部23、及び記憶部24を備える。
音声認識部21は、テレビジョン装置10から通信部23を介して送信されてきたユーザの発話による音声信号等を解析して認識する。その際、音声認識部21は、記憶部24の音声辞書24aを参照する。
処理部22は、音声信号の認識結果に基づいて各種処理を行う。例えば、音声信号が、テレビジョン装置10の操作を指示するものであった場合には、処理部22は、通信部23を介して指示内容をテレビジョン装置10に送信する。また例えば、音声信号が、インターネットからの情報取得を指示するものであった場合には、処理部22は、インターネット上において情報を検索し、通信部23を介して検索結果をテレビジョン装置10に送信する。また例えば、音声信号が、対話を求めるものであった場合には、処理部22は、通信部23を介して返答の内容をテレビジョン装置10に送信してもよい。
通信部23は、テレビジョン装置10との通信を行う。例えば、通信部23は、テレビジョン装置10から、ユーザの音声信号を受信する。また例えば、通信部23は、処理部22による処理結果をテレビジョン装置10に送信する。
記憶部24は、音声認識サーバ20の上記のような機能の実現に必要な各種パラメータ及び情報等を記憶する。一例として、記憶部24は、ユーザからの音声信号の解析に用いるデータが格納された音声辞書24aを備える。後述のように、テレビジョン装置10もまた、音声認識に用いる音声辞書を有する。しかし、音声認識サーバ20の記憶部24は大容量記憶装置として構成されており、記憶部24が有する音声辞書24aには、より詳細かつ多岐に亘るデータが格納されている。
このように、音声認識サービスに関わる機能の主要な部分を、処理能力の高い音声認識サーバ20に担わせることで、ユーザからの音声信号の認識精度および認識速度を高め、また、より充実した内容の音声認識サービスを提供することができる。
(テレビジョン装置のハードウェア構成)
図2は、実施形態にかかるテレビジョン装置10のハードウェア構成の一例を示す図である。
図2に示すように、テレビジョン装置10は、アンテナ101、入力端子102a〜102c、チューナ103、デモジュレータ104、デマルチプレクサ105、A/D(アナログ/デジタル)変換器106、セレクタ107、信号処理部108、スピーカ109、表示パネル110、操作部111、受光部112、IP通信部113、CPU114、メモリ115、ストレージ116、マイクロフォン117、及びオーディオI/F(インターフェース)118を備える。
アンテナ101は、デジタル放送の放送信号を受信し、受信した放送信号を、入力端子102aを介してチューナ103に供給する。
チューナ103は、アンテナ101から供給された放送信号から所望のチャンネルの放送信号を選局し、選局した放送信号をデモジュレータ104に供給する。
デモジュレータ104は、チューナ103から供給された放送信号を復調し、復調した放送信号をデマルチプレクサ105に供給する。
デマルチプレクサ105は、デモジュレータ104から供給された放送信号を分離して映像信号および音声信号を生成し、生成した映像信号および音声信号をセレクタ107に供給する。
セレクタ107は、デマルチプレクサ105、A/D変換器106、及び入力端子102cから供給される複数の信号から1つを選択し、選択した1つの信号を信号処理部108に供給する。
信号処理部108は、セレクタ107から供給された映像信号に所定の信号処理を施し、処理後の映像信号を表示パネル110に供給する。また、信号処理部108は、セレクタ107から供給された音声信号に所定の信号処理を施し、処理後の音声信号をスピーカ109に供給する。
スピーカ109は、信号処理部108から供給された音声信号に基づいて音声、または各種の音を出力する。また、スピーカ109は、CPU114による制御に基づいて、出力する音声または各種の音の音量を変更する。
表示部としての表示パネル110は、信号処理部108から供給された映像信号またはCPU114による制御に基づいて、静止画および動画などの映像、その他の画像、並びに文字情報等を表示する。
入力端子102bは、外部から入力される映像信号および音声信号等のアナログ信号を受け付ける。また、入力端子102cは、外部から入力される映像信号および音声信号等のデジタル信号を受け付ける。例えば、入力端子102cは、BD(Blu−ray Disc)(登録商標)などの録画再生用の記録媒体を駆動して録画および再生するドライブ装置を搭載したレコーダ等から、デジタル信号の入力が可能である。
A/D変換器106は、入力端子102bから供給されたアナログ信号にA/D変換を施すことにより生成したデジタル信号をセレクタ107に供給する。
操作部111は、ユーザの操作入力を受け付ける。
受光部112は、リモートコントローラ119からの赤外線を受光する。
IP通信部113は、ネットワーク40を介したIP(インターネットプロトコル)通信を行うための通信インターフェースである。
制御部としてのCPU114は、テレビジョン装置10全体を制御する。
メモリ115は、CPU114が実行する各種コンピュータプログラムを格納するROM、及びCPU114に作業エリアを提供するRAM等である。例えば、ROMには、テレビジョン装置10がトリガワードを検出するための音声認識プログラム、及び音声認識サービスを提供するためのアプリケーションプログラム等が格納されている。
ストレージ116は、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等である。ストレージ116は、例えば、セレクタ107により選択された信号を録画データとして記録する。
音声入力部としてのマイクロフォン117は、ユーザが発話した音声を取得して、オーディオI/F118に送出する。
オーディオI/F118は、マイクロフォン117が取得した音声をアナログ/デジタル変換して、音声信号としてCPU114に送出する。なお、このように、オーディオI/F118によって変換されたデジタルな「音声信号」を、以下、単に「音声」とも称する場合がある。
(テレビジョン装置の機能構成)
次に、図3を用いて、実施形態のテレビジョン装置10の機能構成例について説明する。図3は、実施形態にかかるテレビジョン装置10の機能構成の一例を示す図である。
テレビジョン装置10では、上述のCPU114が、例えばROM等に記憶されているプログラムを実行することにより、テレビジョン装置10の音声認識機能等が実現される。テレビジョン装置10で実行されるプログラムは、以下に述べる各機能部を含むモジュール構成となっている。
図3に示すように、テレビジョン装置10は、テレビジョン装置10の機能を実現するための機能部として、入力受付部11、テスト機能設定部12、トリガワード検出部13、スコア算出部14、表示制御部15、アプリケーション実行部16、機器制御部17、通信部18、及び記憶部19を備える。
取得部としての入力受付部11は、ユーザからの各種入力を受け付ける。例えば、入力受付部11は、マイクロフォン117に入力されたユーザの音声を、オーディオI/F118を介して取得する。また例えば、入力受付部11は、操作部111またはリモートコントローラ119からの操作入力による各種指示を取得する。
テスト機能設定部12は、操作部111またはリモートコントローラ119からの操作入力によりテスト機能の開始が指示されると、テスト機能が有効となるよう設定する。テスト機能が有効となった状態では、後述するように、ユーザからの音声信号に対するスコアが算出され、そのスコアがテレビジョン装置10の表示パネル110に表示される。
トリガワード検出部13は、得られたユーザの音声信号に対してノイズキャンセル処理等の音響処理を施す。そして、トリガワード検出部13は、記憶部19の音声辞書19aを参照し、音響処理を施された音声信号からトリガワードを検出する。このとき、トリガワード検出部13は、音声辞書19aに格納された、トリガワード検出の基準となる音声データと、ユーザの音声信号との一致度を算出する。そして、トリガワード検出部13は、音声データと音声信号との一致度が所定値以上であった場合、音声信号がトリガワードを含んでいると認識し、トリガワードが検出されたものと判断する。トリガワード検出部13は、音声データと音声信号との一致度が所定値未満であった場合、取得された音声信号はトリガワードではないと認識し、トリガワードは検出されなかったものと判断する。
スコア算出部14は、テスト機能が有効となっている場合、トリガワード検出の基準となる音声データに対するユーザの音声信号のスコアを算出する。より具体的には、スコア算出部14は、算出された音声データと音声信号との一致度を正規化してスコアを算出する。したがって、スコアが高ければ音声データと音声信号との一致度が高く、また、スコアが所定値以上となることで、トリガワード検出部13によって、その音声信号がトリガワードを示していると認識されることを意味する。
表示制御部15は、表示パネル110への各種の表示を制御する。例えば、入力受付部11がリモートコントローラ119等に入力されたユーザの操作を取得した場合に、その操作に応じた操作画面を表示パネル110に表示する。また例えば、表示制御部15は、テスト機能が有効となっている場合、算出されたスコアを表示パネル110に表示させる。また例えば、表示制御部15は、トリガワードの検出により音声認識サービスが開始されると、音声に対して応答するメッセージまたはアイコン等を、表示パネル110に表示させる。音声に対して応答するメッセージまたはアイコン等は、例えば、ユーザの発話を促す内容でもよいし、ユーザの音声の認識結果を文字データとして表示するものでもよい。
アプリケーション実行部16は、音声信号からトリガワードが検出されると音声認識サービスを開始させる。より具体的には、アプリケーション実行部16は、音声信号からトリガワードが検出されると、音声認識サービス提供アプリケーションを起動する。音声認識サービス提供アプリケーションは、音声認識サーバ20とユーザとの情報交換のためのユーザインターフェースである。つまり、音声認識サービス提供アプリケーションは、通信部18を介して、テレビジョン装置10と音声認識サーバ20との通信を可能にする。そして、音声認識サービス提供アプリケーションは、ユーザの音声信号を音声認識サーバ20へと送信し、その音声信号が示す内容についての応答を音声認識サーバ20から受信する。
機器制御部17は、テレビジョン装置10の各部を制御する。例えば、機器制御部17は、トリガワードの検出後、スピーカ109を制御して音量を下げる。これは、ユーザがトリガワードの後に発話する音声の入力が、コンテンツの音に干渉されることを低減するためである。また例えば、機器制御部17は、音声認識サービスの提供中、ユーザの音声に含まれる命令に基づいて、テレビジョン装置10の各部を制御する。
通信部18は、ネットワーク40を介した外部機器等との通信を制御する。例えば、通信部18は、音声認識サービス提供アプリケーションにしたがって、音声認識サーバ20とテレビジョン装置10との通信を制御する。
記憶部19は、テレビジョン装置10の上記のような機能の実現に必要な各種パラメータ及び情報等を記憶する。一例として、記憶部19は、ユーザからの音声信号からトリガワードを検出するための基準となる音声データが格納された音声辞書19aを備える。音声データは、例えばトリガワードに含まれる音素および特徴等の各種要素についての情報を有し、トリガワード検出部13が、この音声データとユーザからの音声信号とを比較することで、音声信号がトリガワードを含んでいるか否かを認識するための指標となる。ただし、音声辞書19aに格納される音声データは複数あってもよい。例えば、複数の音声データには、男性用、女性用、及び子供用等の、性別および年齢に依存した各種音声データが含まれていてよい。
(テレビジョン装置の詳細機能)
次に、図4及び図5を用いて、実施形態のテレビジョン装置10の機能の詳細について説明する。図4は、実施形態にかかるテレビジョン装置10が表示するスコア表示画面110aの一例を示す図である。スコア表示画面110aは、ユーザがテスト機能を有効にすると表示パネル110に表示される。
ユーザは、例えばリモートコントローラ119等を操作して、テスト機能を開始する指示を入力することができる。テスト機能を開始する指示を入力受付部11が受け付けると、テスト機能設定部12がテスト機能を有効にする設定を行う。テスト機能が有効にされると、表示制御部15はスコア表示画面110aを表示パネル110に表示させる。
図4に示すように、スコア表示画面110aには、まず、ユーザによるトリガワードの発話を促すメッセージが表示される。例えば、トリガワードが「ねえ、テレビ」である場合には、“「ねえ、テレビ」と 発話してください。”等のメッセージが表示される。
また、スコア表示画面110aには、ユーザによる音声がトリガワードとして検出されるためのスコアの閾値を示すメッセージが表示されてもよい。閾値が例えば50である場合には、“スコア50以上で、音声認識サービスがスタートします。”等のメッセージが表示される。
さらに、スコア表示画面110aには、そのときのテレビジョン装置10の音量設定等が表示されてもよい。テレビジョン装置10の発する音量は、トリガワード検出の障害となり得るため、音量設定を表示することで、ユーザの注意を喚起することができる。
スコア表示画面110aのメッセージにしたがって、ユーザが「ねえ、テレビ」などと発話すると、その音声がマイクロフォン117によって取得され、オーディオI/F118によって音声信号に変換されて、入力受付部11がそれを受け付ける。そして、トリガワード検出部13が、記憶部19の音声辞書19aに格納された音声データと、入力受付部11の受け付け後に音響処理が施された音声信号との一致度を算出すると、スコア算出部14は、その一致度を例えば0〜100の数値に正規化することでスコアを算出する。表示制御部15は、算出されたスコアを、例えば0〜100のバー形式でスコア表示画面110aに表示する。
音声データと音声信号との一致度が充分でなくスコアが閾値未満であった場合、より高いスコアを得るためには、例えば滑舌を良くすることが有効であるかもしれないし、ゆっくり発話することが有効であるかもしれないし、声を大きくすることが有効であるかもしれない。ユーザは、スコア表示画面110aに表示されたスコアを参照しながら、より高いスコアを得るために様々な発話方法を試すことができる。リモートコントローラ119等を操作して、テレビジョン装置10の音量を下げてみてもよい。このとき、表示制御部15は、ユーザの音声の現在のスコアのほか、例えば過去に取得されたスコアの最大値をスコア表示画面110aに表示してもよい。
ところで、トリガワード検出部13は、音声データと音声信号との一致度を算出する際、音声データと音声信号とを、トリガワードが有する複数の要素に分解したうえで、それらの要素ごとに一致度を求める。スコア算出部14は、これらの複数の一致度からスコア表示画面110aに表示するためのスコアを算出する。スコアの算出には種々の方法が考えられる。
図5は、実施形態にかかるテレビジョン装置10によるスコア算出方法の幾つかの例を示す図である。図5の例では、説明を単純化するため、音声データと音声信号とが複数の音素1〜音素5に分解されて、一致度およびスコアが算出される場合を示す。ただし、音声データと音声信号とは、音素1〜音素5だけでなく、特徴および抑揚等の他の要素に関する情報を含んでいてもよく、これらの要素についても一致度およびスコアが算出されてもよい。
図5(a)(b)の左図に示すように、トリガワード検出部13は、例えば複数の音素1〜音素5の音声信号における出現確率Xを求める。これらの出現確率Xは、音声信号を音声データと比較することにより得られた数値であり、上述の音声信号と音声データとの一致度に相当する。図5(a)(b)の左図の例では、出現確率Xは例えば0〜1.00までの数値で表されている。
図5(a)(b)の右図に示すように、スコア算出部14は、これらの出現確率Xについて正規化したスコアである計算結果Yを算出する。このとき、スコア算出部14は、例えば以下の式(1)(2)を用いて出現確率Xを正規化する。
以下の式(1)は、例えば出現確率X等の一致度Xnが閾値Tn未満である場合に適用される。
Figure 2021089376
以下の式(2)は、例えば出現確率X等の一致度Xnが閾値Tn超である場合に適用される。
Figure 2021089376
上記の式(1)(2)によれば、一致度Xnを正規化した計算結果Ynとして0〜100までの範囲内の数値が求まる。なお、一致度Xnが閾値Tnと同値である場合には、式(1)(2)のいずれを用いても計算結果Ynは同じになる。
ここで、音声信号と音声データとはL個の要素を含み、L個の一致度Xnについて、それぞれ、一致度Xnが取り得る最大値An及び一致度Xnが満たすべき閾値Tnが設定されているものとする。つまり、或る要素の一致度Xnが閾値Tn以上であれば、その要素については、音声信号が音声データと一致していると判定される。そして、上記の式(1)または式(2)に、適宜、1〜Lまでの要素の一致度Xn及び閾値Tnが代入されて、L個の計算結果Ynが求められる。
図5(a)(b)の右図の例は、全ての出現確率Xについての閾値Tが0.90であるものとし、全ての出現確率Xが取り得る最大値Aが1.00であるものとして得られた計算結果Yである。スコア算出部14は、これらの計算結果Yに基づき、スコア表示画面110aに表示させるスコアを得る。上述のように、それには幾つかの方法がある。
図5(a)の例では、スコア算出部14は、音素1〜音素5について得られた計算結果Yのうちの最小値である音素5の計算結果30を、スコア表示画面110aに表示させるスコアとして採用する。
図5(b)の例では、スコア算出部14は、音素1〜音素5について得られた計算結果Yのうち50超となった、音素1の計算結果75と音素3の計算結果60とについて、図5(b)右下に示すように、50を超える部分を端数として切り捨てて計算結果50とする。そのうえで、音素1〜音素5についての計算結果Yの平均値44を、スコア表示画面110aに表示させるスコアとして採用する。
なお、スコア算出部14によるスコアの求め方は、図5(a)(b)の例に限られない。ユーザが、トリガワードの検出に必要なスコアと自身のスコアとの差を直感的に把握でき、より高いスコアを得るための指標とすることが可能なスコアであれば、どのような方法を用いて算出されてもよい。
(テレビジョン装置のトリガワード検出処理)
次に、図6を用いて、実施形態のテレビジョン装置10におけるトリガワード検出処理の例について説明する。図6は、実施形態にかかるテレビジョン装置10におけるトリガワード検出処理の手順の一例を示すフロー図である。
図6に示すように、入力受付部11は、ユーザによるテスト機能の使用指示を受け付ける(ステップS101)。すなわち、ユーザが操作部111またはリモートコントローラ119を操作してテスト機能の開始を指示すると、入力部11がその指示を受け付けて(ステップS101:Yes)、テスト機能設定部12がテスト機能の設定を有効とし、表示制御部15が表示パネル110にスコア表示画面110aを表示する(ステップS102)。ユーザによるテスト機能の開始指示がなかった場合には(ステップS101:No)、ステップS102の処理を行うことなくステップS103の処理へと進む。
入力受付部11は、ユーザの発話による音声信号を受け付ける(ステップS103)。ユーザにより何らかの発話がなされるまで、入力受付部11は待機する(ステップS103:No)。ユーザがテレビジョン装置10のマイクロフォン117に向かって発話すると、マイクロフォン117から取得された音声がオーディオI/F118により音声信号に変換される。入力受付部11がその音声信号を取得すると(ステップS103:Yes)、トリガワード検出部13は、音声辞書19aを参照して、音声辞書19aに格納される音声データと、ユーザの発話による音声信号との一致度を算出する(ステップS104)。
スコア算出部14は、テスト機能の設定が有効になっているか否かを確認する(ステップS105)。テスト機能の設定が有効であれば(ステップS105:Yes)、スコア算出部14は算出された一致度に基づきスコアを算出する(ステップS106)。また、表示制御部15は、算出されたスコアを表示パネル110のスコア表示画面110aに表示する(ステップS107)。テスト機能の設定が有効になっていなければ(ステップS105:No)、ステップS106〜S107の処理が行われることなくステップS108の処理へと進む。
トリガワード検出部13は、音声データと音声信号とについての全ての要素の一致度が閾値以上であるか否かを判定する(ステップS108)。音声データと音声信号とについて一致度が閾値未満の要素があるときは(ステップS108:No)、トリガワード検出部13は、音声信号はトリガワードではないものとしてトリガワードの検出処理を行わず、ステップS103からの処理が繰り返される。
音声データと音声信号とについての全ての一致度が閾値以上である場合には(ステップS108:Yes)、トリガワード検出部13は、音声信号がトリガワードを含むものであるとしてトリガワードの検出を行う(ステップS109)。アプリケーション実行部17は、音声認識サービス提供アプリケーションを起動して音声認識サービスを開始する(ステップS110)。
以上により、実施形態のテレビジョン装置10におけるトリガワード検出処理が終了する。
近年、音声認識機能を備えるテレビジョン装置等が知られている。トリガワードを検出すると、テレビジョン装置は音声認識サービスの提供を開始する。ユーザの発話の仕方および周囲の環境等によって、このトリガワードの検出精度が低下する場合がある。
このような場合、ユーザは、テレビジョン装置にトリガワードを検出させようと、声を大きくしたり、ゆっくり発話したりと種々の試行錯誤を繰り返すこととなる。しかしながら、ユーザは、このような試行錯誤のうち何が有効であるかを、音声認識サービスの提供開始によってしか判断することができない。
実施形態のテレビジョン装置10によれば、音声データに対する音声信号のスコアを算出し、そのスコアを表示パネル110に表示させる。これにより、ユーザは、スコアの変動の様子を参照しつつ試行を重ねることで、自身の音声がトリガワードとして検出されやすくなる方向性を容易に見極めることができる。このように、実施形態のテレビジョン装置10は、トリガワードを検出させるために試行するユーザの判断を支援することができる。
実施形態のテレビジョン装置10によれば、音声データと音声信号との一致度を正規化してスコアを算出する。トリガワードを検出するため、例えばトリガワード検出部13は、音声データと音声信号との一致度を算出する。しかしながら、このような一致度は多岐の内容に亘る様々な要素について算出される。このため、例えば算出された一致度をそのままユーザに提示しても、ユーザが容易にその内容を理解し、自身の試みがトリガワードの検出に近付いているのか否か把握することが困難である。テレビジョン装置10は、このような一致度を正規化してユーザに提示するので、ユーザが直感的にその内容を理解し、より高いスコアを得るための指標とすることができる。
(変形例1)
次に、図7を用いて、実施形態の変形例1のテレビジョン装置について説明する。変形例1のテレビジョン装置は、算出したスコアを音素ごとに表示する点が、上述の実施形態とは異なる。
図7は、実施形態の変形例1にかかるテレビジョン装置が表示するスコア表示画面110bの一例を示す図である。図7に示すように、変形例1のテレビジョン装置が備える表示制御部は、スコア算出部が音声データに含まれる音素ごとに算出した音声信号のスコアをスコア表示画面110bに表示する。
これにより、ユーザは、自身の発話のウィークポイントを見極めることができる。例えば、図7に示す例では、ユーザの音声中、「え」及び「び」の音素のスコアが低いことが判る。このユーザは、例えば1語1語の語尾に留意することで、スコアを高めて自身の音声をトリガワードとして検出させることができるかもしれない。
(変形例2)
次に、図8〜図10を用いて、実施形態の変形例2のテレビジョン装置30について説明する。変形例2のテレビジョン装置30は、算出したスコアとともに、ユーザに対するアドバイスを表示する点が、上述の実施形態とは異なる。
図8は、実施形態の変形例2のテレビジョン装置30の機能構成の一例を示す図である。図8に示すように、変形例2のテレビジョン装置30は、上述の実施形態のテレビジョン装置10の構成に替えて表示制御部35を備え、更に音量判定部31を備える。
例えばテスト機能の設定が有効である場合、音量判定部31はテレビジョン装置30のスピーカの音量設定が所定値を超えているか否かを判定する。表示制御部35は、音量設定が所定値を超えていた場合には、算出したスコアとともに、音量設定を下げることをユーザに促すメッセージを表示する。
図9は、実施形態の変形例2にかかるテレビジョン装置30が表示するスコア表示画面110cの一例を示す図である。図9に示すように、スコア表示画面110cには、“テレビの音が大きすぎるようです。音量設定を10以下にしてみましょう。”などとのメッセージが表示される。
トリガワードが検出され難くなることの最も明確で大きな要因の1つは、テレビジョン装置のスピーカが発する音である。音量設定を下げることを促すメッセージを表示させることで、ユーザが、テレビジョン装置30の音量が検出精度を低下させている可能性に気づくことができ、トリガワードが検出されやすくなる。
また、変形例2のテレビジョン装置30が備える表示制御部35は、スコアを高めてトリガワードを検出させやすくするためのアドバイスを、ランダムに、あるいは、所定の順番で表示させてもよい。
図10は、実施形態の変形例2にかかるテレビジョン装置30が表示するスコア表示画面110dの他の例を示す図である。図10に示すように、スコア表示画面110dには、“はっきりと発話してみましょう。”“ゆっくり発話してみましょう。”“大きな声で発話してみましょう。”などの、トリガワードが検出されない一般的な要因を解消するようなメッセージが、例えば次々に流動表示される。
これにより、例えばユーザが思いつかなかった試みを提示して、ユーザの音声がトリガワードとして検出されるための一助とすることができる。
(変形例3)
次に、図11を用いて、実施形態の変形例3のテレビジョン装置について説明する。変形例3のテレビジョン装置は、複数のトリガワードについてスコアを表示する点が、上述の実施形態とは異なる。
図11は、実施形態の変形例3にかかるテレビジョン装置が表示するスコア表示画面110eの一例を示す図である。図11に示すように、変形例3のテレビジョン装置には、「ねえ、テレビ」「もしもし、テレビ」「ハロー、テレビ」などの複数のトリガワードが設定されている。そして、変形例3のテレビジョン装置のスコア算出部は、これらのトリガワードについて、それぞれスコアを算出する。表示制御部は、複数のトリガワードについてのスコアをスコア表示画面110eに表示する。
ユーザは、“「ねえ、テレビ」と 発話してください。”等の所定のトリガワードの発話を促すスコア表示画面110e上のメッセージにしたがって、例えばそれぞれのトリガワードを発話し、それらに対するスコアを参照することができる。図11に示す例では、複数のトリガワード中、ユーザは、「もしもし、テレビ」というトリガワードにおいて最も高いスコアを獲得している。そこで、このユーザが複数のトリガワードの中から「もしもし、テレビ」というトリガワードの使用を選択することで、自身の音声をトリガワードとして検出させることが容易になるかもしれない。
なお、上述の実施形態および変形例1〜3では、テレビジョン装置10等の外部機器である音声認識サーバ20が、主要な音声認識サービスを提供することとしたが、実施形態の構成はこれに限られない。テレビジョン装置10等が、自身で音声認識サービスの全般に関わる機能を有しており、独立して、音声認識サービスを提供してもよい。
また、上述の実施形態および変形例1〜3では、音声認識機能を備える情報処理装置がテレビジョン装置10等であることとしたが、実施形態の構成はこれに限られない。例えば、音声認識機能を備える情報処理装置または通信装置が、スマートスピーカ等のような他の機器であってもよい。情報処理装置がスマートスピーカである場合、音声データに対する音声信号のスコアを表示させる表示部は、スマートスピーカに取り付けた別体のモニタ等であってもよい。
なお、テレビジョン装置10等に上述の各種機能を実現させるプログラムは、インストール可能な形式または実行可能な形式のコンピュータプログラムプロダクトとして提供される。すなわち、上記プログラムは、CD−ROM、フレキシブルディスク(FD)、CD−R、DVDなどの、非一時的で、コンピュータで読み取り可能な記録媒体を有するコンピュータプログラムプロダクトに含まれた状態で提供される。
また、上記プログラムは、インターネットなどのネットワークに接続されたコンピュータに格納された状態で、ネットワーク経由で提供または配布されてもよい。上記プログラムは、ROMなどに予め組み込まれた状態で提供されてもよい。
このようなプログラムをテレビジョン装置10等にインストールすることにより、テレビジョン装置10等のCPUがROMからプログラムを読み出して、RAM上に上記の各機能構成が展開される。
ただし、上記プログラムはクラウドサーバ等に格納されたウェブアプリケーションとして提供されてもよく、この場合、プログラムはテレビジョン装置10等にインストールされることなく実行される。
本発明の実施形態について説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…音声認識システム、10,30…テレビジョン装置、11…入力受付部、12…テスト機能設定部、13…トリガワード検出部、14…スコア算出部、15,35…表示制御部、16…アプリケーション実行部、17…機器制御部、18…通信部、19…記憶部、19a…音声辞書、20…音声認識サーバ、31…音量判定部、40…ネットワーク。

Claims (15)

  1. 音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、
    音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、
    前記スコアを表示部に表示させる表示制御部と、を備える、
    情報処理装置。
  2. 前記スコア算出部は、
    前記音声データと前記音声信号との一致度を正規化して前記スコアを算出する、
    請求項1に記載の情報処理装置。
  3. 前記音声信号から前記トリガワードを検出するトリガワード検出部を備え、
    前記トリガワード検出部は、
    前記音声データと前記音声信号とを複数の要素に分解し、前記複数の要素について前記一致度を算出し、前記一致度に基づいて前記音声信号から前記トリガワードを検出する、
    請求項2に記載の情報処理装置。
  4. 前記スコア算出部は、
    前記複数の要素ごとの前記一致度のそれぞれに対して前記スコアを算出する、
    請求項3に記載の情報処理装置。
  5. 前記表示制御部は、
    前記スコアのうち、最小のスコアを前記表示部に表示させる、
    請求項4に記載の情報処理装置。
  6. 前記表示制御部は、
    前記一致度のそれぞれに対して算出された前記スコアを前記表示部に表示させる、
    請求項4に記載の情報処理装置。
  7. 前記表示制御部は、
    前記一致度のそれぞれに対して算出された前記スコアの平均値を前記表示部に表示させる、
    請求項4に記載の情報処理装置。
  8. 前記複数の要素は、
    前記トリガワードに含まれる音素である、
    請求項3乃至請求項7のいずれか1項に記載の情報処理装置。
  9. 前記スコア算出部は、
    複数の前記トリガワードについて前記スコアを算出する、
    請求項1乃至請求項8のいずれか1項に記載の情報処理装置。
  10. 前記表示制御部は、
    複数の前記トリガワードについて算出された前記スコアを前記表示部に表示させる、
    請求項9に記載の情報処理装置。
  11. 前記表示制御部は、
    前記スコアを高めるためのアドバイスを前記表示部に表示させる、
    請求項1乃至請求項10のいずれか1項に記載の情報処理装置。
  12. 前記取得部は、
    前記表示部に前記スコアを表示させる指示の入力を受け付ける、
    請求項1乃至請求項11のいずれか1項に記載の情報処理装置。
  13. 前記音声信号から前記トリガワードが検出されると前記音声認識サービスを開始させるアプリケーション実行部を備える、
    請求項1乃至請求項12のいずれか1項に記載の情報処理装置。
  14. 前記音声認識サービスは、
    ネットワークにより接続される音声認識サーバにより提供される、
    請求項1乃至請求項13のいずれか1項に記載の情報処理装置。
  15. コンピュータに、
    音声入力部に入力されたユーザの音声を音声信号として取得させ、
    音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出させ、
    前記スコアを表示部に表示させる、
    プログラム。
JP2019220035A 2019-12-05 2019-12-05 情報処理装置及びプログラム Active JP7248564B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019220035A JP7248564B2 (ja) 2019-12-05 2019-12-05 情報処理装置及びプログラム
CN202080005757.3A CN113228170B (zh) 2019-12-05 2020-10-26 信息处理装置及非易失性存储介质
PCT/CN2020/123669 WO2021109751A1 (zh) 2019-12-05 2020-10-26 信息处理装置及非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019220035A JP7248564B2 (ja) 2019-12-05 2019-12-05 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021089376A true JP2021089376A (ja) 2021-06-10
JP7248564B2 JP7248564B2 (ja) 2023-03-29

Family

ID=76220032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019220035A Active JP7248564B2 (ja) 2019-12-05 2019-12-05 情報処理装置及びプログラム

Country Status (3)

Country Link
JP (1) JP7248564B2 (ja)
CN (1) CN113228170B (ja)
WO (1) WO2021109751A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158493A (ja) * 1991-12-10 1993-06-25 Fujitsu Ltd 音声認識装置
JP2001005480A (ja) * 1999-06-23 2001-01-12 Denso Corp ユーザー発音判定装置及び記録媒体
JP2006011641A (ja) * 2004-06-23 2006-01-12 Fujitsu Ltd 情報入力方法及びその装置
US20140012586A1 (en) * 2012-07-03 2014-01-09 Google Inc. Determining hotword suitability
WO2018047421A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音声処理装置、情報処理装置、音声処理方法および情報処理方法
JP2019091472A (ja) * 2014-09-12 2019-06-13 アップル インコーポレイテッドApple Inc. 発語トリガを常時リッスンするための動的閾値
JP2019518985A (ja) * 2016-05-13 2019-07-04 ボーズ・コーポレーションBose Corporation 分散したマイクロホンからの音声の処理

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4654513B2 (ja) * 2000-12-25 2011-03-23 ヤマハ株式会社 楽器
JP2009124324A (ja) * 2007-11-13 2009-06-04 Sharp Corp 音響機器及び音響機器の制御方法
CN101266593A (zh) * 2008-02-25 2008-09-17 北京理工大学 一种基于网络收集意见的语音及音频质量主观评价方法
CN101547387A (zh) * 2008-03-26 2009-09-30 鸿富锦精密工业(深圳)有限公司 耳机及使用该耳机的音频播放系统
CN101630448B (zh) * 2008-07-15 2011-07-27 上海启态网络科技有限公司 语言学习客户端及系统
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US20160163226A1 (en) * 2013-07-19 2016-06-09 Benesse Corporation Information processing device, information processing method, and program
EP3089158B1 (en) * 2013-12-26 2018-08-08 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing
CN104575504A (zh) * 2014-12-24 2015-04-29 上海师范大学 采用声纹和语音识别进行个性化电视语音唤醒的方法
KR102420450B1 (ko) * 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
JP6608254B2 (ja) * 2015-11-25 2019-11-20 オリンパス株式会社 録音機器、アドバイス出力方法およびプログラム
CN105702253A (zh) * 2016-01-07 2016-06-22 北京云知声信息技术有限公司 一种语音唤醒方法及装置
JP6553111B2 (ja) * 2017-03-21 2019-07-31 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
BR112019002636A2 (pt) * 2017-08-02 2019-05-28 Panasonic Ip Man Co Ltd aparelho de processamento de informação, sistema de reconhecimento de fala e método de processamento de informação
CN107358954A (zh) * 2017-08-29 2017-11-17 成都启英泰伦科技有限公司 一种实时更换唤醒词的设备及方法
KR102485342B1 (ko) * 2017-12-11 2023-01-05 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
CN108538293B (zh) * 2018-04-27 2021-05-28 海信视像科技股份有限公司 语音唤醒方法、装置及智能设备
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109739354B (zh) * 2018-12-28 2022-08-05 广州励丰文化科技股份有限公司 一种基于声音的多媒体交互方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158493A (ja) * 1991-12-10 1993-06-25 Fujitsu Ltd 音声認識装置
JP2001005480A (ja) * 1999-06-23 2001-01-12 Denso Corp ユーザー発音判定装置及び記録媒体
JP2006011641A (ja) * 2004-06-23 2006-01-12 Fujitsu Ltd 情報入力方法及びその装置
US20140012586A1 (en) * 2012-07-03 2014-01-09 Google Inc. Determining hotword suitability
JP2019091472A (ja) * 2014-09-12 2019-06-13 アップル インコーポレイテッドApple Inc. 発語トリガを常時リッスンするための動的閾値
JP2019518985A (ja) * 2016-05-13 2019-07-04 ボーズ・コーポレーションBose Corporation 分散したマイクロホンからの音声の処理
WO2018047421A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音声処理装置、情報処理装置、音声処理方法および情報処理方法

Also Published As

Publication number Publication date
WO2021109751A1 (zh) 2021-06-10
JP7248564B2 (ja) 2023-03-29
CN113228170A (zh) 2021-08-06
CN113228170B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10685652B1 (en) Determining device groups
JP6510117B2 (ja) 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体
JP4086280B2 (ja) 音声入力システム、音声入力方法及び音声入力プログラム
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR101605862B1 (ko) 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
WO2016194740A1 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
US11626104B2 (en) User speech profile management
JP2019184694A (ja) 会話ロボット
JP2019184809A (ja) 音声認識装置、音声認識方法
CN114402383A (zh) 电子设备及其控制语音识别的方法
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP2019003010A (ja) 音声応答装置、音声応答システム、音声応答方法及びプログラム
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP7248564B2 (ja) 情報処理装置及びプログラム
KR20210063698A (ko) 전자장치와 그의 제어방법, 및 기록매체
KR101859614B1 (ko) 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
JPWO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
JP2019053180A (ja) 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
US20240079007A1 (en) System and method for detecting a wakeup command for a voice assistant
CN110738995B (zh) 一种声音信号采集方法及装置
US12125483B1 (en) Determining device groups

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230316

R150 Certificate of patent or registration of utility model

Ref document number: 7248564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150