JP6915637B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6915637B2
JP6915637B2 JP2019041638A JP2019041638A JP6915637B2 JP 6915637 B2 JP6915637 B2 JP 6915637B2 JP 2019041638 A JP2019041638 A JP 2019041638A JP 2019041638 A JP2019041638 A JP 2019041638A JP 6915637 B2 JP6915637 B2 JP 6915637B2
Authority
JP
Japan
Prior art keywords
voice
excitement
degree
information processing
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019041638A
Other languages
English (en)
Other versions
JP2019124952A (ja
Inventor
真一 河野
真一 河野
祐平 滝
祐平 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2019124952A publication Critical patent/JP2019124952A/ja
Application granted granted Critical
Publication of JP6915637B2 publication Critical patent/JP6915637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、自然言語処理に関する技術が各種提案されている。例えば、下記特許文献1には、複数の語句のうちユーザに選択された語句に基いて文を作成する技術が開示されている。
また、音声認識に関する技術も各種提案されている。音声認識では、ユーザの発話時の音声を文字列に変換することができる。
特開2012−53634号公報
しかしながら、従来の技術は、例えば集音状況におけるユーザの興奮度によらずに、集音された音声に対して固定的に音声認識を行う。このため、従来の技術では、興奮度が反映された音声認識結果が得られなかった。
そこで、本開示では、集音状況における興奮度に適応的に音声認識を行うことが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、音声の集音状況における興奮度を示す情報を取得する取得部と、前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部と、を備える、情報処理装置が提供される。
また、本開示によれば、音声の集音状況における興奮度を示す情報を取得することと、前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識をプロセッサが行うことと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータを、音声の集音状況における興奮度を示す情報を取得する取得部と、前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部、として機能させるための、プログラムが提供される。
以上説明したように本開示によれば、集音状況における興奮度に適応的に音声認識を行うことができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本開示の実施形態による情報処理システムの構成例を示した説明図である。 本開示の比較例による音声認識の例を示した説明図である。 同実施形態によるサーバ10の構成例を示した機能ブロック図である。 同実施形態による音声認識の一例を示した説明図である。 同実施形態によるまとまりの決定例を示した説明図である。 同実施形態による処理の流れの一部を示したフローチャートである。 同実施形態による処理の流れの一部を示したフローチャートである。 同実施形態による処理の流れの一部を示したフローチャートである。 同実施形態による「認識方法制御処理」の流れを示したフローチャートである。 同実施形態による「第1の音声認識処理」の流れを示したフローチャートである。 同実施形態によるサーバ10のハードウェア構成例を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じてサーバ10aおよびサーバ10bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、サーバ10aおよびサーバ10bを特に区別する必要が無い場合には、単にサーバ10と称する。
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.情報処理システムの構成
2.実施形態の詳細な説明
3.ハードウェア構成
4.変形例
<<1.情報処理システムの構成>>
まず、本開示の実施形態による情報処理システムの構成について、図1を参照して説明する。図1に示すように、当該情報処理システムは、サーバ10、端末20、および、通信網22を含む。
<1−1.端末20>
端末20は、ユーザが使用する情報処理端末である。例えば、端末20は、ユーザの発話などの音を集音したり、表示画面を表示することが可能である。
この端末20は、図1に示すように、例えば、集音部200、および、操作表示部202を含む。集音部200は、例えばマイクロフォンである。集音部200は、外部の音(空気振動)を検出し、そして、電気信号に変換する。
操作表示部202は、表示画面を表示する表示部、および、ユーザによるタッチ操作を検出する操作部を含む。当該表示部は、例えば、LCD(Liquid Crystal Display)装置やOLED(Organic Light Emitting Diode)装置により構成される。また、当該操作部は、例えばタッチパネルにより構成される。
また、端末20は、後述する通信網22を介して他の装置と通信することが可能である。例えば、端末20は、集音部200により集音された音声データを、通信網22を介してサーバ10へ送信する。なお、端末20は、例えば一回の音声入力時の音声データをまとめてサーバ10へ送信してもよいし、または、所定の時間間隔で、当該時間に集音された音声のみをサーバ10へ逐次的に(例えばリアルタイムに)送信してもよい。
{1−1−1.変形例}
なお、図1では、端末20がスマートフォンである例を示しているが、かかる例に限定されない。例えば、端末20は、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォン以外の電話機、携帯型音楽プレーヤ、テレビジョン受信機、ロボット、または、例えばHMD(Head Mounted Display)、ヘッドセット、または、スマートウォッチなどのウェアラブルデバイスであってもよい。
また、端末20の構成は上述した例に限定されない。例えば、端末20は操作表示部202を有しなくてもよい。この場合、上述した表示部および上述した操作部を含む他の装置(図示せず)が通信網22に接続され得る。なお、当該表示部と当該操作部とは同一の装置に含まれてもよいし、または、別々の装置に含まれてもよい。
<1−2.サーバ10>
サーバ10は、本開示における情報処理装置の一例である。サーバ10は、音声認識機能を有する。例えば、サーバ10は、通信網22を介して端末20から受信される音声データに対して音声認識(クラウド音声認識)を行うことが可能である。また、サーバ10は、音声認識結果から得られる文字列群に対して各種の言語処理を行うことが可能である。ここで、文字列群は、一以上の文字列である。
また、サーバ10は、当該文字列群に対する言語処理の結果に基づいて、当該文字列群に関して一以上のまとまりを決定することが可能である。さらに、サーバ10は、決定した一以上のまとまりを端末20に表示させるための制御を行うことが可能である。ここで、まとまりは、一以上の文字から構成される。例えば、まとまりは、一以上の語から構成され得る。より具体的には、言語が英語やドイツ語などである場合には、まとまりは一以上の単語から構成され得る。また、言語が日本語である場合には、まとまりは一以上の文節から構成され得る。
<1−3.通信網22>
通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
<1−4.課題の整理>
以上、本実施形態による情報処理システムの構成について説明した。ここで、本実施形態の特徴をより明確に示すために、本開示の比較例による音声認識の方法について説明する。本比較例は、集音された音声に対して、常に音響モデルおよび言語モデルの両方を用いて音声認識を行う。しかしながら、例えば、認識対象の音声の中に「叫ぶような発話」が含まれる場合には、本比較例では誤認識が生じる可能性が高いという問題がある。
ここで、図2を参照して、上記の内容についてより詳細に説明する。図2は、本比較例による音声認識の例を示した説明図である。図2に示した例では、まず、“What a coooooooooooooooooooooooooool game”という発話30がユーザによりなされたとする。この発話30は、図2に示した音量の波形32のように、“coooooooooooooooooooooooooool”に対応する区間において、ユーザが叫んでいるように一時的に音量が大きくなる発話である。この場合、本比較例は、発話30の音声データ全てに対して音響モデルおよび言語モデルを用いて音声認識を行い、文字列群34に変換する。つまり、本比較例は、「叫ぶような発話」と、それ以外の発話とを区別せずに、常に音響モデルおよび言語モデルを用いて音声認識を行う。これにより、文字列群34に示したように、特に「叫ぶような発話」およびその直前や直後の音声が誤認識され得る。
さらに、本比較例は、文字列群34に対して言語処理を行い、そして、言語処理の結果に基いて2個のまとまり400を決定する。図2に示したように、2個のまとまり400はともに、誤認識された文字列を含む。その結果、例えば、まとまりごとに文字列を編集するアプリケーションにおいて、発話時の意図通りに文字列群34を修正することをユーザが希望する場合、ユーザは、例えば2個のまとまり400をともに削除しなければならないなど、修正の手間が大きい。
そこで、上記事情を一着眼点にして、本実施形態によるサーバ10を創作するに至った。本実施形態によるサーバ10は、音声の集音状況における興奮度を示す情報を取得し、そして、当該興奮度を示す情報に基いて、当該音声の音素に基づいた第1の音声認識、もしくは、当該第1の音声認識とは異なる第2の音声認識を行う。このため、ユーザの興奮度に応じて音声認識方法を動的に変更することができる。例えば、集音された音声データに含まれる「叫ぶような発話」と、それ以外の発話とで音声認識方法を異ならせて音声認識を行うことができる。
<<2.実施形態の詳細な説明>>
<2−1.構成>
次に、本実施形態による構成について詳細に説明する。図3は、本実施形態によるサーバ10の構成例を示した機能ブロック図である。図3に示すように、サーバ10は、制御部100、通信部120、および、記憶部122を有する。
{2−1−1.制御部100}
制御部100は、サーバ10に内蔵される、例えば、後述するCPU(Central Processing Unit)150や、後述するRAM(Random Access Memory)154などのハードウェアを用いて、サーバ10の動作を統括的に制御する。また、図3に示すように、制御部100は、興奮度特定部102、音声認識部104、および、まとめ部110を有する。また、音声認識部104は、特徴抽出部106、および、認識部108を有する。
{2−1−2.興奮度特定部102}
興奮度特定部102は、本開示における取得部の一例である。興奮度特定部102は、例えば端末20から音声データが受信された場合などに、当該音声データの集音状況における興奮度を示す情報を取得する。ここで、当該音声データの集音状況は、基本的には、当該音声データの集音時の状況であるが、かかる例に限定されず、当該音声データの集音時の直前や直後の状況であってもよい。また、当該音声データは、端末20を所持するユーザの発話の音のみを含んでもよいし、例えば当該ユーザの周囲に位置する別のユーザの発話の音のみを含んでもよいし、または、当該ユーザの音声および当該別のユーザの音声の両方を含んでもよい。
(2−1−2−1.音量)
ここで、当該興奮度を示す情報は、当該音声データの音の属性情報(例えば音量や、音の周波数など)を含み得る。例えば、興奮度特定部102は、当該音の音量の検出に基いて当該興奮度を特定する。例えば、興奮度特定部102は、検出された当該音の音量が大きいほど当該興奮度がより大きくなるように、当該興奮度を特定する。
(2−1−2−2.スパイク)
また、当該興奮度を示す情報は、当該音声データに関する音量やピッチの変化の程度を示す情報を含み得る。例えば、短時間において音量やピッチが急激に大きくなること(つまり、スパイクが強いこと)が検出された場合には、興奮度特定部102は、例えば該当の期間のみ、当該興奮度が第1の閾値よりも大きい値であると特定する。
(2−1−2−3.発話の特徴)
また、当該興奮度を示す情報は、ユーザの過去の発話の学習結果から得られる音声の特徴と、当該音声データの特徴との差異に関する情報を含み得る。この場合、ユーザの過去の発話のデータが予め蓄積され、そして、当該ユーザの発話の音の特徴(例えば、音量と音の周波数特性との組み合わせに関する特徴など)が予め学習され得る。そして、興奮度特定部102は、当該音声データの特徴と、当該学習結果から得られる特徴とを比較することにより当該興奮度を特定する。例えば、興奮度特定部102は、当該音声データの特徴と、当該学習結果から得られる特徴との差異を示す値の絶対値が大きいほど当該興奮度がより大きくなるように、当該興奮度を特定する。つまり、該当の発話が当該ユーザの普段の発話と大きく異なると判定される場合には、当該興奮度は一定以上大きい値に設定され得る。
(2−1−2−4.別のユーザの盛り上がり)
また、当該興奮度を示す情報は、該当の音声の発話者とは別のユーザの状態に関する情報を含み得る。ここで、別のユーザの状態に関する情報は、当該音声の集音時における、例えば、当該発話者が利用中のコンテンツ(例えばテレビジョン番組、映画、音楽など)やサービス(例えばSNS(Social Networking Service)やオンラインゲームなど)における別のユーザの盛り上がりの程度の検出結果を含み得る。なお、例えば、当該音声の集音時における、所定のサービスに参加中の別のユーザの表情(笑っているか否かなど)や笑っているユーザの人数の検出結果や、別のユーザの発話状況(発話の音量が所定の閾値よりも大きいか否かや、笑い声が検出されるか否かなど)の検出結果などに基いて、別のユーザの盛り上がりの程度は特定され得る。または、別のユーザが例えばSNSに投稿した文章の意味解析の結果に基いて、別のユーザの盛り上がりの程度が特定されてもよい。
また、別のユーザの状態に関する情報は、当該発話者の周囲(例えば同じ施設内や、屋外における所定の区域内など)に位置する別のユーザの盛り上がりの検出結果を含み得る。この場合、例えば、別のユーザの発話の検出結果や、別のユーザの表情の画像解析の結果などに基いて、別のユーザの盛り上がりの程度が検出され得る。
例えば、興奮度特定部102は、別のユーザの盛り上がりの程度がより大きいと検出されるほど当該興奮度がより大きくなるように、当該興奮度を特定する。なお、該当の音声の発話者は、本開示における第1のユーザの一例であり、また、別のユーザは、本開示における第2のユーザの一例である。
(2−1−2−5.発話者の生体情報)
また、当該興奮度を示す情報は、該当の音声の発話者の生体情報を含み得る。ここで、生体情報は、例えば、体温、脈拍数、呼吸速度、血圧、瞳孔(または目)の開き具合、脳波、および/または、発汗量などを含み得る。例えば、興奮度特定部102は、予め定められた、当該発話者の生体情報が示す値と興奮度との関係性に基いて当該興奮度を特定する。一例として、当該発話者の脈拍数や血圧が大きいほど当該興奮度がより大きくなるように、興奮度特定部102は、当該興奮度を特定する。また、当該発話者の瞳孔の開き具合が大きいほど当該興奮度がより大きくなるように、興奮度特定部102は、当該興奮度を特定する。
(2−1−2−6.発話者の行動情報)
また、当該興奮度を示す情報は、該当の音声の発話者の行動状況に関する情報を含み得る。例えば、当該興奮度を示す情報は、当該発話者による所定の機器(例えば端末20やゲームコントローラなど)の操作状況を示す情報を含み得る。例えば、発話時において、当該発話者がゲームコントローラを連打していたり、素早く動かしていたり、または、大きく動かしていることなどが検出された場合には、興奮度特定部102は、当該興奮度が第1の閾値よりも大きい値であると特定する。
(2−1−2−7.組み合わせ)
また、興奮度特定部102は、上述した複数の種類の情報の組み合わせに基いて、当該興奮度を特定することも可能である。例えば、当該音声データに含まれる発話の音量が小さくても、他の種類の情報から興奮度が高いことが特定される場合には、興奮度特定部102は、当該興奮度が第1の閾値よりも大きい値であると特定し得る。
{2−1−3.特徴抽出部106}
特徴抽出部106は、端末20から受信される音声データを分析することにより、所定の特徴量を抽出する。例えば、特徴抽出部106は、当該音声データに含まれる音声信号に対してフーリエ変換および離散コサイン変換などを適用することにより、例えばMFCC(Mel−Frequency Cepstral Coefficient)などの特徴量を抽出する。
{2−1−4.認識部108}
(2−1−4−1.認識例1)
認識部108は、特徴抽出部106により抽出された特徴量と、興奮度特定部102により特定された興奮度とに基いて、受信された音声データの認識を行う。例えば、認識部108は、特定された興奮度と第1の閾値とを比較することにより、当該音声データに対して、当該音声データの音素に基づいた第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定する。一例として、当該興奮度が第1の閾値よりも大きい場合には、認識部108は、当該音声データに対して第1の音声認識を行う。また、当該興奮度が第1の閾値以下である場合には、認識部108は、当該音声データに対して第2の音声認識を行う。
例えば、当該音声データに関して短時間において一時的に音量が第1の閾値よりも大きくなり、かつ、その後音量が第1の閾値以下になることが検出された場合には、認識部108は、当該音声データのうち、当該短時間に対応する音声に対してのみ第1の音声認識を行い、そして、それ以外の音声に対しては第2の音声認識を行ってもよい。
ここで、第1の音声認識は、例えば、音響モデルを使用し、かつ、言語モデルを使用しない音声認識である。また、第2の音声認識は、当該音声データの音素、および、複数の文字列のつながりに関する確率に基づいた音声認識であり得る。例えば、第2の音声認識は、音響モデル、言語モデル、および、辞書DB124を使用する音声認識である。ここで、音響モデルは、ある文字列(単語など)がどのような音となって現れやすいかをモデル化したものである。例えば、音響モデルは、隠れマルコフモデルなどを用いて生成され得る。また、言語モデルは、特定の言語においてある複数の文字列(単語列など)がどのくらいの確率で現れるかをモデル化したものである。例えば、言語モデルは、N−gramや文脈自由文法などを用いて生成され得る。また、辞書DB124は、複数の文字列(単語など)の各々に関して、当該文字列と音素列との対応関係が格納されたデータベースである。辞書DB124は、例えば記憶部122に記憶され得る。
(2−1−4−2.認識例2)
または、認識部108は、当該興奮度が第1の閾値よりも大きい継続時間の長さに基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定することも可能である。例えば、認識部108は、当該継続時間の長さと第2の閾値との比較に基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定する。一例として、当該継続時間の長さが第2の閾値よりも大きい場合には、認識部108は、当該音声データのうち、当該継続時間に対応する第1の音声に対して第1の音声認識を行い、かつ、第1の音声以外の音声に対して第2の音声認識を行う。また、当該継続時間の長さが第2の閾値以下である場合には、認識部108は、当該音声データ全体に対して第2の音声認識を行う。
‐具体例
ここで、図4を参照して、上記の機能についてより詳細に説明する。図4は、図2に示した発話30の音声データに対する、認識部108による音声認識の例を示した説明図である。図4に示したように、発話30の音声データのうち、“coooooooooooooooooooooooooool”に対応する音声(以下、「音声A」と称する)の音量は第1の閾値Vtよりも大きく、かつ、音声A以外の音声の音量はVt以下とする。また、音声Aに対応する時間の長さは第2の閾値よりも大きいものとする。
この場合、認識部108は、音声Aに対して第1の音声認識を行う。具体的には、認識部108は、まず、音声Aに関する音素の検出結果に基いて、認識結果の文字列を取得する。図4に示したように、当該文字列は、例えば「o」に対応する音素が継続する時間の長さに対応する当該音素の数だけ「o」が連続に並べられた文字列を含む。さらに、認識部108は、当該認識結果の文字列の最後に例えば「!」などの所定の文字を一以上追加することにより、文字列群360bを得る。
さらに、認識部108は、受信された音声のうち、音声A以外の音声(つまり“What a”や“game”に対応する音声)に対して第2の音声認識を行い、文字列群360aおよび文字列群360cに変換する。この認識方法によれば、例えば「叫ぶような発話」と、それ以外の発話とを区別して音声認識することができるので、誤認識を減少させることができる。
(2−1−4−3.認識例3)
または、認識部108は、当該興奮度と第1の閾値との比較結果と、当該音声データに関して同一の音素が継続する時間の長さとに基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定することも可能である。例えば、認識部108は、当該興奮度が第1の閾値よりも大きい期間における同一の音素が継続する時間の長さと第2の閾値との比較に基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定する。
一例として、当該興奮度が第1の閾値よりも大きい期間において同一の音素が継続する時間の長さが第2の閾値よりも大きい場合には、認識部108は、当該音声データのうち、当該同一の音素が継続する時間に対応する第3の音声に対して第1の音声認識を行い、かつ、第3の音声以外の音声に対して第2の音声認識を行う。例えば、言語が英語やドイツ語などである場合には、認識部108は、当該同一の音素が継続する時間の長さに対応する当該音素の数だけ、当該音素に対応する文字が連続に並んだ文字列を、第1の音声認識の結果の一部として出力する。また、言語が日本語である場合には、認識部108は、当該同一の音素が継続する時間の長さに対応する当該音素の数だけ、文字「ー」が連続に並んだ文字列を、第1の音声認識の結果の一部として出力する。
また、当該興奮度が第1の閾値よりも大きい期間において同一の音素が継続する時間の長さが第2の閾値以下である場合には、認識部108は、当該音声データ全体に対して第2の音声認識を行ってもよい。
{2−1−5.まとめ部110}
まとめ部110は、認識部108による認識結果から得られる文字列群に基いて、一以上のまとまりを決定する。例えば、まとめ部110は、第1の音声認識の結果に対応する文字列群と、第2の音声認識の結果に対応する文字列群とがそれぞれ別々のまとまりに含まれるように、複数のまとまりを決定する。
一例として、まとめ部110は、個々の第1の音声認識の結果に対応する文字列群をそれぞれ一つのまとまりとして決定する。また、まとめ部110は、第2の音声認識の結果に対応する文字列群に関しては、所定の設定基準に基いて一以上のまとまりを決定する。ここで、所定の設定基準は、例えば、一つのまとまりに含まれる単語の数に関する制約条件(例えば単語の数が5以下など)であってもよいし、または、一つのまとまりに含まれる文字数に関する制約条件(例えば30文字以下など)であってもよい。
ここで、図5を参照して、上記の機能についてより詳細に説明する。図5は、図4に示した文字列群36に基いて複数のまとまり400が決定される例を示した説明図である。図5に示したように、まとめ部110は、第1の音声認識の結果から得られた文字列群360bを一つのまとまり400bとして決定する。また、まとめ部110は、第2の音声認識の結果から得られた文字列群360aおよび文字列群360cに関して、所定の設定基準に基いてまとまり400a、および、まとまり400cをそれぞれ決定する。
{2−1−6.通信部120}
通信部120は、例えば通信網22を介して他の装置との間で情報の送受信を行う。例えば、通信部120は、音声データを端末20から受信する。また、通信部120は、制御部100の制御に従って、まとめ部110により決定された一以上のまとまりを表示させるための制御情報を端末20へ送信する。
{2−1−7.記憶部122}
記憶部122は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部122は、辞書DB124を記憶する。
<2−2.処理の流れ>
以上、本実施形態の構成について説明した。次に、本実施形態による処理の流れについて、図6〜図10を参照して説明する。なお、以下では、ユーザが端末20に対して文字列群を音声入力する場面における処理の流れの例について説明する。また、以下では、「興奮度を示す情報」が音量である例について説明する。また、以下では、端末20が、一回の音声入力時の音声データをまとめてサーバ10へ送信する例について説明する。
{2−2−1.全体の流れ}
図6は、本実施形態による処理の流れの例の一部を示したフローチャートである。図6に示したように、まず、例えば端末20に対するユーザの所定の操作に基いて、端末20は音声入力アプリケーションを起動する(S101)。そして、ユーザは、端末20に対して発話し、そして、集音部200は、当該発話の音を集音する(S103)。
続いて、端末20は、集音された音声データをサーバ10へ送信する(S105)。
その後、サーバ10の音声認識部104は、解析対象の期間Tとして、ごく短い時間ΔTを設定する(S107)。
ここで、図7を参照して、S107より後の処理の流れについて説明する。図7に示したように、S107の後、音声認識部104は、S105で受信された音声データに関して、前回(つまりT−ΔTの期間において)検出された音量が第1の閾値よりも大きいか否かを判定する(S111)。なお、一回目に関しては、音声認識部104は、前回の音量が第1の閾値以下であると判定し得る。
前回の音量が第1の閾値よりも大きいと判定した場合には(S111:Yes)、次に、音声認識部104は、当該音声データに関して、今回(つまり期間Tにおいて)検出された音量が第1の閾値よりも大きいか否かを判定する(S113)。今回の音量が第1の閾値よりも大きいと判定した場合には(S113:Yes)、音声認識部104は、期間Tにおける音情報を、現在保存中の音情報に対して追加して保存する(S115)。なお、初期状態では、音情報は全く保存されていないものとする。
続いて、音声認識部104は、現在保存中の「音量が第1の閾値よりも大きい状態の継続時間」(以下、「音量大の状態の継続時間」と称する)に対してΔTを加算する(S117)。なお、初期状態では、音量大の状態の継続時間には「0秒」が設定されているものとする。その後、サーバ10は、後述するS141の処理を行う。
一方、今回の音量が第1の閾値以下であると判定した場合には(S113:No)、音声認識部104は、後述する「認識方法制御処理」を行う(S119)。その後、サーバ10は、後述するS141の処理を行う。
また、S111において、前回の音量が第1の閾値以下であると判定した場合には(S111:No)、次に、音声認識部104は、当該音声データに関して、今回検出された音量が第1の閾値よりも大きいか否かを判定する(S121)。今回の音量が第1の閾値よりも大きいと判定した場合には(S121:Yes)、音声認識部104は、現在保存中の音情報に対して第2の音声認識を行う(S123)。続いて、音声認識部104は、S123における認識結果から得られる文字列群を取得する(S125)。続いて、音声認識部104は、現在保存中の音情報をクリアする(S127)。続いて、音声認識部104は、音量大の状態の継続時間をΔTに設定する(S129)。その後、サーバ10は、後述するS141の処理を行う。
一方、今回の音量が第1の閾値以下であると判定した場合には(S121:No)、音声認識部104は、期間Tにおける音情報を、現在保存中の音情報に対して追加して保存する(S131)。その後、サーバ10は、後述するS141の処理を行う。
ここで、図8を参照して、S141以降の処理の流れについて説明する。図8に示したように、音声認識部104は、当該音声データの全てに対する音声認識が終了したか否かを判定する(S141)。当該音声データの全てに対する音声認識が終了していない場合には(S141:No)、音声認識部104は、TにΔTを加算する(S147)。その後、音声認識部104は、再びS111以降の処理を行う。
一方、当該音声データの全てに対する音声認識が終了した場合で(S141:Yes)、かつ、音声入力の終了の操作がユーザによりなされた場合には(S143:Yes)、端末20は、音声入力アプリケーションを終了する(S145)。そして、本処理は終了する。
一方、音声入力の終了の操作がなされない場合には(S143:No)、再びS103以降の処理が行われる。
{2−2−2.認識方法制御処理}
次に、図9を参照して、S119における「認識方法制御処理」の流れについて説明する。図9に示したように、まず、音声認識部104は、現在保存中の、音量大の状態の継続時間の長さが第2の閾値よりも大きいか否かを判定する(S201)。音量大の状態の継続時間の長さが第2の閾値よりも大きい場合には(S201:Yes)、音声認識部104は、後述する「第1の音声認識処理」を行う(S203)。その後、音声認識部104は、現在保存中の音情報、および、現在保存中の「音量大の状態の継続時間」をクリアする(S205)。
一方、音量大の状態の継続時間の長さが第2の閾値以下である場合には(S201:No)、音声認識部104は、現在保存中の音情報に対して第2の音声認識を行う(S207)。続いて、音声認識部104は、S207における認識結果から得られる文字列群を取得する(S209)。その後、音声認識部104は、S205の処理を行う。
{2−2−3.第1の音声認識処理}
次に、図10を参照して、S203における「第1の音声認識処理」の流れについて説明する。図10に示したように、まず、音声認識部104は、現在保存中の音情報から音素情報を抽出する(S301)。続いて、音声認識部104は、抽出した音素情報に基いて文字列群を特定し、そして、当該文字列群を取得する(S303)。その後、音声認識部104は、取得した文字列群に対して例えば「!」などの所定の文字を一以上追加する(S305)。
<2−3.効果>
{2−3−1.効果1}
以上説明したように、本実施形態によれば、サーバ10は、音声の集音状況における興奮度を示す情報を取得し、そして、当該興奮度を示す情報に基いて、当該音声に対して第1の音声認識、もしくは、第2の音声認識を行う。このため、例えば集音時における発話者や他のユーザの興奮度に応じて音声認識方法を動的に変更することができる。
例えば、当該音声に関して、音量が第1の閾値よりも大きい継続時間の長さが第2の閾値よりも大きい場合には、サーバ10は、当該音声のうち、当該継続時間に対応する音声に対しては第1の音声認識(つまり言語モデルを使用しない音声認識)を行い、かつ、それ以外の音声に対しては第2の音声認識(つまり言語モデルを使用する音声認識)を行う。このため、当該音声に含まれる例えば「叫ぶような発話」と、それ以外の発話とを区別して音声認識を行うことができるので、例えば本開示の比較例と比べて、誤認識を減少させることができる。
また、「叫ぶような発話」に対しては音響モデルのみを用いて音声認識を行うので、仮に誤認識した場合であっても、当該発話の雰囲気が伝わるような文字列群が音声認識結果として得られる。
{2−3−2.効果2}
また、例えば当該音声の音量が小さくても、ユーザの興奮度が高いことが特定される場合には、サーバ10は、集音された音声データに対して第1の音声認識を行う。このため、例えば大きい声を出すことをユーザが躊躇する状況下であっても、集音時においてユーザ(または他のユーザ)の興奮度が高いことが特定される場合には、サーバ10は、当該音声データを、興奮度が高いこと(または抱いている感情が強いこと)を示唆するような文字列群に変換することができる。従って、例えば本開示の比較例と比べて、より適切な音声認識結果が得られる。
{2−3−3.効果3}
また、サーバ10は、個々の第1の音声認識の結果に対応する文字列群をそれぞれ一つのまとまりとして決定することが可能である。これにより、例えば「叫ぶような発話」の認識結果と、それ以外の発話の認識結果とがそれぞれ別々のまとまりに含まれるように、複数のまとまりが決定され得る。その結果、例えばまとまりごとに文字列を編集するアプリケーションにおいて、ユーザによる文字列の修正作業が容易になり得るので、例えば音声認識結果が誤りを含む場合などにおいて利便性が高い。
<<3.ハードウェア構成>>
次に、本実施形態によるサーバ10のハードウェア構成について、図11を参照して説明する。図11に示すように、サーバ10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および、通信装置162を備える。
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ10内の動作全般を制御する。また、CPU150は、サーバ10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
RAM154は、例えば、CPU150により実行されるプログラムなどを一時的に記憶する。
バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、および、RAM154を相互に接続する。
インターフェース158は、ストレージ装置160および通信装置162を、バス156と接続する。
ストレージ装置160は、記憶部122として機能する、データ格納用の装置である。ストレージ装置160は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。
通信装置162は、例えば通信網22などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置162は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または、有線による通信を行うワイヤー通信装置であってもよい。この通信装置162は、通信部120として機能する。
<<4.変形例>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
<4−1.変形例1>
例えば、図4に示した例では、サーバ10(認識部108)は、第1の音声認識の結果に対応する文字列(つまり文字列群360b)の末尾に所定の文字(「!」など)を付加する例を説明したが、かかる例に限定されない。例えば、認識部108は、該当の文の末尾(図4に示した例では文字列群360cの末尾)に所定の文字を付加してもよい。または、認識部108は、第1の音声認識の結果に対応する文字列の前後に、例えばダブルクォーテーションやシングルクォーテーションなどの文字を(所定の文字として)付加してもよい。
または、サーバ10は、所定の文字を付加する代わりに、第1の音声認識の結果に対応する文字列のフォントを標準のフォントと異ならせてもよい。例えば、サーバ10は、当該文字列を太字にしたり、当該文字列の表示色を変化させたり、または、当該文字列に対して下線を付加してもよい。または、サーバ10は、所定の文字を付加する代わりに、所定の画像を付加してもよい。
<4−2.変形例2>
また、本実施形態による情報処理システムの構成は、図1に示した例に限定されない。例えば、図1では、サーバ10が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、上述したサーバ10の機能が実現されてもよい。また、図1では、端末20が一台だけ図示されているが、かかる例に限定されず、当該情報処理システムは、端末20を複数台含み得る。
<4−3.変形例3>
また、本実施形態によるサーバ10の構成は、図3に示した例に限定されない。例えば、まとめ部110はサーバ10に含まれる代わりに、例えば端末20など、サーバ10が通信可能な他の装置に含まれてもよい。
<4−4.変形例4>
また、上述した実施形態では、本開示における情報処理装置がサーバ10である例について説明したが、本開示はかかる例に限定されない。例えば、少なくとも興奮度特定部102および音声認識部104の機能を端末20が有する場合には、当該情報処理装置は、端末20であってもよい。
または、上述した制御部100に含まれる全ての構成要素を端末20が含んでもよい。この場合、サーバ10は必ずしも設置されなくてもよい。
<4−5.変形例5>
また、図6〜図10に示した処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
また、上述した実施形態によれば、例えばCPU150、ROM152、およびRAM154などのハードウェアを、上述した実施形態によるサーバ10の構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部と、
を備える、情報処理装置。
(2)
前記音声認識部は、前記興奮度と第1の閾値との比較に基いて、前記第1の音声認識を行う、前記(1)に記載の情報処理装置。
(3)
前記興奮度が前記第1の閾値よりも大きい場合には、前記音声認識部は、前記音声に対して前記第1の音声認識を行い、
前記興奮度が前記第1の閾値以下である場合には、前記音声認識部は、前記音声に対して、前記第1の音声認識とは異なる第2の音声認識を行う、前記(2)に記載の情報処理装置。
(4)
前記音声認識部は、前記興奮度が前記第1の閾値よりも大きい継続時間の長さに基いて、前記第1の音声認識を行う、前記(2)または(3)に記載の情報処理装置。
(5)
前記音声認識部は、前記継続時間の長さと第2の閾値との比較に基いて、前記第1の音声認識を行う、前記(4)に記載の情報処理装置。
(6)
前記継続時間の長さが前記第2の閾値よりも大きい場合には、前記音声認識部は、前記音声のうち、前記継続時間に対応する第1の音声に対して、前記第1の音声の音素に基づいた第1の音声認識を行い、かつ、
前記音声のうち、前記第1の音声以外の第2の音声に対して、前記第1の音声認識とは異なる第2の音声認識を行う、前記(5)に記載の情報処理装置。
(7)
前記継続時間の長さが前記第2の閾値以下である場合には、前記音声認識部は、前記音声に対して前記第2の音声認識を行う、前記(6)に記載の情報処理装置。
(8)
前記取得部は、前記音声から特定される、同一の音素が継続する時間の長さを示す情報をさらに取得し、
前記音声認識部は、さらに、前記同一の音素が継続する時間の長さに基いて、前記第1の音声認識を行う、前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(9)
前記音声認識部は、前記興奮度と第1の閾値との比較、および、前記同一の音素が継続する時間の長さと第2の閾値との比較に基いて、前記第1の音声認識を行う、前記(8)に記載の情報処理装置。
(10)
前記音声認識部は、前記興奮度が前記第1の閾値よりも大きい間における前記同一の音素が継続する時間の長さが前記第2の閾値よりも大きいか否かに基いて、前記第1の音声認識、もしくは、前記第1の音声認識とは異なる第2の音声認識を行う、前記(9)に記載の情報処理装置。
(11)
前記興奮度を示す情報は、前記音声の音量を含む、前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含む、前記(1)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記興奮度を示す情報は、前記音声を発した第1のユーザとは異なる第2のユーザの状態に関する情報を含む、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記興奮度を示す情報は、前記音声を発した第1のユーザの生体情報を含む、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記興奮度を示す情報は、前記音声を発した第1のユーザの行動状況に関する情報を含む、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記第1のユーザの行動状況に関する情報は、前記第1のユーザによる所定の機器の操作状況を含む、前記(15)に記載の情報処理装置。
(17)
前記第2の音声認識は、認識対象の音声の音素、および、複数の文字列のつながりに関する確率に基づいた音声認識である、前記(3)または(6)に記載の情報処理装置。
(18)
前記第1の音声認識は、言語モデルを使用しない音声認識であり、
前記第2の音声認識は、前記言語モデルを使用する音声認識である、前記(17)に記載の情報処理装置。
(19)
音声の集音状況における興奮度を示す情報を取得することと、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識をプロセッサが行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部、
として機能させるための、プログラム。
10 サーバ
20 端末
22 通信網
100 制御部
102 興奮度特定部
104 音声認識部
106 特徴抽出部
108 認識部
110 まとめ部
120 通信部
122 記憶部
124 辞書DB
200 集音部
202 操作表示部

Claims (15)

  1. 音声の集音状況における興奮度を示す情報を取得する取得部と、
    前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部と、
    を備え、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記取得部は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、情報処理装置。
  2. 前記音声認識部は、前記興奮度と第1の閾値との比較に基いて、前記第1の音声認識を行う、請求項1に記載の情報処理装置。
  3. 前記興奮度が前記第1の閾値よりも大きい場合には、前記音声認識部は、前記音声に対して前記第1の音声認識を行い、
    前記興奮度が前記第1の閾値以下である場合には、前記音声認識部は、前記音声に対して、前記第1の音声認識とは異なる第2の音声認識を行う、請求項2に記載の情報処理装置。
  4. 前記興奮度を示す情報は、前記音声の音量を含む、請求項1〜3のいずれか一項に記載の情報処理装置。
  5. 前記取得部は、前記音声の音量が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、請求項4に記載の情報処理装置。
  6. 前記興奮度を示す情報は、前記音声を発した第1のユーザとは異なる第2のユーザの状態に関する情報を含む、請求項1〜のいずれか一項に記載の情報処理装置。
  7. 前記第2のユーザの状態に関する情報は、前記第2のユーザの盛り上がりの程度の検出結果を含む、
    請求項に記載の情報処理装置。
  8. 前記興奮度を示す情報は、前記音声を発した第1のユーザの生体情報を含む、請求項1〜のいずれか一項に記載の情報処理装置。
  9. 前記取得部は、予め定められた、前記第1のユーザの生体情報が示す値と前記興奮度との関係性に基いて前記興奮度を特定する、
    請求項に記載の情報処理装置。
  10. 前記興奮度を示す情報は、前記音声を発した第1のユーザの行動状況に関する情報を含む、請求項1〜のいずれか一項に記載の情報処理装置。
  11. 前記第1のユーザの行動状況に関する情報は、前記第1のユーザによる所定の機器の操作状況を含む、請求項10に記載の情報処理装置。
  12. 前記第2の音声認識は、認識対象の音声の音素、および、複数の文字列のつながりに関する確率に基づいた音声認識である、請求項3に記載の情報処理装置。
  13. 前記第1の音声認識は、言語モデルを使用しない音声認識であり、
    前記第2の音声認識は、前記言語モデルを使用する音声認識である、請求項12に記載の情報処理装置。
  14. 音声の集音状況における興奮度を示す情報を取得することと、
    前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識をプロセッサが行うことと、
    を含み、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記興奮度は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように特定される、情報処理方法。
  15. コンピュータを、
    音声の集音状況における興奮度を示す情報を取得する取得部と、
    前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部、
    として機能させるためのプログラムであって、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記取得部は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、プログラム。
JP2019041638A 2016-07-26 2019-03-07 情報処理装置、情報処理方法、およびプログラム Active JP6915637B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016145967 2016-07-26
JP2016145967 2016-07-26
JP2018529364A JP6496942B2 (ja) 2016-07-26 2017-04-24 情報処理装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018529364A Division JP6496942B2 (ja) 2016-07-26 2017-04-24 情報処理装置

Publications (2)

Publication Number Publication Date
JP2019124952A JP2019124952A (ja) 2019-07-25
JP6915637B2 true JP6915637B2 (ja) 2021-08-04

Family

ID=61015970

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018529364A Active JP6496942B2 (ja) 2016-07-26 2017-04-24 情報処理装置
JP2019041638A Active JP6915637B2 (ja) 2016-07-26 2019-03-07 情報処理装置、情報処理方法、およびプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018529364A Active JP6496942B2 (ja) 2016-07-26 2017-04-24 情報処理装置

Country Status (5)

Country Link
US (1) US10847154B2 (ja)
EP (1) EP3493201B1 (ja)
JP (2) JP6496942B2 (ja)
CN (1) CN109074809B (ja)
WO (1) WO2018020763A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7052630B2 (ja) * 2018-08-08 2022-04-12 富士通株式会社 音源方向推定プログラム、音源方向推定方法、および音源方向推定装置
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
JP2022104190A (ja) * 2020-12-28 2022-07-08 シャープ株式会社 双方向通信支援システム、及び、コンピュータプログラム
JP2024021190A (ja) * 2022-08-03 2024-02-16 株式会社Jvcケンウッド 音声コマンド受付装置、および音声コマンド受付方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073634A (ja) * 2000-09-05 2002-03-12 Alpine Electronics Inc 行動パターン処理装置
CN100339885C (zh) * 2002-02-26 2007-09-26 Sap股份公司 智能个人助理
US8204884B2 (en) * 2004-07-14 2012-06-19 Nice Systems Ltd. Method, apparatus and system for capturing and analyzing interaction based content
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
JP5550496B2 (ja) 2010-08-31 2014-07-16 富士フイルム株式会社 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9105042B2 (en) * 2013-02-07 2015-08-11 Verizon Patent And Licensing Inc. Customer sentiment analysis using recorded conversation
JP2016020963A (ja) * 2014-07-14 2016-02-04 シャープ株式会社 対話評価装置、対話評価システム、対話評価方法および対話評価プログラム
US10127927B2 (en) * 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing

Also Published As

Publication number Publication date
EP3493201B1 (en) 2020-07-29
US10847154B2 (en) 2020-11-24
EP3493201A4 (en) 2019-07-03
WO2018020763A1 (ja) 2018-02-01
CN109074809A (zh) 2018-12-21
US20190103110A1 (en) 2019-04-04
JPWO2018020763A1 (ja) 2019-01-17
CN109074809B (zh) 2020-06-23
EP3493201A1 (en) 2019-06-05
JP6496942B2 (ja) 2019-04-10
JP2019124952A (ja) 2019-07-25

Similar Documents

Publication Publication Date Title
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
JP6915637B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
US11823678B2 (en) Proactive command framework
WO2017084360A1 (zh) 一种用于语音识别方法及系统
WO2021159688A1 (zh) 声纹识别方法、装置、存储介质、电子装置
CN108962227B (zh) 语音起点和终点检测方法、装置、计算机设备及存储介质
CN109686383B (zh) 一种语音分析方法、装置及存储介质
JP2014077969A (ja) 対話システム及び対話システム向け発話の判別方法
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN108536668B (zh) 唤醒词评估方法及装置、存储介质、电子设备
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
JP2013205842A (ja) プロミネンスを使用した音声対話システム
CN110047481A (zh) 用于语音识别的方法和装置
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
JP6462936B1 (ja) 音声認識システム、及び音声認識装置
CN112466302A (zh) 语音交互的方法、装置、电子设备和存储介质
JP6930538B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN114708869A (zh) 语音交互方法、装置及电器
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN113129895A (zh) 一种语音检测处理系统
CN114121022A (zh) 语音唤醒方法、装置、电子设备以及存储介质
CN110895941A (zh) 声纹识别方法、装置及存储装置
CN113348502A (zh) 语音识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R151 Written notification of patent or utility model registration

Ref document number: 6915637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151