JP2021113835A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2021113835A
JP2021113835A JP2018080816A JP2018080816A JP2021113835A JP 2021113835 A JP2021113835 A JP 2021113835A JP 2018080816 A JP2018080816 A JP 2018080816A JP 2018080816 A JP2018080816 A JP 2018080816A JP 2021113835 A JP2021113835 A JP 2021113835A
Authority
JP
Japan
Prior art keywords
voice
user
unit
meaning
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018080816A
Other languages
English (en)
Inventor
知香 明賀
Chika Myoga
知香 明賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2018080816A priority Critical patent/JP2021113835A/ja
Priority to PCT/JP2019/002542 priority patent/WO2019202804A1/ja
Priority to US17/046,747 priority patent/US20210166685A1/en
Publication of JP2021113835A publication Critical patent/JP2021113835A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得る。【解決手段】ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。【選択図】図2

Description

本開示は、音声処理装置および音声処理方法に関する。
近年、音声エージェント機能を備える音声処理装置の普及が進んでいる。音声エージェント機能は、ユーザが発話した音声の意味を解析し、解析により得られた意味に従った処理を実行する機能である。例えば、ユーザが「明日は渋谷で待ち合わせねってAさんにメールして」という音声を発話すると、音声エージェント機能を備える音声処理装置は、音声の意味を解析し、事前に登録されているAさんのメールアドレスを用いて、Aさんに「明日は渋谷で待ち合わせね」という本文を含むメールを送信する。音声エージェント機能による他の処理としては、例えば特許文献1に記載されているように、ユーザからの質問に回答する処理が挙げられる。
特開2016−192121号公報
しかし、ユーザが発話する音声には、ユーザが伝達を望む意味が表現された正音声と、ユーザが伝達を望む意味が表現されていないエラー音声が含まれ得る。エラー音声の一例としては、「えーっと」、「あー」などのフィラー、「なんだっけ」などの独り言が挙げられる。ユーザは、エラー音声を含む音声を発話した場合、最初から発話をやり直すことにより音声エージェント機能に正音声のみからなる音声を与えることが可能であるが、最初から発話をやり直すことはユーザにとって手間であった。
そこで、本開示では、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能な、新規かつ改良された音声処理装置および音声処理方法を提案する。
本開示によれば、ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置が提供される。
また、本開示によれば、ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、を含む、音声処理方法が提供される。
以上説明したように本開示によれば、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態による音声処理装置20の概要を示す説明図である。 本開示の実施形態による音声処理装置20の構成を示す説明図である。 意味訂正の第1の例を示す説明図である。 意味訂正の第2の例を示す説明図である。 意味訂正の第3の例を示す説明図である。 意味訂正の第4の例を示す説明図である。 本開示の実施形態による音声処理装置20の動作を示すフローチャートである。 音声処理装置20のハードウェア構成を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。
また、以下に示す項目順序に従って本開示を説明する。
1.音声処理装置の概要
2.音声処理装置の構成
3.意味訂正の具体例
3−1.第1の例
3−2.第2の例
3−3.第3の例
3−4.第4の例
4.音声処理装置の動作
5.変形例
6.ハードウェア構成
7.むすび
<1.音声処理装置の概要>
まず、図1を参照して、本開示の実施形態による音声処理装置の概要を説明する。
図1は、本開示の実施形態による音声処理装置20の概要を示す説明図である。図1に示したように、音声処理装置20は、一例として家屋に配置される。音声処理装置20は、音声処理装置20のユーザが発話した音声の意味を解析し、解析により得られた意味に従った処理を実行する、音声エージェント機能を有する。
例えば、図1に示したように、音声処理装置20のユーザが「明日は渋谷で待ち合わせねってAさんにメールして」という音声を発話すると、音声処理装置20は、音声の意味を解析し、タスクがメール送信であること、宛先がAさんであること、およびメールの本文が「明日は渋谷で待ち合わせね」であることを理解する。そして、音声処理装置20は、事前に登録されているAさんのメールアドレスを用いて、ネットワーク12を介して、Aさんが利用する携帯端末30に「明日は渋谷で待ち合わせね」という本文を含むメールを送信する。
なお、図1においては、音声処理装置20として据置型の装置を示しているが、音声処理装置20は据置型の装置に限定されない。例えば、音声処理装置20は、スマートフォン、携帯電話、PHS(Personal Handyphone System)、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器などの携帯型の情報処理装置であってもよいし、自律移動式のロボットであってもよい。また、ネットワーク12は、ネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
ここで、ユーザが発話する音声には、ユーザが伝達を望む意味が表現された正音声と、ユーザが伝達を望む意味が表現されていないエラー音声が含まれ得る。エラー音声の一例としては、「えーっと」、「あー」などのフィラー、「なんだっけ」などの独り言が挙げられる。また、「じゃなくて」のような否定語、および他の人に話しかける音声などもエラー音声に該当する場合がある。ユーザが、このようなエラー音声を含む音声を発話した場合、例えば、「明日は、えーとどこだっけ、渋谷で待ち合わせねってAさんにメールして」という音声を発話した場合、最初から発話をやり直すことはユーザにとって手間であった。
本件発明者は、上記事情を一着眼点にして本開示の実施形態を創作するに至った。本開示の実施形態によれば、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能である。以下、このような本開示の実施形態による音声処理装置20の構成および動作を順次詳細に説明する。
<2.音声処理装置の構成>
図2は、本開示の実施形態による音声処理装置20の構成を示す説明図である。図2に示したように、音声処理装置20は、画像処理部220、音声処理部240、解析部260および処理実行部280を有する。
(画像処理部)
画像処理部220は、図2に示したように、撮像部221、顔画像抽出部222、眼特徴量抽出部223、視線識別部224、顔特徴量抽出部225、および表情識別部226を有する。
撮像部221は、被写体を撮像し、被写体の画像を取得する。撮像部221は、取得した被写体の画像を顔画像抽出部222に出力する。
顔画像抽出部222は、撮像部221から入力される画像内に人物領域が存在しているか否かを識別する。顔画像抽出部222は、撮像部221に人物領域が存在している場合、当該人物領域における顔画像を抽出し、ユーザの識別を行う。顔画像抽出部222により抽出された顔画像は、眼特徴量抽出部223および顔特徴量抽出部225に出力される。
眼特徴量抽出部223は、顔画像抽出部222から入力される顔画像を解析し、ユーザの視線を識別するための特徴量を抽出する。
視線識別部224は、ユーザの挙動を解析する挙動解析部の一例であり、眼特徴量抽出部223により抽出された特徴量に基づき、視線の方向を識別する。視線識別部224は、視線の方向に加えて、顔の向きも識別する。視線識別部224により得られる視線の方向、視線の変化、および顔の向きは、ユーザの挙動の解析結果の一例として、解析部260に出力される。
顔特徴量抽出部225は、顔画像抽出部222から入力される顔画像に基づき、ユーザの表情を識別するための特徴量を抽出する。
表情識別部226は、ユーザの挙動を解析する挙動解析部の一例であり、顔特徴量抽出部225により抽出された特徴量に基づき、ユーザの表情を識別する。例えば、表情識別部226は、ユーザの発話中に表情は変化したのか、また、表情の変化はどのような感情に基づくものか、例えば、怒っているのか、笑っているのか、困っているのか、等を認識し、表情に対応する感情を識別してもよい。ここで、表情と感情の対応関係は、設計者により明示的に目や口の状態を用いるルールとして与えられてもよいし、表情と感情が紐づいたデータの準備、当該データを用いる統計学習的な手法により求められてもよい。また、動画ベースで時系列情報を活用することも可能であるし、基準の画像(例えば、無表情画像)を準備しておき、表情識別部226は、基準の画像と顔画像抽出部222から出力された顔画像との差分によって、ユーザの表情を識別してもよい。表情識別部226により識別されるユーザの表情およびユーザの表情の変化は、ユーザの挙動の解析結果の一例として、解析部260に出力される。なお、音声処理装置20は、ユーザの挙動の解析結果として、撮像部221により得られた画像を用いて、ユーザが他の人に話しかけているのか、または音声処理装置20に対して音声を発しているのかを得ることも可能である。
(音声処理部)
音声処理部240は、図2に示したように、集音部241、音声区間検出部242、音声認識部243、単語検出部244、発話方向推定部245、音声特徴検出部246および感情識別部247を有する。
集音部241は、環境音および音声を含む空気的な振動から電気的な音信号を取得する音声入力部の機能を有する。集音部241は、取得した音信号を音声区間検出部242に出力する。
音声区間検出部242は、集音部241から入力される音信号を解析し、音信号の強さ(振幅)、および音声らしさを示す特徴量を用いて、音信号において音声信号に該当する音声区間を検出する。音声区間検出部242は、音声区間に該当する音信号、すなわち音声信号を、音声認識部243、発話方向推定部245および音声特徴検出部246に出力する。音声区間検出部242は、1発話区間を音声の途切れ目で分割することにより複数の音声区間を得てもよい。
音声認識部243は、音声区間検出部242から入力される音声信号を認識し、ユーザが発話した音声を表す文字列を得る。音声認識部243より得られた文字列は、単語検出部244および解析部260に出力される。
単語検出部244は、ユーザが伝達を望む意味が表現されていないエラー音声に該当し得る単語のリストを記憶しており、音声認識部243から入力された文字列から、記憶されている単語を検出する。例えば、単語検出部244は、「えーっと」、「あー」などのフィラーに該当する単語、「なんだっけ」などの独り言に該当する単語、「じゃなくて」のような否定語に対応する単語などを、エラー音声に該当し得る単語として記憶している。単語検出部244は、検出された単語、および当該単語の属性(例えば、フィラー、または否定語、など)を解析部260に出力する。
発話方向推定部245は、ユーザの挙動を解析する挙動解析部の一例であり、音声区間検出部242から入力される音声信号を解析し、音声処理装置20から見たユーザの方向を推定する。集音部241が複数の集音素子から構成される場合、発話方向推定部245は、各集音素子により得られた音声信号の位相差に基づき、音声の音源方向である、音声処理装置20から見たユーザの方向、およびユーザの移動を推定することが可能である。当該ユーザの方向、およびユーザの移動は、ユーザの挙動の解析結果の一例として、解析部260に出力される。
音声特徴検出部246は、音声区間検出部242から入力される音声信号から、声の大きさ、声の高さ、およびピッチ変動などの音声特徴を検出する。なお、音声特徴検出部246は、音声認識部243により得られた文字列および音声区間検出部242により検出された音声区間長に基づき、発話の速度を算出することも可能である。
感情識別部247は、ユーザの挙動を解析する挙動解析部の一例であり、音声特徴検出部246により検出された音声の特徴に基づき、ユーザの感情を識別する。例えば、感情識別部247は、音声特徴検出部246により検出された音声の特徴に基づき、はきはきしゃべっているのか、ぼそぼそしゃべっているのか等の明瞭度、および普段と比較した相対的な発話の速さ、怒っているのか、困っているのか、等の、感情によって声に現れる情報を取得する。ここで、音声と感情の対応関係は、設計者により明示的に声の状態を用いるルールとして与えられてもよいし、声と感情が紐づいたデータの準備、当該データを用いる統計学習的な手法により求められてもよい。また、ユーザの基準の声を準備しておき、表情識別部226は、基準の声と音声区間検出部242から出力された音声との差分によって、ユーザの感情を識別してもよい。感情識別部247により識別されるユーザの感情および感情の変化は、ユーザの挙動の解析結果の一例として、解析部260に出力される。
(解析部)
解析部260は、図2に示したように、意味解析部262、記憶部264および訂正部266を有する。
意味解析部262は、音声認識部243から入力される文字列の意味を解析する。意味解析部262は、例えば、「明日ご飯いらないってお母さんメールを送信して」というような文字列が入力された場合、この文字列に対して形態素解析を行い「メール」「送信」のようなキーワードから、タスクが「メールの送信」であることを判定する部分と、タスクを実現するために必要な引数として宛先および本文を取得する部分を有する。上記の例では、宛先として「お母さん」が取得され、本文として「明日ご飯いらない」が取得される。意味解析部262は、これらの解析結果を訂正部266に出力する。
なお、意味解析の方法は、発話コーパスを作成した上で機械学習を用いて意味解析を実現する方法、ルールで意味解析を実現する方法、またはこれらの組み合わせのいずれであってもよい。また、意味解析の処理の一部である形態素解析では、単語単位で属性を付与する仕組みをもっており、内部には辞書を保持している。意味解析部262は、この属性を付与する仕組みと辞書により、発話に含まれる単語がどのような単語であるか、例えば人名であるのか、地名であるのか、一般名詞であるのか等の属性を付与することが可能である。
記憶部264は、ユーザに関する情報の履歴を記憶する。例えば、記憶部264は、ユーザがこれまで音声処理装置20に対して音声によりどのような命令を行ったか、画像処理部220および音声処理部240によりユーザに関してどのような状態が識別されたか、などを示す情報を記憶してもよい。
訂正部266は、意味解析部262により得られた文字列の解析結果を訂正する。例えば、訂正部266は、視線識別部224から入力されるユーザの視線の変化、表情識別部226から入力されるユーザの表情の変化、単語検出部244から入力される単語の検出結果、記憶部264に記憶されているユーザに関する情報の履歴などに基づき、文字列に含まれるエラー音声に対応する部分を特定し、当該エラー音声に対応する部分を削除または置換により訂正する。訂正部266は、各入力とエラー音声との関係が記述されたルールに従ってエラー音声に対応する部分を特定してもよいし、各入力の統計学習に基づいてエラー音声に対応する部分を特定してもよい。訂正部266によるエラー音声に対応する部分を特定、および訂正処理については、「3.意味訂正の具体例」においてより具体的に説明する。
(処理実行部)
処理実行部280は、訂正部266による訂正後の意味に従った処理を実行する。例えば、処理実行部280は、訂正部266による訂正後の意味に従い、メールを送信する通信部であってもよいし、予定表に予定を入力する予定管理部であってもよいし、ユーザからの質問に対して回答を行う回答処理部であってもよいし、家電機器の動作を制御する機器制御部であってもよいし、表示内容を変更する表示制御部であってもよい。
<3.意味訂正の具体例>
以上、本開示の実施形態による音声処理装置20の構成を説明した。続いて、音声処理装置20の表情識別部226により行われる意味訂正の幾つかの具体例を順次説明する。
(3−1.第1の例)
図3は、意味訂正の第1の例を示す説明図である。図3には、ユーザが「明日はえーっとどこだったけ渋谷で待ち合わせねってAさんにメールして」という音声を発話した例を示している。この例において、音声区間検出部242は、「明日は」という音声に対応する音声区間A1、「えーっとどこだったけ」という音声に対応する音声区間A2、および「渋谷で待ち合わせねってAさんにメールして」という音声に対応する音声区間A3を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクがメール送信であること、宛先がAさんであること、およびメールの本文が「明日はえーっとどこだったけ渋谷で待ち合わせね」であること、が理解される。
また、図3の例では、視線識別部224により、音声区間A1およびA3において視線方向が正面であり、音声区間A2において視線方向が左であることが識別され、表情識別部226により音声区間A1〜A3に亘って表情が無表情であることが識別され、単語検出部244により音声区間A2においてフィラーに該当する「えーっと」が検出され、発話方向推定部245により音声区間A1〜A3に亘って発話方向が正面であることが推定されている。
訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、およびフィラーの検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図3に示した例では、音声区間A2中でフィラーが検出されていること、音声区間A2において視線が他方を向いていること、および音声区間A2がメールの本文を示す部分であると判断されていること、などに基づき、訂正部266は、音声区間A2に対応する音声部分がエラー音声(独り言、または他の人への話しかけ)であると特定する。
結果、訂正部266は、意味解析部262により理解された発話の意味から、音声区間A2に対応する部分の意味を削除する。すなわち、訂正部266は、メールの本文の意味を「明日はえーっとどこだったけ渋谷で待ち合わせね」から「明日は渋谷で待ち合わせね」に訂正する。かかる構成により、処理実行部280により、Aさんに、ユーザが伝達を望む「明日は渋谷で待ち合わせね」という本文を有するメールが送信される。
(3−2.第2の例)
図4は、意味訂正の第2の例を示す説明図である。図4には、ユーザが「明日は渋谷で待ち合わせじゃなくて新宿で待ち合わせって予定に登録して」という音声を発話した例を示している。この例において、音声区間検出部242は、「明日は」という音声に対応する音声区間B1、「渋谷で待ち合わせ」という音声に対応する音声区間B2、および「じゃなくて新宿で待ち合わせって予定に登録して」という音声に対応する音声区間B3を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクが予定の登録であること、日時が明日であること、および内容が「渋谷で待ち合わせじゃなくて新宿で待ち合わせ」であること、渋谷および新宿の単語属性が地名であること、が理解される。
また、図4の例では、視線識別部224により、音声区間B1〜B3に亘って視線方向が正面であることが識別され、表情識別部226により音声区間B3において表情変化が検出され、単語検出部244により音声区間B2において否定語に該当する「じゃなくて」が検出され、発話方向推定部245により音声区間B1〜B3に亘って発話方向が正面であることが推定されている。
訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、および否定語の検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図4に示した例では、音声区間B3において否定語が検出されていること、当該否定語(じゃなくて)の前後に地名が連続していること、否定語(じゃなくて)の発話の際に表情変化が検出されていることなどから、訂正部266は、ユーザが発話中に地名を訂正したと判断し、「渋谷で待ち合わせじゃなくて」に対応する音声部分がエラー音声であると特定する。
結果、訂正部266は、意味解析部262により理解された発話の意味から、「渋谷で待ち合わせじゃなくて」に対応する音声部分の意味を削除する。すなわち、訂正部266は、予定の内容を「渋谷で待ち合わせじゃなくて新宿で待ち合わせ」から「新宿で待ち合わせ」に訂正する。かかる構成により、処理実行部280により、明日の予定として「新宿で待ち合わせ」が登録される。
(3−3.第3の例)
図5は、意味訂正の第3の例を示す説明図である。図5には、ユーザが「Bちゃんに、渋谷じゃなくて新宿で待ち合わせってメールして」という音声を発話した例を示している。この例において、音声区間検出部242は、「Bちゃんに」という音声に対応する音声区間C1、「渋谷じゃなくて新宿で待ち合わせ」という音声に対応する音声区間C2、および「ってメールして」という音声に対応する音声区間C3を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクがメールの送信であること、宛先がBちゃんであること、および本文が「渋谷じゃなくて新宿で待ち合わせ」であること、渋谷および新宿の単語属性が地名であること、が理解される。
また、図5の例では、視線識別部224により、音声区間C1〜C3に亘って視線方向が正面であることが識別され、表情識別部226により音声区間C1〜C3に亘って表情が無表情であることが検出され、単語検出部244により音声区間C2において否定語に該当する「じゃなくて」が検出され、発話方向推定部245により音声区間C1〜C3に亘って発話方向が正面であることが推定されている。
訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、および否定語の検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図5に示した例では、音声区間C2において否定語(じゃなくて)が検出されている。しかし、視線、表情および発話方向などのユーザの挙動に変化が見られない。また、記憶部264には、Bちゃんとユーザの関係が「友人」であることを示す情報が記憶されており、友人間でのメールの本文には口語調の否定語がふくまれ得る。また、メールの本文には否定語が入る可能性がある。訂正部266は、これらの状況および事情に基づき、音声区間C2に含まれる否定語(じゃなくて)をエラー音声として扱わない。すなわち、訂正部266は、意味解析部262により理解された発話の意味の訂正を行わない。結果、処理実行部280により、Bちゃんに「渋谷じゃなくて新宿で待ち合わせ」という本文を有するメールが送信される。
(3−4.第4の例)
図6は、意味訂正の第4の例を示す説明図である。図6には、ユーザ1が「明日はえーっとどこだっけ」という音声を発話し、ユーザ2が「渋谷だよ」という音声を発話し、ユーザ1が「渋谷で待ち合わせねってCさんにメールして」という音声を発話した例を示している。この例において、音声区間検出部242は、「明日は」という音声に対応する音声区間D1、「えーっとどこだっけ」という音声に対応する音声区間D2、「渋谷だよ」という音声に対応する音声区間D3、および「渋谷で待ち合わせねってCさんにメールして」という音声に対応する音声区間D4を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクがメールの送信であること、宛先がCさんであること、および本文が「明日はえーっとどこだっけ渋谷だよ渋谷で待ち合わせね」であること、が理解される。
また、図6の例では、視線識別部224により、音声区間D1およびD4において視線方向が正面であること、および音声区間D2〜D3に亘って視線方向が左であることが識別され、表情識別部226により音声区間D1〜D4に亘って表情が無表情であることが検出され、単語検出部244により音声区間D2においてフィラーに該当する「えーっと」が検出され、発話方向推定部245により音声区間D1〜D2およびD4において発話方向が正面であること、および音声区間D3において発話方向が左であることが推定されている。
訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、およびフィラーの検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図6に示した例では、音声区間D2においてフィラー(えーっと)が検出されていること、音声区間D2においては視線が左に変化したこと、音声区間D2がメールの本文を示す部分であると判断されていること、などに基づき、訂正部266は、音声区間D2に対応する音声部分がエラー音声(独り言、または他の人への話しかけ)であると特定する。
また、図6に示した例では、音声区間D3において発話方向が左に変化していることから、音声区間D3の音声は、他の音声区間の音声を発話したユーザと異なるユーザが発話したと考えられる。このため、訂正部266は、音声区間D3に対応する音声部分がエラー音声(他の人による発話)であると特定する。
結果、訂正部266は、意味解析部262により理解された発話の意味から、音声区間D2およびD3に対応する部分の意味を削除する。すなわち、訂正部266は、メールの本文の意味を「明日はえーっとどこだっけ渋谷だよ渋谷で待ち合わせね」から「明日は渋谷で待ち合わせね」に訂正する。かかる構成により、処理実行部280により、Cさんに、ユーザが伝達を望む「明日は渋谷で待ち合わせね」という本文を有するメールが送信される。
なお、上記では音声処理装置20に処理を依頼する発話をしているユーザ以外が発話した音声も意味解析部262に入力される例を説明したが、発話方向推定部245により推定される発話方向により、他のユーザによる発話であることが理解される音声は、意味解析部262に入力される前に削除することも可能である。
<4.音声処理装置の動作>
以上、本開示の実施形態による音声処理装置20の構成および処理の具体例を説明した。続いて、図7を参照し、本開示の実施形態による音声処理装置20の動作を整理する。
図7は、本開示の実施形態による音声処理装置20の動作を示すフローチャートである。図7に示したように、本開示の実施形態による音声処理装置20の音声区間検出部242が、集音部241から入力される音信号を解析し、音信号の強さ(振幅)、および音声らしさを示す特徴量を用いて、音信号において音声信号に該当する音声区間を検出する(S310)。
そして、音声認識部243は、音声区間検出部242から入力される音声信号を認識し、ユーザが発話した音声を表す文字列を得る(S320)。続いて、意味解析部262が、音声認識部243から入力される文字列の意味を解析する(S330)。
上述したS310〜S330の処理と並行して、音声処理装置20は、ユーザの挙動を解析する(S340)。例えば、音声処理装置20の視線識別部224がユーザの視線の方向を識別し、表情識別部226がユーザの表情を識別する。
その後、訂正部266は、記憶部264に記憶されている履歴情報、およびユーザの挙動の解析結果などに基づき、意味解析部262により得られた文字列の解析結果を訂正する(S350)。そして、処理実行部280が、訂正部266による訂正後の意味に従った処理を実行する(S360)。
<5.変形例>
以上、本開示の実施形態を説明した。以下では、本開示の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、各変形例は、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
例えば、訂正部266の機能は、使用されるアプリケーション、すなわち、意味解析部262により解析された意味におけるタスクに応じて、有効化/非有効化されてもよい。具体的には、エラー音声が入り易いアプリケーション、エラー音声が入り難いアプリケーションが存在する場合に、訂正部266の機能は、エラー音声が入り難いアプリケーションにおいて非有効化され、エラー音声が入り易いアプリケーションにおいて有効化されてもよい。かかる構成により、ユーザが意図しない訂正の発生を抑制することが可能である。
また、上記実施形態では、意味解析部262による意味解析の後に、訂正部266が意味の訂正を行う例を説明したが、処理順序および処理内容は上述した例に限定されない。例えば、訂正部266がエラー音声部分を削除した後に、意味解析部262がエラー音声部分が削除された文字列の意味を解析してもよい。かかる構成により、意味解析部262による意味解析の対象となる文字列長を短縮し、意味解析部262における処理負荷を軽減することが可能となる。
また、上記実施形態では、図2に示した複数の機能が音声処理装置20に実装される例を説明したが、図2に示した複数の機能のうちの少なくとも一部は外部サーバに実装されてもよい。例えば、眼特徴量抽出部223、視線識別部224、顔特徴量抽出部225、表情識別部226、音声区間検出部242、音声認識部243、発話方向推定部245、音声特徴検出部246および感情識別部247の機能は、ネットワーク上のクラウドサーバに実装されてもよい。単語検出部244の機能は、音声処理装置20に実装されつつ、ネットワーク上のクラウドサーバにも実装されてもよい。また、解析部260がクラウドサーバに実装されてもよく、この場合、クラウドサーバが音声処理装置としての機能を担う。
<6.ハードウェア構成>
以上、本開示の実施形態を説明した。上述した画像処理、音声処理および意味解析などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
図8は、音声処理装置20のハードウェア構成を示した説明図である。図8に示したように、音声処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、入力装置208と、出力装置210と、ストレージ装置211と、ドライブ212と、撮像装置213と、通信装置215とを備える。
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。CPU201、ROM202およびRAM203とソフトウェアとの協働により、図2を参照して説明した眼特徴量抽出部223、視線識別部224、顔特徴量抽出部225、表情識別部226、音声区間検出部242、音声認識部243、単語検出部244、発話方向推定部245、音声特徴検出部246、感情識別部247、解析部260および処理実行部280などの機能が実現され得る。
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。音声処理装置20のユーザは、該入力装置208を操作することにより、音声処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置210は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。
ストレージ装置211は、本実施形態にかかる音声処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置211は、CPU201が実行するプログラムや各種データを格納する。
ドライブ212は、記憶媒体用リーダライタであり、音声処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
撮像装置213は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。
通信装置215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置215は、無線LAN(Local Area Network)対応通信装置であっても、LTE(Long Term Evolution)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
<7.むすび>
以上説明した本開示の実施形態によれば、多様な作用効果が得られる。例えば、本開示の実施形態による音声処理装置20は、特定の単語が検出されたことだけでなく、特定の単語が検出された際のユーザの挙動を用いて正音声に対応する部分およびエラー音声に対応する部分を特定するので、より適切な特定結果を得ることが可能である。また、本開示の実施形態による音声処理装置20は、発話方向をさらに用いることにより、音声処理装置20へ発話しているユーザと異なるユーザが発話した音声をエラー音声として特定することも可能である。
そして、本開示の実施形態による音声処理装置20は、エラー音声として特定された部分の意味を削除または修正する。従って、エラー音声が混じっても、ユーザが発話をし直すことなく、ユーザが伝達を望む意味をユーザの音声から得ることが可能である。結果、ユーザに生じる手間を軽減することが可能である。
なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、本明細書の音声処理装置20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、音声処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した音声処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。
(2)
前記解析部は、
ユーザが発話した前記音声の認識結果から前記音声の意味を解析する意味解析部と、
意味解析部により得られた意味を、前記ユーザの挙動の解析結果に基づき訂正する訂正部と、
を有する、前記(1)に記載の音声処理装置。
(3)
前記訂正部は、ユーザの発話期間の一部の音声区間に対応する音声の意味を削除するか否かを、当該音声区間における前記ユーザの挙動の解析結果に基づいて判断する、前記(2)に記載の音声処理装置。
(4)
前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの視線の変化の解析結果を用いる、前記(1)〜(3)のいずれか一項に記載の音声処理装置。
(5)
前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの表情の変化の解析結果を用いる、前記(1)〜(4)のいずれか一項に記載の音声処理装置。
(6)
前記解析部は、前記ユーザの挙動の解析結果として、発話方向の変化の解析結果を用いる、前記(1)〜(5)のいずれか一項に記載の音声処理装置。
(7)
前記解析部は、さらに、前記ユーザと前記音声により示される他のユーザとの関係に基づき、前記音声の意味を解析する、前記(1)〜(6)のいずれか一項に記載の音声処理装置。
(8)
前記訂正部は、さらに、前記音声区間に所定の語句が含まれるか否かに基づき、当該音声区間に対応する音声の意味を削除するか否かを判断する、前記(3)に記載の音声処理装置。
(9)
前記所定の語句は、フィラーまたは否定語を含む、前記(8)に記載の音声処理装置。
(10)
前記音声処理装置は、
ユーザが発話した音声が入力される音声入力部と、
前記音声入力部に入力された音声を認識する音声認識部と、
前記音声を前記ユーザが発話している間の前記ユーザの挙動を解析する挙動解析部と、
前記解析部により得られた意味に従った処理を行う処理実行部と、
をさらに備える、前記(1)〜(9)のいずれか一項に記載の音声処理装置。
(11)
ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、
を含む、音声処理方法。
20 音声処理装置
30 携帯端末
220 画像処理部
221 撮像部
222 顔画像抽出部
223 眼特徴量抽出部
224 視線識別部
225 顔特徴量抽出部
226 表情識別部
240 音声処理部
241 集音部
242 音声区間検出部
243 音声認識部
244 単語検出部
245 発話方向推定部
246 音声特徴検出部
247 感情識別部
260 解析部
262 意味解析部
264 記憶部
266 訂正部
280 処理実行部

Claims (11)

  1. ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。
  2. 前記解析部は、
    ユーザが発話した前記音声の認識結果から前記音声の意味を解析する意味解析部と、
    意味解析部により得られた意味を、前記ユーザの挙動の解析結果に基づき訂正する訂正部と、
    を有する、請求項1に記載の音声処理装置。
  3. 前記訂正部は、ユーザの発話期間の一部の音声区間に対応する音声の意味を削除するか否かを、当該音声区間における前記ユーザの挙動の解析結果に基づいて判断する、請求項2に記載の音声処理装置。
  4. 前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの視線の変化の解析結果を用いる、請求項1に記載の音声処理装置。
  5. 前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの表情の変化の解析結果を用いる、請求項1に記載の音声処理装置。
  6. 前記解析部は、前記ユーザの挙動の解析結果として、発話方向の変化の解析結果を用いる、請求項1に記載の音声処理装置。
  7. 前記解析部は、さらに、前記ユーザと前記音声により示される他のユーザとの関係に基づき、前記音声の意味を解析する、請求項1に記載の音声処理装置。
  8. 前記訂正部は、さらに、前記音声区間に所定の語句が含まれるか否かに基づき、当該音声区間に対応する音声の意味を削除するか否かを判断する、請求項3に記載の音声処理装置。
  9. 前記所定の語句は、フィラーまたは否定語を含む、請求項8に記載の音声処理装置。
  10. 前記音声処理装置は、
    ユーザが発話した音声が入力される音声入力部と、
    前記音声入力部に入力された音声を認識する音声認識部と、
    前記音声を前記ユーザが発話している間の前記ユーザの挙動を解析する挙動解析部と、
    前記解析部により得られた意味に従った処理を行う処理実行部と、
    をさらに備える、請求項1に記載の音声処理装置。
  11. ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、
    を含む、音声処理方法。
JP2018080816A 2018-04-19 2018-04-19 音声処理装置および音声処理方法 Pending JP2021113835A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018080816A JP2021113835A (ja) 2018-04-19 2018-04-19 音声処理装置および音声処理方法
PCT/JP2019/002542 WO2019202804A1 (ja) 2018-04-19 2019-01-25 音声処理装置および音声処理方法
US17/046,747 US20210166685A1 (en) 2018-04-19 2019-01-25 Speech processing apparatus and speech processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018080816A JP2021113835A (ja) 2018-04-19 2018-04-19 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JP2021113835A true JP2021113835A (ja) 2021-08-05

Family

ID=68240158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018080816A Pending JP2021113835A (ja) 2018-04-19 2018-04-19 音声処理装置および音声処理方法

Country Status (3)

Country Link
US (1) US20210166685A1 (ja)
JP (1) JP2021113835A (ja)
WO (1) WO2019202804A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11335342B2 (en) * 2020-02-21 2022-05-17 International Business Machines Corporation Voice assistance system
US11625155B2 (en) * 2020-03-23 2023-04-11 Ricoh Company, Ltd. Information processing system, user terminal, method of processing information

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3375449B2 (ja) * 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JP3886074B2 (ja) * 1997-02-28 2007-02-28 株式会社東芝 マルチモーダルインタフェース装置
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
US8340974B2 (en) * 2008-12-30 2012-12-25 Motorola Mobility Llc Device, system and method for providing targeted advertisements and content based on user speech data
EP2498250B1 (en) * 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
US9443507B2 (en) * 2013-07-15 2016-09-13 GM Global Technology Operations LLC System and method for controlling a speech recognition system
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
JP2017009825A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 会話状況分析装置および会話状況分析方法
US10835168B2 (en) * 2016-11-15 2020-11-17 Gregory Charles Flickinger Systems and methods for estimating and predicting emotional states and affects and providing real time feedback
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
JP6617053B2 (ja) * 2016-02-29 2019-12-04 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
JP6447578B2 (ja) * 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
US10832684B2 (en) * 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
US20180068012A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Chat flow tree structure adjustment based on sentiment and flow history
JPWO2019026716A1 (ja) * 2017-08-04 2020-08-20 ソニー株式会社 情報処理装置、及び情報処理方法
JP7135896B2 (ja) * 2019-01-28 2022-09-13 トヨタ自動車株式会社 対話装置、対話方法及びプログラム
US11328711B2 (en) * 2019-07-05 2022-05-10 Korea Electronics Technology Institute User adaptive conversation apparatus and method based on monitoring of emotional and ethical states

Also Published As

Publication number Publication date
WO2019202804A1 (ja) 2019-10-24
US20210166685A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
JP6058053B2 (ja) 記録制御システム、システム及びプログラム
US20190237076A1 (en) Augmentation of key phrase user recognition
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
US11367443B2 (en) Electronic device and method for controlling electronic device
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
JPWO2017154282A1 (ja) 音声処理装置および音声処理方法
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
US11398221B2 (en) Information processing apparatus, information processing method, and program
JP2021113835A (ja) 音声処理装置および音声処理方法
KR20190103951A (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
CN111556999A (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
US20200357385A1 (en) Information processing apparatus and information processing method
CN113950698A (zh) 对话线程的音频呈现
JP6248677B2 (ja) 会話補助プログラム、会話補助方法、及び会話システム
US12008988B2 (en) Electronic apparatus and controlling method thereof
JP7474211B2 (ja) ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
US20210110824A1 (en) Electronic apparatus and controlling method thereof
US20210082427A1 (en) Information processing apparatus and information processing method
JP2022169071A (ja) ロボット、およびロボットシステム
JP2021117372A (ja) 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム