JP2020034895A - 応答方法及び装置 - Google Patents

応答方法及び装置 Download PDF

Info

Publication number
JP2020034895A
JP2020034895A JP2019129594A JP2019129594A JP2020034895A JP 2020034895 A JP2020034895 A JP 2020034895A JP 2019129594 A JP2019129594 A JP 2019129594A JP 2019129594 A JP2019129594 A JP 2019129594A JP 2020034895 A JP2020034895 A JP 2020034895A
Authority
JP
Japan
Prior art keywords
user
information
voice
category
user category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019129594A
Other languages
English (en)
Other versions
JP6876752B2 (ja
Inventor
ウェンユ ワン
Wenyu Wang
ウェンユ ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2020034895A publication Critical patent/JP2020034895A/ja
Application granted granted Critical
Publication of JP6876752B2 publication Critical patent/JP6876752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザカテゴリとの親和性に富む応答音声で応答することを実現して、ユーザ体験を改善する応答方法及び装置を提供する。【解決手段】方法は、ユーザがクライアントを介して送信した音声情報を受信することと、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して音声情報に応答することとを含む。【選択図】なし

Description

発明の詳細な説明
[技術分野]
本願の実施例はコンピュータ技術分野に関し、具体的にはインターネット技術分野に関し、特に応答方法及び装置に関する。
[背景技術]
人工知能技術の発展に伴い、スクリーン付きスマートスピーカボックス及びスマートスピーカボックスはますます多くのユーザに使用されている。
ユーザは、音声によって上記スクリーン付きスマートスピーカボックスとスマートスピーカボックスに情報を送信して命令を取得させることができる。スクリーン付きスマートスピーカボックス又はスマートスピーカボックスは、ユーザからの情報に基づいて命令を取得して、ユーザに対してオーディオ又はビデオ情報などを再生する。
本願の実施例は応答方法及び装置を提供する。
第1態様では、本願の実施例は、ユーザがクライアントを介して送信した音声情報を受信すること、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することとを含む応答方法を提供する。
いくつかの実施例において、音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザカテゴリを決定することを含む。
いくつかの実施例において、音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定することを含む。
いくつかの実施例において、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報の意味を解析することと、意味にマッチングする応答情報を決定することと、上記音声を使用して応答情報を再生することとを含む。
いくつかの実施例において、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれるか否かを判定することと、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生することとを含む。
いくつかの実施例において、上記音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。
いくつかの実施例において、ユーザカテゴリは子供のユーザであり、この方法は、ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュすることをさらに含む。
第2態様では、本願の実施例は、ユーザがクライアントを介して送信した音声情報を受信するように構成される受信手段と、音声情報に基づいてユーザが属するユーザカテゴリを決定するように構成される決定手段と、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するよう構成される応答手段とを備える応答装置を提供する。
いくつかの実施例において、決定手段は、さらに、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザのカテゴリを決定するように構成される。
いくつかの実施例において、決定手段は、さらに、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定するように構成される。
いくつかの実施例において、応答手段は、さらに、音声情報の意味を解析して、意味にマッチングする応答情報を決定して、音声を使用して応答情報を再生するように構成される。
いくつかの実施例において、応答手段は、さらに、音声情報にマナー用語が含まれているか否かを決定するように構成されており、音声情報にマナー用語が含まれるか否かを判定して、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するように構成される。
いくつかの実施例において、音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。
いくつかの実施例において、ユーザカテゴリは子供のユーザであり、この装置は、ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段をさらに備える。
第3態様では、本願の実施例は、1つ又は複数のプロセッサと、1つ又は複数のプログラムが記憶されている記憶装置と、上記1つ又は複数のプログラムを上記1つ又は複数のプロセッサに実行させることにより、上記第1態様のいずれか1つの実施例に記載の方法を上記1つ又は複数のプロセッサに実現させる電子デバイスを提供する。
第4態様では、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、このコンピュータプログラムが実行される場合、上記第1態様のいずれか1つの実施例に記載の方法を実現させるコンピュータ可読媒体を提供する。
本願の実施例が提供する応答方法及び装置は、ユーザがクライアントを介して送信した音声情報を受信した後に、音声情報に基づいてユーザが属するユーザカテゴリを決定し、最後にユーザカテゴリにマッチングする音声を使用して、音声情報に応答する。それにより、応答音声とユーザのユーザカテゴリがマッチングして、ユーザカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
本願の他の特徴、目的及び利点は、以下の図面を参照して説明される非限定的な実施例を読むことによって、より明らかになる。
本願の一実施例にかかる応答方法を適用可能なシステム構成の一例を示す図である。 本願の応答方法にかかる一実施例のフローチャートである。 本願の応答方法にかかる適用シーンの概略図である。 本願の応答方法にかかる別の実施例を示すフローチャートである。 本願の応答装置にかかる一実施例の構成概略図である。 本願の実施例の電子デバイスを実現するのに適したコンピュータシステムの構成概略図である。
以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。
なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。
図1には、本願の一実施例にかかる応答方法を適用可能なシステム構成の一例が示されている。
図1に示されるように、システム構成100は、端末デバイス101、102、103、ネットワーク104及びサーバ105を含むことができる。ネットワーク104は、端末デバイス101、102、103とサーバ105との間で通信リンクの媒体を提供するために使用される。ネットワーク104は、例えば、有線や無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含むことができる。
ユーザは、端末デバイス101、102、103を使用して、ネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。端末デバイス101、102、103には、例えばマルチメディア情報再生アプリケーション、検索アプリケーション、インスタントメッセージングツールなどの各種のクライアントアプリケーションがインストールされることができる。
端末デバイス101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末デバイス101、102、103がハードウェアである場合、表示パネルを有するとともにマルチメディア情報の再生をサポートする様々な電子デバイスであってもよく、スマートフォン、スマートロボット、スマートスピーカボックス、スクリーン付きスマートスピーカボックス、ウェアラブルデバイス、タブレット型コンピュータ、電子ブックリーダ、MP3(Moving Picture Experts Group Audio Layer III)プレーヤ、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤ、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどが挙げられるが、これらに限定されない。端末デバイス101、102、103がソフトウェアである場合、上記例示された電子デバイスにインストールされることができる。複数のソフトウェア又はソフトウェアモジュール(例えば分散型サービスを提供するために使用されるソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。
サーバ105は様々なサービスを提供することができ、例えば端末デバイス101、102、103から送信されたユーザの音声情報を受信して、音声情報を分析処理して、処理結果(例えばユーザのユーザカテゴリ)に基づいて音声情報に応答する。
なお、本願の実施例が提供する応答方法は、一般的にサーバ105によって実行され、それに応じて、応答装置は、一般的にサーバ105に設置される。
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバから構成される分散型サーバクラスタとして実現されてもよく、単一のサーバとして実現されてもよい。サーバはソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば分散型サービスを提供するために使用されるソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。
図1の端末デバイス、ネットワーク及びサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有することができる。
次に、図2を参照すると、本願の応答方法にかかる一実施例のフロー200が示されている。該応答方法は、ユーザがクライアントを介して送信した音声情報を受信するステップ201を含む。
本実施例において、応答方法の実行主体(例えば図1に示すサーバ)は、有線接続方式又は無線接続方式で、ユーザが端末デバイス(例えば図1に示す端末デバイス)に設置されたクライアントを介して送信した音声情報を受信することができる。
インテリジェント音声対話は音声入力に基づく新世代のマンマシンインタラクションモードであり、人々は発話しただけでフィードバック情報を取得することができる。一般的には、人々はインテリジェント音声対話を実現可能なインテリジェント音声デバイスを利用して、インテリジェント音声デバイスに音声を入力することにより、対応するフィードバック情報を取得することができる。
実際には、1つのインテリジェント音声デバイス(例えば、スマートスピーカボックス)は、複数のユーザに音声サービスを提供することができる。例えば、インテリジェント音声デバイスが1つの家庭用である場合、このインテリジェント音声デバイスは複数の家族メンバーに音声サービスを提供することができる。インテリジェント音声デバイスが公共空間用である場合、このインテリジェント音声デバイスは複数のユーザに音声サービスを提供することができる。
本実施例において、ユーザは端末デバイスに音声情報を送信することができ、端末デバイスのクライアントはユーザが送信した音声情報を受信することができる。
ここで、上記音声情報は予め設定されたウェイクアップワードを含むことができ、例えばウェイクアップワードにはクライアントに対して予め定義された名称などが含まれることができる。
上記応答方法のフロー200は、音声情報に基づいてユーザが属するユーザカテゴリを決定するステップ202を含む。
本実施例において、ステップ201で得られたユーザの音声情報に基づいて、上記実行主体(例えば図1に示すサーバ)は様々な分析手段を利用して上記音声情報を分析することにより、ユーザが属するユーザカテゴリを決定することができる。
本実施例において、ユーザは、年齢に応じて分類されてもよいし、性別に応じて分類されてもよい。それに応じて、ユーザカテゴリは、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザを含むことができ、さらに男性のユーザ及び女性のユーザなどを含むことができる。ここでのユーザカテゴリは、必要に応じて設定することができる。
以下、ユーザカテゴリを子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザに分類する例を挙げて説明する。ここで、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザは、それぞれ異なる年齢層のユーザグループに対応することができる。上記子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザのそれぞれに対応する年齢層は、具体的な応用に基づいて設定することができ、ここでは限定されない。
本実施例のいくつかの選択可能な実施形態において、上記音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報に対して声紋認識を行い、声紋認識結果に基づいてユーザカテゴリを決定することを含む。
音声は人間の自然な属性の1つであり、人々の音声は、個人的な音響特徴を有する。これらの音響特徴は、主に、話者の肺、気管、喉頭、咽頭、鼻及び口などの生理的特徴によって決定される。
声紋は、電気音響によって共に表示される音声情報を搬送する音波スペクトルである。ユーザの音響特徴は、声紋から抽出されることができる。
声紋認識は、生体認識技術の1つである。声紋認識は、音声によって話者の音響特徴を抽出して、音響特徴に基づいて話者の身元を判別して、話者に対応する年齢層を決定することができる。
年齢層の同じ人は比較的近い生理的特徴を有することにより、年齢層の同じ人が同様の音響特徴を有するようにすることができる。各年齢層の複数のユーザの共通性を有する音響特徴に対応する特徴パラメータ区間を事前に統計することができる。
これらの選択可能な実施形態において、上記実行主体は、音声情報に対して声紋認識を行い、声紋認識結果に基づいてユーザカテゴリを決定することができる。
上記声紋認識には、ユーザの音声情報からユーザの音響特徴の特徴値を抽出することが含まれることができる。そして、抽出されたユーザの音響特徴の特徴値と予め抽出された各年齢層に対応する音響特徴の特徴パラメータ区間を比較する。ユーザの音響特徴の特徴値を含む特徴パラメータ区間に対応する年齢層を、上記ユーザに対応する年齢層とする。そして、決定されたユーザに対応する年齢層に基づいてユーザのユーザカテゴリを決定する。
前記音響特徴は、時間長、基本周波数、エネルギー、ホルマント周波数、広帯域、周波数摂動、振幅摂動、ゼロクロス率及びメルケプストラムのうちの少なくとも1つを含むことができる。
本実施例のいくつかの選択可能な実施態様において、上記音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定することを含むことができる。
これらの選択可能な実施態様において、上記実行主体には予め訓練されたユーザカテゴリ認識モデルが設定されることができ、又は上記実行主体はネットワークを介して予め訓練されたユーザカテゴリ認識モデルにアクセスすることができる。上記ユーザカテゴリ認識モデルは、入力されたユーザの音声情報に基づいて、ユーザが属するユーザカテゴリを示すための出力結果を出力することができる。
上記ユーザカテゴリ認識モデルは、各種の機械学習モデルであってもよく、例えば、決定木モデル、選択木モデル、ニューラルネットワークモデルなどである。
上記ユーザカテゴリは、例えば、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザを含むことができ、又は女性のユーザ、男性のユーザなどである。
上記ユーザカテゴリ認識モデルは、予めユーザカテゴリマークを大量に追加した音声情報によって初期ユーザカテゴリ認識モデルを訓練して得られたものであってもよいことが理解されるべきである。
なお、上記機械学習モデルを訓練する方法は、現在広く研究され応用されている公知技術であり、ここでは説明を省略する。
上記応答方法は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するステップ203を含む。
本実施例において、上記実行主体は、様々な方法を用いてユーザカテゴリにマッチングする音声を決定して、ユーザの音声情報に応答することができる。
本実施例において、ユーザカテゴリのそれぞれに対して、該ユーザカテゴリが好む応答音声を事前に統計することができる。このように、上記実行主体には、各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声が予め記憶されていてもよいし、或いは、上記実行主体は、他の電子デバイスに記憶されている各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声にネットワークを介してアクセスするようにしてもよい。
本実施例のいくつかの選択可能な実施形態において、上記ユーザカテゴリにマッチングする音声は合成音声であり、又は予め録音された音声である。すなわち、これらの選択可能な実施態様において、応答方法の実行主体は、ステップ202で得られたユーザカテゴリに基づいて、ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声を使用して、ユーザの音声情報に応答することができ、前記実行主体は、予め録音されたユーザカテゴリにマッチングする音声を使用してユーザの音声情報に応答することができる。
いくつかの適用シーンにおいて、ユーザカテゴリにマッチングする音声は、ユーザカテゴリにマッチングする音声パラメータに基づいて合成されることができる。これらの適用シーンにおいて、上記実行主体には各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声に対応する音声パラメータが予め記憶されることができる。上記実行主体は、他の電子機器に記憶されている各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声に対応する音声パラメータにネットワークを介してアクセスすることができる。
上記音声パラメータは、例えば、スペクトル、基本周波数、時間長、音高、音長、音声強度などのパラメータのうちの少なくとも1つを含むが、これらに限定されない。
これらの適用シーンにおいて、ステップ202でユーザのユーザカテゴリを決定した後、上記実行主体は、各ユーザカテゴリに対応する音声パラメータから、このユーザカテゴリに対応する音声パラメータを抽出して、その後上記音声パラメータを音声合成技術に適用することにより、上記音声パラメータに基づいて合成された合成音声を取得することができる。上記合成音声を使用してユーザの音声情報に応答する。
音声合成とは、任意のテキストを音声に変換する技術であり、マンマシンインタラクションに対して不可欠なモジュールである。
これらの適用シーンにおいて、上記実行主体には複数の応答テキストが予め設定されることができる。上記実行主体は、応答テキストを合成音声に変換して、ユーザの音声情報に応答することができる。
本実施例において、ユーザカテゴリが子供のユーザであれば、音声パラメータを子供にマッチングする音声パラメータに設定することができる。子供のユーザにマッチングする音声パラメータに基づいて音声合成技術によって合成された音声は、実際の子供音声と同じであり又は類似するように聞こえることにより、子供のユーザに対する応答音声の親和性を増加させる。
同様に、ユーザカテゴリが高齢のユーザであれば、音声パラメータを統計を経て得られた高齢のユーザの好む音声の音声パラメータに設定することができる。
つまり、上記実行主体は、ユーザのカテゴリに基づいて、ユーザのカテゴリに対応する音声パラメータを選択することにより、ユーザカテゴリにマッチングする合成音声を生成して、ユーザカテゴリに対応する合成音声を使用してユーザの音声情報に応答することができる。ユーザのカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
他の適用シーンにおいて、ユーザカテゴリにマッチングする音声は、事前に録音された音声であってもよい。これらの適用シーンにおいて、各ユーザカテゴリに対して、該ユーザカテゴリにマッチングする真人音声を事前に録音することができる。これにより、各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声を得ることができる。上記実行主体には、上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声が保存されることができ、又は、上記実行主体は、他の電子デバイスに設定された上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声をネットワークを介してアクセスすることができる。これらの適用シーンにおいて、ステップ202でユーザのユーザカテゴリを決定した後に、上記実行主体は、上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声から、ステップ202で決定されたユーザカテゴリにマッチングする、予め録音された真人音声を選択して、上記ユーザの音声情報に応答することができる。
次に、図3を参照すると、図3は本実施例に係る応答方法の適用シーンの概略図300である。図3の適用シーンにおいて、子供のユーザ301は、端末デバイス302に音声情報を送信することにより、端末デバイスをウェイクアップすることができる。端末デバイス302は、上記音声情報をサーバ303に送信することができる。サーバ303は、最初に、子供301が端末デバイス302を介して送信した音声情報を受信することができる。その後、サーバ303は、音声情報に基づいて子供のユーザ301が属するユーザカテゴリを子供のユーザとして決定することができる。そして、サーバ303は、子供のユーザにマッチングする音声パラメータを用いて合成された合成の子供の音声を使用することができる。そして、合成された子供の音声を使用して上記音声情報に応答する。次に、上記サーバ303は、合成された子供の音声で応答した応答音声信号を端末デバイス302に送信する。最後に、端末デバイス302は、子供のユーザ301に対して上記応答音声信号に対応する応答音声を再生する。
本願の上記実施例が提供する方法は、ユーザがクライアントを介して送信した音声情報を受信した後、音声情報に基づいてユーザが属するユーザカテゴリを決定して、最後にユーザカテゴリにマッチングする音声パラメータを用いて合成された合成音声を使用して、音声情報に応答することにより、応答音声がユーザのユーザカテゴリにマッチングして、ユーザのカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
本実施例のいくつかの選択可能な実施形態において、上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報の意味を解析するサブステップ2031を含む。
これらの選択可能な実施形態において、上記実行主体は、音声情報の意味を解析するために様々な方法を使用することができる。例示として、上記実行主体は、以下のステップにより音声情報の意味を解析することができる。まず、上記実行主体は上記音声情報に対して音声認識を行い、上記音声情報に対応するテキスト情報を取得する。その後、さらに各種の意味分析手段(例えば、単語分割、品詞マック、固有表現識別など)で上記テキスト情報を分析することにより、上記テキスト情報に対応する意味を取得する。
なお、音声情報の意味を解析することは、現在広く研究され応用されている公知技術であり、ここでは説明を省略する。
上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、意味にマッチングする応答情報を決定するサブステップ2032を含む。
いくつかの適応シーンにおいて、上記実行主体には応答情報テーブルが予め記憶されることができる。応答情報テーブルには複数の意味、及び複数の意味にそれぞれ対応する応答情報が関連付けられて記憶されることができる。ここでの応答情報は、応答テキストを含むことができる。
他の適応シーンにおいて、上記実行主体は、インターネットから複数のチャット情報を取得することができる。チャット情報から、上記意味と同一又は類似する複数の対話情報を特定して、その後、複数の対話情報から上記意味にマッチングする応答情報を抽出する。
上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、上記音声を使用して応答情報を再生するサブステップ2033を含む。
これらの選択可能な実施形態において、上記実行主体は、ユーザカテゴリにマッチングする音声パラメータを使用して合成音声を生成して、上記合成音声を使用して上記応答情報を再生することができる。あるいは、上記実行主体は、予め録音されたユーザカテゴリにマッチングする音声を使用して上記応答情報を再生する。
これらの選択可能な実施態様において、音声情報に対応する意味に応じて、ユーザのカテゴリにマッチングする音声を使用して応答することにより、応答情報がユーザのニーズに合致するようにする。一方では、応答情報の精度を向上させることができ、他方では、ユーザの満足度をさらに向上させることができる。
本実施例のいくつかの選択可能な実施形態において、上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれるか否かを判定するサブステップ2034をさらに含むことができる。
本実施例において、上記実行主体は、音声情報にマナー用語が含まれるか否かを判定するために種々の方法を用いることができる。
例示として、上記実行主体は、以下のステップに基づいてユーザの音声情報にマナー用語が含まれるか否かを判定することができる。まず、上記実行主体は、上記音声情報を音声認識して、上記音声情報に対応するテキスト情報を取得することができる。そして、上記実行主体は、予め設定されたマナー用語テーブルにおける各マナー用語を上記テキスト情報と照合させることができる。照合に成功すると、ユーザの音声情報にマナー用語が含まれると判定する。さらに、上記実行主体は、音声情報にどの/どちらのマナー用語が含まれるかを判定することができる。
上記マナー用語テーブルには複数のマナー用語が含まれることができる。上記マナー用語は、1つのワードであってもよく、単語であってもよく、又は1つのフレーズであってもよい。
上記予め設定されたマナー用語テーブルは、上記実行主体に設置されてもよいし、上記実行主体がネットワークを介して通信可能に接続される他の電子デバイスに設置されてもよい。
上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するサブステップ2035を含む。
これらの選択可能な実施形態において、上記実行主体は、マナー用語ごとに対応する応答マナー用語を予め設定することができる。例えば、ユーザがマナー用語「…を伺えますでしょうか」を使用した場合、対応する予め設定されたマナー用語は「優雅なご質問、ありがとうございます」などであってもよい。上記実行主体は、ユーザカテゴリにマッチングする音声パラメータを用いて合成音声を生成して、合成音声を使用して上記予め設定された応答用のマナー用語を再生するができる。上記実行主体は、さらに事前に録音された、ユーザカテゴリにマッチングする音声を使用して上記予め設定された応答用のマナー用語を再生することができる。
これらの選択可能な実施態様において、ユーザカテゴリが子供のユーザであれば、子供のユーザが言語コミュニケーションにおいてマナー用語を使用する習慣を容易に育成することができる。ユーザが青年のユーザ、中年のユーザ又は高齢のユーザであれば、ユーザに対する応答情報の親和性を向上させることに有利である。
さらに図4を参照すると、応答方法の別の実施例のフロー400が示されている。該応答方法のフロー400は、ユーザがクライアントを介して送信した音声情報を受信するステップ401を含む。
本実施例において、ステップ401は図2に示すステップ201と同様であり、ここでは詳細な説明を省略する。
上記応答方法のフロー400は、音声情報に基づいてユーザが属するユーザカテゴリを決定するステップ402を含む。
本実施例において、ステップ402は図2に示すステップ202と同様であり、ここでは詳細な説明を省略する。
上記応答方法は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するステップ403を含む。
本実施例において、ステップ403は図2に示すステップ203と同様であり、ここでは詳細な説明を省略する。
上記応答方法のフロー400は、ユーザカテゴリが子供のユーザであり、ユーザに子供のユーザにマッチングするマルチメディア情報をプッシュするステップ404を含む。
本実施例において、ユーザカテゴリは子供のユーザであってもよい。
上記実行主体は、各種の方法によって子供のユーザに対応するマルチメディア情報を取得することができる。例えば、アニメーションや童謡、子供のストーリーなどである。
例えば、上記実行主体には、子供のユーザに対応するマルチメディア情報が予め記憶されることができる。或いは、上記実行主体は他の電子デバイスに設定された子供のユーザにマッチングするマルチメディア情報にネットワークを介してアクセスすることができる。
上記子供のユーザにマッチングするマルチメディア情報は、予め記憶されたマルチメディア情報であってもよい。これらのマルチメディア情報は、例えばオンライン又はオフラインで大量の子供のユーザを統計することにより得られたマルチメディア情報であってもよい。
いくつかの適用シーンにおいて、ユーザカテゴリが子供のユーザであれば、上記実行主体は、ソーシャル情報、暴力情報、ポルノ情報などを自動的にマスクすることができる。
図4から分かるように、図2に対応する実施例に比べて、本実施例における応答方法のフロー400は、子供のユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするステップを強調する。これにより、ユーザに対する情報のプッシュがユーザのニーズに合致させ、指向性に富む情報プッシュを実現する。
更に図5を参照すると、上記各図に示される方法の実施として、本願は応答装置の一実施例を提供して、この装置の実施例は図2に示される方法の実施例に対応して、この装置は具体的に様々な電子デバイスに適用されることができる。
図5に示すように、本実施例の応答装置500は、受信手段501、決定手段502及び応答手段503を備える。ここで、受信手段501は、ユーザがクライアントを介して送信した音声情報を受信するように構成され、決定手段502は、音声情報に基づいてユーザが属するユーザカテゴリを決定するように構成され、応答手段503は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するように構成される。
本実施例において、応答装置500における受信手段501、決定手段502及び応答中三503の具体的な処理及びそれによる技術的効果は、それぞれ図2の対応する実施例におけるステップ201、ステップ202及びステップ203の関連説明を参照することができ、ここでは詳細な説明を省略する。
本実施例のいくつかの選択可能な実施態様において、決定手段502は、さらに、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザのカテゴリを決定するように構成される。
本実施例のいくつかの選択可能な実施態様において、決定手段502は、さらに、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定するように構成される。
本実施例のいくつかの選択可能な実施態様において、応答手段503は、さらに、音声情報の意味を解析して、意味にマッチングする応答情報を決定して、音声を使用して応答情報を再生するように構成される。
本実施例のいくつかの選択可能な実施態様において、応答手段503は、さらに、音声情報にマナー用語が含まれているか否かを決定するように構成されており、音声情報にマナー用語が含まれるか否かを判定して、前記音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するように構成される。
本実施例のいくつかの選択可能な実施態様において、上記音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。
本実施例のいくつかの選択可能な実施態様において、ユーザカテゴリは子供のユーザである。応答装置500は、ユーザに子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段504をさらに備える。
図6に示すように、コンピュータシステム600は、ROM(Read Only Memory)602に格納されたプログラムや記憶部606からRAM(Random Access Memory)603にロードされたプログラムに従って各種の適切な動作や処理を実行することができるCPU(Central Processing Unit)601を備える。RAM603には、システム600が操作するために必要な各種プログラムやデータも格納されている。CPU601、ROM602及びRAM603は、バス604を介して相互に接続されている。また、バス604には、入出力(I/O、Input/Output)インタフェース605も接続されている。
I/Oインタフェース605には、ハードディスク等の記憶部606と、LAN(Local Area Network)カード、モデムなどのネットワークインタフェースカードを含む通信部607とが接続されている。通信部607は、インターネットのようなネットワークを介して通信処理を行う。ドライブ608も、必要に応じてI/Oインタフェース605に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア609は、必要に応じてドライブ608にインストールされることにより、リムーバブルメディア711から読み出されたコンピュータプログラムが必要に応じて記憶部606にインストールされる。
特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部607を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア609からインストールされることができる。このコンピュータプログラムが中央処理手段(CPU)601によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線又は半導体のシステム、装置又はデバイスであってもよく、又はこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、1つ又は複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、又は上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みか又は格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置又はデバイスによって使用されてもよく、又はそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドで又はキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置又はデバイスによって使用され、又はそれらとともに使用されるプログラムを送信、伝播又は伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、RFなど、又はそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されることができるが、これらに限定されない。
本願の操作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向のプログラミング言語、並びに「C」言語又は同様のプログラミング言語などの一般的な手続き型プログラミング言語を含む、1つ又は複数のプログラミング言語又はそれらの組合せにより記述されることができる。プログラムコードは、全部がパーソナルコンピュータ上で実行されてもよく、一部がパーソナルコンピュータ上で実行されてもよく、別個のソフトウェアパッケージとして実行されてもよく、一部がパーソナルコンピュータ上で実行され残りの一部がリモートコンピュータ上で実行されてもよく、又は全部がリモートコンピュータ又はサーバ上で実行されてもよい。リモートコンピュータに関連する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してパーソナルコンピュータに接続されてもよく、又は外部のコンピュータに接続されてもよい(例えば、インターネットサービスプロバイダによりインターネットを介して接続される)。
図面におけるフローチャート及びブロック図は、本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実施可能な構成、機能及び操作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、所定の論理機能を実施するための1つ又は複数の実行可能な命令を含むモジュール、ブロック又はコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される2つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図及び/又はフローチャートにおける各ブロック、ならびにブロック図及び/又はフローチャートにおけるブロックの組合せは、所定の機能又は操作を実行する専用のハードウェアによるシステムによって実施されてもよく、又は専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。
本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは受信手段と、決定手段と、応答手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、受信手段は、さらに「ユーザがクライアントを介して送信した音声情報を受信する手段」として説明されることができる。
別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、又は、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、1つ又は複数のプログラムが担持され、上記1つ又は複数のプログラムが装置により実行される場合、ユーザがクライアントを介して送信した音声情報を受信することと、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することを、この装置に実行させる。
以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されるべきである。例えば、上記特徴が本願に開示された(これに限定されない)同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。

Claims (16)

  1. ユーザがクライアントを介して送信した音声情報を受信することと、
    前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することと、
    前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することとを含む応答方法。
  2. 前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することは、
    前記音声情報に対して声紋認識を行い、認識結果に基づいて前記ユーザが属するユーザカテゴリを決定することを含む、請求項1に記載の方法。
  3. 前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することは、
    前記音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、前記ユーザカテゴリ認識モデルの出力に基づいて前記ユーザが属するユーザカテゴリを決定することを含む、請求項1に記載の方法。
  4. 前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することは、
    前記音声情報の意味を解析することと、
    前記意味にマッチングする応答情報を決定することと、
    前記音声を使用して前記応答情報を再生することとを含む、請求項1に記載の方法。
  5. 前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することは、
    音声情報にマナー用語が含まれるか否かを判定することと、
    前記音声情報にマナー用語が含まれると判定したことに応答して、前記音声を使用して予め設定されたマナー用語を再生することとを含む、請求項1に記載の方法。
  6. 前記音声は、前記ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である、請求項1〜5のいずれか1項に記載の方法。
  7. 前記ユーザカテゴリは子供のユーザであり、前記方法は、
    前記ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュすることをさらに含む、請求項1に記載の方法。
  8. ユーザがクライアントを介して送信した音声情報を受信するように構成される受信手段と、
    前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定するように構成される決定手段と、
    前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答するよう構成される応答手段とを備える、応答装置。
  9. 前記決定手段は、さらに、
    前記音声情報に対して声紋認識を行い、認識結果に基づいて前記ユーザが所属するユーザカテゴリを決定するように構成される、請求項8に記載の装置。
  10. 前記決定手段は、さらに、
    前記音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、前記ユーザカテゴリ認識モデルの出力に基づいて前記ユーザが属するユーザカテゴリを決定するように構成される、請求項8に記載の装置。
  11. 前記応答手段は、さらに、
    前記音声情報の意味を解析して、
    前記意味にマッチングする応答情報を決定して、
    前記音声を使用して前記応答情報を再生するように構成される、請求項8に記載の装置。
  12. 前記応答手段は、さらに、
    音声情報にマナー用語が含まれるか否かを判定して、
    前記音声情報にマナー用語が含まれると判定したことに応答して、前記音声を使用して予め設定されたマナー用語を再生するように構成される、請求項8に記載の装置。
  13. 前記音声は、前記ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である、請求項8〜12のいずれか1項に記載の装置。
  14. 前記ユーザカテゴリは子供のユーザであり、前記装置は、前記ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段をさらに備える、請求項8に記載の装置。
  15. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムが記憶されている記憶装置と、
    前記1つ又は複数のプログラムを前記1つ又は複数のプロセッサに実行させることにより、請求項1〜7のいずれか1項に記載の方法を1つ又は複数のプロセッサに実現させる、電子デバイス。
  16. コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが実行される場合、請求項1〜7のいずれか1項に記載の方法を実現させる、コンピュータ可読媒体。
JP2019129594A 2018-08-30 2019-07-11 応答方法及び装置 Active JP6876752B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811000038.3 2018-08-30
CN201811000038.3A CN109147800A (zh) 2018-08-30 2018-08-30 应答方法和装置

Publications (2)

Publication Number Publication Date
JP2020034895A true JP2020034895A (ja) 2020-03-05
JP6876752B2 JP6876752B2 (ja) 2021-05-26

Family

ID=64829189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019129594A Active JP6876752B2 (ja) 2018-08-30 2019-07-11 応答方法及び装置

Country Status (3)

Country Link
US (1) US11475897B2 (ja)
JP (1) JP6876752B2 (ja)
CN (1) CN109147800A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020049687A1 (ja) * 2018-09-06 2020-03-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム記録媒体
CN109885277A (zh) * 2019-02-26 2019-06-14 百度在线网络技术(北京)有限公司 人机交互设备、方法、系统和装置
CN111724789B (zh) * 2019-03-19 2023-03-28 华为终端有限公司 语音交互的方法和终端设备
CN111276144A (zh) * 2020-02-21 2020-06-12 北京声智科技有限公司 一种平台匹配方法、装置、设备和介质
US11393455B2 (en) * 2020-02-28 2022-07-19 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11626103B2 (en) * 2020-02-28 2023-04-11 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11392771B2 (en) * 2020-02-28 2022-07-19 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11574127B2 (en) * 2020-02-28 2023-02-07 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
CN112309403A (zh) * 2020-03-05 2021-02-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111638787B (zh) * 2020-05-29 2023-09-01 百度在线网络技术(北京)有限公司 用于展示信息的方法和装置
CN111805558B (zh) * 2020-08-03 2021-10-08 深圳作为科技有限公司 一种具有记忆识别功能的自学式老年护理机器人系统
CN111916065A (zh) * 2020-08-05 2020-11-10 北京百度网讯科技有限公司 用于处理语音的方法和装置
CN114155865A (zh) * 2021-12-16 2022-03-08 广州城市理工学院 一种全息互动系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041084A (ja) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd 対話処理システム
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2007272773A (ja) * 2006-03-31 2007-10-18 Xing Inc 対話型インターフェイス制御システム
JP2010078763A (ja) * 2008-09-25 2010-04-08 Brother Ind Ltd 音声処理装置、音声処理プログラム、およびインターホンシステム
JP2014002383A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd 端末装置及び端末装置の制御方法
JP2015119298A (ja) * 2013-12-18 2015-06-25 船井電機株式会社 情報処理装置および通信装置
JP2017062602A (ja) * 2015-09-24 2017-03-30 シャープ株式会社 対話システム、対話を制御する方法、およびコンピュータを対話システムとして機能させるためのプログラム
WO2017147081A1 (en) * 2016-02-22 2017-08-31 Sonos, Inc. Voice control of a media playback system
CN107170456A (zh) * 2017-06-28 2017-09-15 北京云知声信息技术有限公司 语音处理方法及装置
JP2017176728A (ja) * 2016-03-31 2017-10-05 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム
JP2018081169A (ja) * 2016-11-15 2018-05-24 日本電信電話株式会社 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
US6466654B1 (en) * 2000-03-06 2002-10-15 Avaya Technology Corp. Personal virtual assistant with semantic tagging
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8249225B2 (en) * 2008-03-14 2012-08-21 International Business Machines Corporation Identifying caller preferences based on voice print analysis
WO2009158581A2 (en) * 2008-06-27 2009-12-30 Adpassage, Inc. System and method for spoken topic or criterion recognition in digital media and contextual advertising
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
AU2011274318A1 (en) * 2010-06-29 2012-12-20 Royal Wins Pty Ltd System and method of providing a computer-generated response
CN103493045B (zh) * 2011-01-18 2019-07-30 谷歌有限责任公司 对在线问题的自动回答
CN103187051A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载互动装置
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
CN103236259B (zh) * 2013-03-22 2016-06-29 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
US9626961B2 (en) * 2014-01-31 2017-04-18 Vivint, Inc. Systems and methods for personifying communications
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US20150339321A1 (en) * 2014-05-22 2015-11-26 Konnect Labs, Inc. Adaptable Multimedia Display System and Method
CN106027485A (zh) * 2016-04-28 2016-10-12 乐视控股(北京)有限公司 基于语音交互的富媒体展示方法及系统
US10074359B2 (en) * 2016-11-01 2018-09-11 Google Llc Dynamic text-to-speech provisioning
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
CN107358949A (zh) * 2017-05-27 2017-11-17 芜湖星途机器人科技有限公司 机器人发声自动调整系统
CN107832720B (zh) * 2017-11-16 2022-07-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN108037905B (zh) * 2017-11-21 2021-12-21 北京光年无限科技有限公司 一种用于智能机器人的交互输出方法及智能机器人
CN108366302B (zh) * 2018-02-06 2020-06-30 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、系统及存储装置
CN108388638B (zh) * 2018-02-26 2020-09-18 出门问问信息科技有限公司 语义解析方法、装置、设备及存储介质
CN110069608B (zh) * 2018-07-24 2022-05-27 百度在线网络技术(北京)有限公司 一种语音交互的方法、装置、设备和计算机存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
JP2002041084A (ja) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd 対話処理システム
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
JP2007272773A (ja) * 2006-03-31 2007-10-18 Xing Inc 対話型インターフェイス制御システム
JP2010078763A (ja) * 2008-09-25 2010-04-08 Brother Ind Ltd 音声処理装置、音声処理プログラム、およびインターホンシステム
JP2014002383A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd 端末装置及び端末装置の制御方法
JP2015119298A (ja) * 2013-12-18 2015-06-25 船井電機株式会社 情報処理装置および通信装置
JP2017062602A (ja) * 2015-09-24 2017-03-30 シャープ株式会社 対話システム、対話を制御する方法、およびコンピュータを対話システムとして機能させるためのプログラム
WO2017147081A1 (en) * 2016-02-22 2017-08-31 Sonos, Inc. Voice control of a media playback system
JP2017176728A (ja) * 2016-03-31 2017-10-05 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム
JP2018081169A (ja) * 2016-11-15 2018-05-24 日本電信電話株式会社 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN107170456A (zh) * 2017-06-28 2017-09-15 北京云知声信息技术有限公司 语音处理方法及装置

Also Published As

Publication number Publication date
CN109147800A (zh) 2019-01-04
US11475897B2 (en) 2022-10-18
JP6876752B2 (ja) 2021-05-26
US20200075024A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
JP6876752B2 (ja) 応答方法及び装置
JP6613347B2 (ja) 情報をプッシュする方法及び装置
US11302337B2 (en) Voiceprint recognition method and apparatus
CN109119063B (zh) 视频配音生成方法、装置、设备及存储介质
US20200126566A1 (en) Method and apparatus for voice interaction
WO2020253509A1 (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
CN109346076A (zh) 语音交互、语音处理方法、装置和系统
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
US20220076674A1 (en) Cross-device voiceprint recognition
WO2007043679A1 (ja) 情報処理装置およびプログラム
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN111696520A (zh) 智能配音方法、装置、介质及电子设备
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
US20240004606A1 (en) Audio playback method and apparatus, computer readable storage medium, and electronic device
CN111415662A (zh) 用于生成视频的方法、装置、设备和介质
KR20220154655A (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
CN112423000B (zh) 数据处理方法、装置、设备以及介质
CN114999441A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
Tong Speech to text with emoji
WO2021102647A1 (zh) 数据处理方法、装置和存储介质
Paaß et al. Understanding Spoken Language

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210426

R150 Certificate of patent or registration of utility model

Ref document number: 6876752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6876752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250