JP2022528582A - ヒューマンマシン対話方法及び電子デバイス - Google Patents

ヒューマンマシン対話方法及び電子デバイス Download PDF

Info

Publication number
JP2022528582A
JP2022528582A JP2021572940A JP2021572940A JP2022528582A JP 2022528582 A JP2022528582 A JP 2022528582A JP 2021572940 A JP2021572940 A JP 2021572940A JP 2021572940 A JP2021572940 A JP 2021572940A JP 2022528582 A JP2022528582 A JP 2022528582A
Authority
JP
Japan
Prior art keywords
audio
user terminal
user
answer
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021572940A
Other languages
English (en)
Other versions
JP7108799B2 (ja
Inventor
洪博 宋
成亜 朱
▲ウェイ▼斯 石
帥 樊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2022528582A publication Critical patent/JP2022528582A/ja
Application granted granted Critical
Publication of JP7108799B2 publication Critical patent/JP7108799B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明の実施例は、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、一文である場合、組み合わせの語句に対応する回答命令を生成し、回答命令を、回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、を含むヒューマンマシン対話方法を提供する。さらに、全二重対話シーンでの不合理な句切れと対話での返信の冗長性の問題を解決するために、ヒューマンマシン対話システムを提供する。【選択図】図1

Description

本発明は、人工知能による音声対話分野に関し、特に、ヒューマンマシン対話方法及び電子デバイスに関する。
一般的な質問応答システムでは、通常、一文質問するとそれに一文応答するか、複数回のインタラクションが使用される。全二重インタラクションでは、人間同士の間で電話をするのと同じように、単に一問一答だけでなく、ユーザーが複数の言葉を発話した後、ロボットが一回回答すること、さらに、ロボットが能動的に質問をしてインタラクションに役立ち、リズム制御技術を採用して、ユーザーの言葉の量や内容に応じて自分の言葉の量を調節することができる効果を達成することを望んでいる。
出願人は、関連技術に少なくとも以下の問題があることを発見した。
1、見当違いな答えをする。既存のデバイスの応答結果によると、ユーザー端末に届く語句が連続的に放送され、ネットワークの遅延やサーバの処理の遅延が大きい場合、ユーザー端末に届いた応答は既に時効性を失っている。ユーザー端末に対する応答測定は完全にサーバで実現されるため、ユーザー端末は相対的な時間整合のポリシーを実現せず、特定の応答を選択的に破棄してサーバと同じセッション状態を維持することができない。ユーザーが既に次のラウンドの入力を開始していてるが、ユーザー端末がこの時点で複数の前に入力した内容を連続的に放送する場合、入出力が対応しないことになり、即ち、見当違いな答えをする状況になり、ユーザー体験が悪くなる。
2、不合理な句切れ。一方、ユーザーが話すリズムはシーンによって異なり、音響特徴だけで句切ると、ユーザーがまだ話し終わっていないのに対応する問題に対して事前に応答する状況や、ユーザーが話し終わった後に長時間待たなければならない状況になる。他方、アップロードされたオーディオが連続的ではなく、サーバは二つの文の間の実際の間隔時間を正確に判断できず、二つの文の間隔が長くなったのがネットワークの遅延によるものかどうかを判断できず、その結果、応答内容を合理的に決定できない状況になる。
本発明の目的は、少なくとも、回答が時効性を失うことにより入出力が対応しなくなり、上下オーディオの不連続により不合理な句切れとなり、応答内容を合理的に決定できないという従来技術の問題を解決することである。
第1態様では、本発明の実施例は、サーバに用いられるヒューマンマシン対話方法を提供し、このヒューマンマシン対話方法は、
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせと語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプをユーザー端末に送信する、ステップと、を含む。
第2態様では、本発明の実施例は、ユーザー端末に用いられるヒューマンマシン対話方法を提供し、このヒューマンマシン対話方法は、
ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む。
第3態様では、本発明の実施例は、サーバとユーザー端末とを含む音声対話プラットフォームに用いられるヒューマンマシン対話方法を提供し、このヒューマンマシン対話方法は、
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、予め設定されたハートビート保護の時間範囲内に、後でユーザー端末ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとをユーザー端末に送信するステップと、
ユーザー端末ユーザー端末においては、サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む。
第4態様では、本発明の実施例は、サーバに用いられるヒューマンマシン対話システムを提供し、このヒューマンマシン対話システムは、
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する認識復号プログラムモジュールと、
前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するショートスピーチ確定プログラムモジュールと、
少なくとも前記第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する語句判断プログラムモジュールと、を含む。
第5態様では、本発明の実施例は、ユーザー端末に用いられるヒューマンマシン対話システムを提供し、このヒューマンマシン対話システムは、
ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするオーディオアップロードプログラムモジュールと、
サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するオーディオマッチングプログラムモジュールと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするヒューマンマシン対話プログラムモジュールと、を含む。
第6態様では、本発明の実施例は、サーバ及びユーザー端末を含む音声対話プラットフォームに用いられるヒューマンマシン対話システムを提供し、このヒューマンマシン対話システムは、
ユーザー端末からサーバにユーザー入力の第1オーディオ及び第2オーディオを連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするオーディオアップロードプログラムモジュールと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する認識復号プログラムモジュールと、
サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するショートスピーチ確定プログラムモジュールと、
サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する語句判断プログラムモジュールと、
ユーザー端末においては、サーバから送信された回答命令と前記回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するオーディオマッチングプログラムモジュールと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合に、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするヒューマンマシン対話プログラムモジュールと、を含む。
第7態様では、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリ、とを含む電子デバイスを提供し、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、本発明のいずれかの実施形態におけるヒューマンマシン対話方法のステップが実行できるように、前記少なくとも1つのプロセッサよって前記命令を実行させる。
第8態様では、本発明の実施例は、コンピュータプログラムが記憶されている記憶媒体であって、当該プログラムがプロセッサによって実行されると、本発明のいずれかの実施例におけるヒューマンマシン対話方法のステップを実現する、ことを特徴とする記憶媒体を提供する。
本発明の実施例の有益な効果は、以下の通りである。ユーザーが先に発話した語句がショートスピーチであることを確保すると同時に、ハートビートイベントを利用して2つの文の時間間隔を処理し、2つの文が完全な語句に組み合わせできることを確保した後、全二重対話シーンでの不合理な句切れを回避する。オーディオの開始時点と終了時点を録音して、ユーザー入力のオーディオとサーバから返信された回答命令をマッチングさせ、ユーザーへの応答の正確さを保証する。その上で、異なるタイムオフセットを設定することにより、ユーザーと人工知能音声デバイスのインタラクションにおける異なる状況を処理し、全二重対話での返信の冗長性の問題を解決する。
本発明の実施例又は先行技術の技術方案をより明確に説明するために、以下は、実施例又は先行技術の説明で使用される図面を簡単に説明する。図面は本発明のいくつかの実施例にすぎず、当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。
本発明の一実施例によるサーバに用いられるヒューマンマシン対話方法のフローチャートである。 本発明の一実施例によるユーザー端末に用いられるヒューマンマシン対話方法のフローチャートである。 本発明の一実施例による音声対話プラットフォームに用いられるヒューマンマシン対話方法のフローチャートである。 本発明の一実施例によるサーバに用いられるヒューマンマシン対話システムの構成図である。 本発明の一実施例によるユーザー端末に用いられるヒューマンマシン対話システムの構成図である。 本発明の一実施例による音声対話プラットフォームに用いられるヒューマンマシン対話システムの構成図である。
本発明の実施例の目的、技術方案及び利点をより明確にするために、以下、本発明の実施例の図面を参照しながら、本発明の実施例を説明する。説明される実施例は本発明の一部の実施例であり、全部の実施例ではない。本発明の実施例に基づいて、当業者が創造的な労働なしに得られる他の全ての実施例も本発明の保護範囲に含まれる。
図1は本発明の一実施例によるサーバに用いられるヒューマンマシン対話方法のフローチャートであり、
S11:ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
S12:第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断した場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
S13:少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとをユーザー端末に送信するステップと、
を含む。
本実施形態において、既存のユーザーと人工知能デバイスの全二重対話には、以下のようなシーンがある。
ユーザー:私が聞きたいのは(短い停止)周杰倫の歌です。
人工知能音声デバイス:何を聞きたいですか?
人工知能音声デバイス:次にあなたのために周杰倫の稲香を再生します。
ユーザーが「私が聞きたいのは」と言ったのは不完全な文であるが、人工知能音声デバイスは「私が聞きたいのは」に返信し、一回の無意味な対話が増えている。この方法は、人工知能音声デバイスが、「私が聞きたいのは」という、少し停止している不完全な語句に対して、無意味な対話返信をすることを回避することができる。
ステップS11では、同様に、ユーザーが私が聞きたいのは(短い停止)周杰倫の歌ですと発話した場合、「私が聞きたいのは」の後に短い停止があるため、これを第1オーディオとして確定し、「周杰倫の歌です」を第2オーディオとして確定する。サーバは、ユーザーが人工知能音声デバイスユーザー端末を介してアップロードした第1オーディオ「私が聞きたいのは」を受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを介して第1オーディオの第1認識結果を生成する。
ステップS12では、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを確定する。録音長さと時間が正比例するため、受信したオーディオの大きさに基づいてオーディオの相対時間を計算し、さらに発話時間が短いオーディオをショートスピーチとして確定することができる。例えば、「私が聞きたいのは」はショートスピーチである。第1オーディオがショートスピーチであると確定された場合、ユーザー端末からアップロードされた第2オーディオを予め設定されたハートビート保護の時間範囲内に受信すると、「第1オーディオ」が言い終わってないことを示す。ここで、ハートビート保護の時間は、ネットワークプログラムのハートビート検出でよく使われている。ユーザー端末とサーバの間に一時的にデータのやりとりがない場合には、ハートビート検出で相手の生存を検出する必要がある。ハートビート検出は、ユーザー端末によって能動的に開始されてもよいし、サーバによって能動的に開始されてもよい。
ステップS13では、少なくとも第1認識結果「私が聞きたいのは」と第2認識結果「周杰倫の歌です」の組み合わせ「私が聞きたいのは周杰倫の歌です」を言語モデルに送信することで、組み合わせられた語句が完全な一文であるかどうかを判断する。
言語モデルの判断により、「私が聞きたいのは周杰倫の歌です」が完全な一文であることが確定される。これにより、「私が聞きたいのは周杰倫の歌です」に対応する回答命令が生成される。回答命令を、回答命令のフィードバックタイムスタンプとともにユーザー端末に送信することで、ユーザー端末を介してヒューマンマシン対話を完了する。(フィードバックタイムスタンプは見当違いな答えをする問題を解決するために使用され、以下の実施例で説明する)
この実施形態から分かるように、ユーザーが先に発話した語句がショートスピーチであると判断された場合、ハートビートイベントを使用して二つの文の時間間隔を処理し、二つの文が完全な語句に組み合わせできることを確保することにより、全二重対話シーンでの不合理な句切れが解決される。
一実施形態として、本実施例では、組み合わせの語句が一文であるか否かを判断した後、さらに以下を含むことができる。
一文ではないと判断された場合、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
本実施形態では、第1認識結果及び第2認識結果を同一の語句に組み合わせできない場合、この時、発話した二つの文の内容が関連していないため、不合理な句切れの問題につながることもない。さらに、第1認識結果に対応する第1回答命令及び第2結果に対応する第2回答命令をそれぞれ生成し、それぞれのフィードバックタイムスタンプとともにユーザー端末に送信する。
この実施形態によれば、2つの文が関連しない場合、ユーザーの各対話に対し、いずれも対応する回答があり、これにより、全二重対話の安定した実行が保証される。
いくつかの実施例では、本願はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバを提供する。前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを確定する。ショートスピーチであると判断した場合、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させる。
いくつかの実施例において、本願によるサーバの少なくとも一つのプロセッサはさらに以下のように構成される。
一文ではないと判断された場合、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
図2は本発明の一実施例によるユーザー端末に用いられるヒューマンマシン対話方法のフローチャートであり、
S21:ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
S22:サーバから送信された回答命令と、回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
S23:ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
を含む。
本実施形態では、既存のユーザーと人工知能デバイスの全二重対話は、さらに以下のようなシーンを有することができる。
ユーザー:私は歌が聞きたいです。
ユーザー:周杰倫の稲香。
人工知能音声デバイス:誰の歌を聞きたいですか?
人工知能音声デバイス:はい、あなたのために周杰倫の稲香を再生します。
ユーザーは一番目の文の返信後、さらに二番目の文を追加している。しかし、返信の順番が入力に対応しており、ユーザーが入力した文が速すぎるため、結果的に、ユーザーが入力した二番目の文が人工知能音声デバイスの一番目の文に対する応答になり、人工知能音声デバイスにより出力された一番目の文が冗長な返信になってしまう。本方法は、このような状況を回避するために、以下のように調整している。
ステップS21では、同様に、ユーザーが、「私は歌が聞きたいです、周杰倫の稲香」と言うと、順次、サーバに連続して送信される。同時に、オーディオの開始時点及び終了時点が入力タイムスタンプとしてローカルに記録される。
ステップS22では、ユーザーが発話した「私は歌が聞きたいです」、「周杰倫の稲香」はいずれも完全な語句であるため、サーバからフィードバックされた2つの回答命令とフィードバックタイムスタンプを受信する。本実施形態では、2つの完全な文が入力されるため、受信時には2つの命令がある。本方法で実施例1の語句を使用すると、受信時には1つの命令しかない。全二重対話であり、ユーザー端末はサーバから返される回答命令がどの入力語句に対応するかを知る必要があるため、前のタイムスタンプでマッチング対応を行う。
ステップS23では、ユーザー端末の現在時刻に生じるオフセットは、具体的な状況に応じて調整することができる。例えば、全二重対話の場合、二種類のケースがある。
第1ケース、上記の例を参照すると、ユーザーが後に入力した二番目の文には、既に人工知能音声デバイスの第1返信語句の内容が暗黙的に含まれており、第1返信語句が無意味になる。つまり、二番目の発話を入力した後、一番目の発話にまだ回答していなくても、一番目の発話に返信する必要はない。このとき、タイムオフセットは、二番目の発話の入力時間に関連するように設定される。
第2ケース、「今何時ですか」「食事を注文してください」など、ユーザーが連続して入力した二つの発話は関係がない。この時、人工知能音声デバイスが順番に返信し、第1返信内容と第2返信内容は影響しない。
その上で、ユーザー入力の問題により、サーバの処理が複雑になり、時間がかかってしまう。または、ネットワークの変動により、サーバが回答命令を処理した後にユーザー端末に送信する時間が長く遅延されることなり(例えば2分間、全二重対話では、このような遅延返信はユーザー体験に大きな影響を与える)、これらの長く遅延された回答命令は無意味になってしまう。このとき、タイムオフセットは、予め設定された返信待ち時間と関連するように設定される(このタイプは一般的であり、具体的な実施形態については、説明を省略する)。
従って、異なる状況に対して、ユーザー端末の現在時刻に生じるオフセットに対して異なる設定することで、異なる状況に適応することができる。
ユーザー端末の現在時刻に生じるオフセットを第1ケースに設定することにより、タイムオフセットに基づいて、1番目の発話の回答命令がすでにタイムアウトしたと確定されると、1番目の発話の回答命令を破棄する。これにより、冗長な返信を回避することができる。
1、ユーザー:私は歌が聞きたいです。
2、ユーザー:周杰倫の稲香。
人工知能音声デバイス:誰の歌を聞きたいですか?(破棄、ユーザーに出力しない)
3、人工知能音声デバイス:はい、あなたのために周杰倫の稲香を再生します。
この実施形態から分かるように、オーディオの開始時点と終了時点を録音して、ユーザー入力のオーディオとサーバから返信される回答命令をマッチングさせ、ユーザーへの応答の正確さが保証される。その上で、異なるタイムオフセットを設定することにより、ユーザーと人工知能音声デバイスのインタラクションにおける異なる状況を処理し、全二重対話での返信の冗長性の問題を解決する。
いくつかの実施形態では、本願はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を備えるユーザー端末を提供する。メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
が少なくとも1つのプロセッサによって実行できるようにされている。
図3は本発明の一実施例による音声対話プラットフォームに用いられるヒューマンマシン対話方法のフローチャートであり、S31:ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
S32:サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
S33:サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断した場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
S34:サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
S35:ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
S36:ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと
を含む。
一実施形態として、本実施例では、組み合わせが一文であるか否かを判断した後、さらに、
一文ではないと判断された場合、サーバにおいては、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には回答命令をユーザーにフィードバックするステップと、
を含む。
本実施形態では、ユーザー端末とサーバを音声対話プラットフォームに適用し、一実施形態とする。具体的な実施ステップについては、上記実施例で説明されており、ここでは説明を省略する。
この実施形態から分かるように、ユーザーが先に発話した語句がショートスピーチであると判断された場合、ハートビートイベントを利用して二つの文の時間間隔を処理し、さらに二つの文が完全な語句に組み合わせできることを確定することで、全二重対話シーンでの不合理な句切れを解決する。オーディオの開始時点と終了時点を録音して、ユーザー入力のオーディオとサーバから返信される回答命令をマッチングさせ、ユーザーへの応答の正確さが保証される。その上で、異なるタイムオフセットを設定することにより、ユーザーと人工知能音声デバイスのインタラクションにおける異なる状況を処理し、全二重対話での返信の冗長性の問題を解決する。
いくつかの実施形態では、本願はさらに、サーバ及びユーザー端末を含み、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む音声対話プラットフォームを提供する。メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザー入力の第1オーディオ及び第2オーディオをステップと、サーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
が少なくとも1つのプロセッサによって実行できるようにされている。
いくつかの実施例において、本願による音声対話プラットフォームの少なくとも一つのプロセッサはさらに以下のように構成される。
一文ではないと判断された場合、サーバにおいては、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
図4は本発明の一実施例によるヒューマンマシン対話システムの構成図であり、当該システムは上記いずれかの実施例のヒューマンマシン対話方法を実行することができ、端末に配置される。
本実施例によるヒューマンマシン対話システムは、認識復号プログラムモジュール11と、ショートスピーチ確定プログラムモジュール12と、語句判断プログラムモジュール13と、を含むサーバに適用することができる。
ここで、認識復号プログラムモジュール11は、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する。ショートスピーチ確定プログラムモジュール12は、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成する。語句判断プログラムモジュール13は、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。
さらに、組み合わせの語句が一文であるか否かを判断した後、語句判断プログラムモジュールは、さらに、
一文ではないと判断された場合、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
図5は本発明の一実施例によるヒューマンマシン対話システムの構成図であり、当該システムは上記いずれかの実施例のヒューマンマシン対話方法を実行することができ、端末に配置される。
本実施例によるヒューマンマシン対話システムはユーザー端末に適用することができ、オーディオアップロードプログラムモジュール21と、オーディオマッチングプログラムモジュール22と、ヒューマンマシン対話プログラムモジュール23と、を含む。
ここで、オーディオアップロードプログラムモジュール21は、ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとする。オーディオマッチングプログラムモジュール22はサーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。ヒューマンマシン対話プログラムモジュール23は、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
図6は本発明の一実施例によるヒューマンマシン対話システムの構成図であり、当該システムは上記いずれかの実施例のヒューマンマシン対話方法を実行することができ、端末に配置される。
本実施例によるヒューマンマシン対話システムは、サーバとユーザー端末を含む音声対話プラットフォームに適用され、オーディオアップロードプログラムモジュール31と、認識復号プログラムモジュール32と、ショートスピーチ確定プログラムモジュール33と、語句判断プログラムモジュール34と、オーディオマッチングプログラムモジュール35と、及びヒューマンマシン対話プログラムモジュール36と、を含む。
ここで、オーディオアップロードプログラムモジュール31、ユーザー端末からサーバにユーザー入力の第1オーディオ及び第2オーディオを連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとする。認識復号プログラムモジュール32、サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する。ショートスピーチ確定プログラムモジュール33は、サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成する。語句判断プログラムモジュール34は、サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。オーディオマッチングプログラムモジュール35は、ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。ヒューマンマシン対話プログラムモジュール36は、ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
さらに、組み合わせが一文であるかどうかを判断した後に、ショートスピーチ確定プログラムモジュールは、さらに、一文ではないと判断された場合、サーバにおいては、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
オーディオマッチングプログラムモジュールは、ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令とこれらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ヒューマンマシン対話プログラムモジュールは、ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
本発明の実施例は更に非一時的なコンピュータ記録媒体を提供し、コンピュータ記録媒体には、上記のいずれかの方法の実施例におけるヒューマンマシン対話方法を実行可能なコンピュータにより実行可能な命令が記憶されている。
一実施形態として、本発明の非一時的なコンピュータ記録媒体には、コンピュータにより実行可能な命令が記憶されており、コンピュータにより実行可能な命令は以下のように設定されている。
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとする。
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する。
サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、
ショートスピーチであると判断された場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成する。
サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
メモリは、不揮発性のコンピュータ可読記憶媒体であり、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラム及びモジュールを格納することに使用できる。例えば、本発明の実施形態におけるヒューマンマシン対話方法が対応するプログラム命令/モジュールである。不揮発性のコンピュータ可読記憶媒体に記憶するソフトウェアプログラム及び命令をプロセッサに実行されることにより前記方法の実施形態におけるヒューマンマシン対話方法を実現する。
不揮発性のコンピュータ可読記憶媒体は、ストレージプログラム領域及びストレージデータ領域を含む。ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とされるアプリケーションプログラムを記憶することができ、ストレージデータ領域は、ヒューマンマシン対話装置の使用に従って作成されたデータなどを記憶することができる。さらに、不揮発性のコンピュータ可読記憶媒体は、高速ランダムアクセスメモリを含むことができ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの不揮発性メモリを含むこともできる。ある実施形態では、不揮発性のコンピュータ可読記憶媒体は、プロセッサに対して遠距離配置されるメモリを含むものを選択することができる。これらのリモートメモリは、ネットワークを介してヒューマンマシン対話デバイスに接続できる。ネットワークは、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
本発明の実施形態は、電子デバイスを提供する。該電子デバイスは、少なくとも一つのプロセッサ、及び少なくとも一つの前記プロセッサに通信可能に接続されたメモリを含む電子デバイスであり、前記メモリは、少なくとも一つのプロセッサに実行されることができる命令が記憶され、前記命令が少なくとも一つのプロセッサに実行され、少なくとも一つの前記プロセッサに本発明の上記のいずれかの実施形態に記載のヒューマンマシン対話方法を実行させるようになる。
本発明の実施形態のユーザー端末は、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)ヒューマンマシン対話機能を備えたその他の電子デバイス。
最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims (10)

  1. サーバに用いられるヒューマンマシン対話方法であって、
    ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
    前記第1オーディオの開始時点及び終了時点に基づいて前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
    少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
    一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
    を含むヒューマンマシン対話方法。
  2. 前記組み合わせの語句が一文であるか否かを判断した後、さらに、
    一文ではないと判断された場合、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップを含む請求項1に記載のヒューマンマシン対話方法。
  3. ユーザー端末に用いられるヒューマンマシン対話方法であって、
    ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
    サーバから送信された回答命令と、当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
    前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
    前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
    を含むヒューマンマシン対話方法。
  4. サーバとユーザー端末とを含む音声対話プラットフォームに用いられるヒューマンマシン対話方法であって、
    ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
    サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
    サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内に、ユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
    サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
    一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
    ユーザー端末においては、サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
    ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻とのタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
    前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
    を含むヒューマンマシン対話方法。
  5. 前記組み合わせが一文であるか否かを判断した後、更に、
    一文ではないと判断された場合、サーバにおいては、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
    ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
    ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
    前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む請求項4に記載のヒューマンマシン対話方法。
  6. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
    前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
    少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
    一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
    が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させるサーバ。
  7. 前記少なくとも一つのプロセッサにおいては、さらに、
    一文ではないと判断された場合、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する、ように構成される請求項6に記載のサーバ。
  8. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むユーザー端末であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
    サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
    前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
    前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
    が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させるユーザー端末。
  9. サーバと、ユーザー端末と、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む音声対話プラットフォームであって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    ユーザー端末からサーバにユーザー入力の第1オーディオ及び第2オーディオを連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
    サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
    サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
    サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
    一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
    ユーザー端末においては、サーバから送信された回答命令と前記回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
    ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
    前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
    が実行できるように前記少なくとも1つのプロセッサによって前記命令を実行させる音声対話プラットフォーム。
  10. 前記少なくとも一つのプロセッサは、さらに、
    一文ではないと判断された場合、サーバにおいては、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信し、
    ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令とこれらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定し、
    ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
    前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックする、ように構成される請求項9に記載の音声対話プラットフォーム。
JP2021572940A 2019-06-13 2019-11-25 ヒューマンマシン対話方法及び電子デバイス Active JP7108799B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910510000.9 2019-06-13
CN201910510000.9A CN110223697B (zh) 2019-06-13 2019-06-13 人机对话方法及系统
PCT/CN2019/120607 WO2020248524A1 (zh) 2019-06-13 2019-11-25 人机对话方法及电子设备

Publications (2)

Publication Number Publication Date
JP2022528582A true JP2022528582A (ja) 2022-06-14
JP7108799B2 JP7108799B2 (ja) 2022-07-28

Family

ID=67816846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021572940A Active JP7108799B2 (ja) 2019-06-13 2019-11-25 ヒューマンマシン対話方法及び電子デバイス

Country Status (5)

Country Link
US (1) US11551693B2 (ja)
EP (1) EP3985661B1 (ja)
JP (1) JP7108799B2 (ja)
CN (1) CN110223697B (ja)
WO (1) WO2020248524A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223697B (zh) 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及系统
CN112786031B (zh) * 2019-11-01 2022-05-13 思必驰科技股份有限公司 人机对话方法及系统
CN112992136A (zh) * 2020-12-16 2021-06-18 呼唤(上海)云计算股份有限公司 智能婴儿监护系统及方法
CN112783324B (zh) * 2021-01-14 2023-12-01 科大讯飞股份有限公司 人机交互方法及设备、计算机存储介质
CN112995419B (zh) * 2021-02-05 2022-05-24 支付宝(杭州)信息技术有限公司 一种语音对话的处理方法和系统
CN114141236B (zh) * 2021-10-28 2023-01-06 北京百度网讯科技有限公司 语言模型更新方法、装置、电子设备及存储介质
CN113705250B (zh) * 2021-10-29 2022-02-22 北京明略昭辉科技有限公司 会话内容识别方法、装置、设备及计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017078869A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
WO2019031268A1 (ja) * 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
JP2019207329A (ja) * 2018-05-29 2019-12-05 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
KR20000045128A (ko) * 1998-12-30 2000-07-15 김영환 단문,음성,영상 서비스가 가능한 코드분할다중접속 방식의통신 단말기
JP2004309631A (ja) * 2003-04-03 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対話練習支援装置、方法及びプログラム
CN103413549B (zh) * 2013-07-31 2016-07-06 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
CN105845129A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统
CN106469212B (zh) 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN108237616B (zh) 2016-12-24 2024-01-23 广东明泰盛陶瓷有限公司 一种陶瓷注模装置
CN107066568A (zh) * 2017-04-06 2017-08-18 竹间智能科技(上海)有限公司 基于用户意图预测的人机对话方法及装置
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
CN107920120A (zh) * 2017-11-22 2018-04-17 北京小米移动软件有限公司 业务处理方法、装置及计算机可读存储介质
US10897432B2 (en) * 2017-12-04 2021-01-19 Microsoft Technology Licensing, Llc Chat-enabled messaging
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN108882111A (zh) * 2018-06-01 2018-11-23 四川斐讯信息技术有限公司 一种基于智能音箱的交互方法及系统
CN108920604B (zh) 2018-06-27 2019-08-13 百度在线网络技术(北京)有限公司 语音交互方法及设备
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN109147831A (zh) * 2018-09-26 2019-01-04 深圳壹账通智能科技有限公司 一种语音连接播放方法、终端设备及计算机可读存储介质
CN109584876B (zh) * 2018-12-26 2020-07-14 珠海格力电器股份有限公司 语音数据的处理方法、装置和语音空调
CN109741753B (zh) * 2019-01-11 2020-07-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、终端及服务器
CN110223697B (zh) * 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017078869A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
WO2019031268A1 (ja) * 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
JP2019207329A (ja) * 2018-05-29 2019-12-05 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
堀田 尚希ほか: "音声発話の誤分割修復のための修復必要性の判定", 第70回 言語・音声理解と対話処理研究会資料, JPN6022026826, 26 February 2014 (2014-02-26), pages 45 - 52, ISSN: 0004820226 *

Also Published As

Publication number Publication date
US20220165269A1 (en) 2022-05-26
CN110223697B (zh) 2022-04-22
EP3985661B1 (en) 2024-02-28
US11551693B2 (en) 2023-01-10
EP3985661A1 (en) 2022-04-20
CN110223697A (zh) 2019-09-10
JP7108799B2 (ja) 2022-07-28
EP3985661A4 (en) 2022-08-03
WO2020248524A1 (zh) 2020-12-17

Similar Documents

Publication Publication Date Title
JP2022528582A (ja) ヒューマンマシン対話方法及び電子デバイス
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
US10891952B2 (en) Speech recognition
EP3084633B1 (en) Attribute-based audio channel arbitration
US9710819B2 (en) Real-time transcription system utilizing divided audio chunks
US8117036B2 (en) Non-disruptive side conversation information retrieval
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
CN108920128B (zh) 演示文稿的操作方法及系统
CN109671429B (zh) 语音交互方法及设备
CN113784163B (zh) 一种连麦直播方法及相关设备
CN109361527B (zh) 语音会议记录方法及系统
WO2017151417A1 (en) Speech recognition
WO2018045703A1 (zh) 语音处理方法、装置及终端设备
EP3573050A1 (en) Computing platform and method for modifying voice data
JP6364775B2 (ja) 電子会議システム及びそのプログラム
KR100898104B1 (ko) 상호 대화식 학습 시스템 및 방법
CN109508166B (zh) 音频播放方法、装置、设备及存储介质
JP2022547418A (ja) 全二重による音声対話の方法
WO2019149132A1 (zh) 音频信息的处理方法、装置、存储介质及电子装置
CN112700767A (zh) 人机对话打断方法及装置
US8775163B1 (en) Selectable silent mode for real-time audio communication system
CN115629894B (zh) 演讲提示方法及相关装置
CN112133300B (zh) 多设备的交互方法、相关设备和系统
US20180225086A1 (en) Audio Control of Voice-Activated Devices
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220309

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220715

R150 Certificate of patent or registration of utility model

Ref document number: 7108799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150