JP2019091007A - 音声対話方法、装置、端末、サーバ及び可読記憶媒体 - Google Patents

音声対話方法、装置、端末、サーバ及び可読記憶媒体 Download PDF

Info

Publication number
JP2019091007A
JP2019091007A JP2018147750A JP2018147750A JP2019091007A JP 2019091007 A JP2019091007 A JP 2019091007A JP 2018147750 A JP2018147750 A JP 2018147750A JP 2018147750 A JP2018147750 A JP 2018147750A JP 2019091007 A JP2019091007 A JP 2019091007A
Authority
JP
Japan
Prior art keywords
user
contents
slot
task
necessary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018147750A
Other languages
English (en)
Inventor
ウォン,ティアン
Tian Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019091007A publication Critical patent/JP2019091007A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • H04L67/5651Reducing the amount or size of exchanged application data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声対話システムにおいて、音声がタスク操作を起動する速度が遅く、ユーザーの体験が悪いという技術問題を解決する音声対話方法、装置、端末、サーバ及び可読記憶媒体を提供する。【解決手段】ユーザーの音声により、ユーザーのニーズを取得するステップと、ユーザーのニーズにマッチングする予め記憶されるタスクテンプレートを確定するステップと、ユーザーのニーズを、マッチングするタスクテンプレートにおける必要なスロットにマッチングさせるステップと、ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行し、必要なスロットの内容を取得するステップとを含む。【選択図】図1

Description

本発明は、音声対話技術分野に関し、特に音声対話方法、装置、端末、サーバ及び可読記憶媒体に関する。
従来の音声対話システムにおいて、音声がタスク操作を起動する速度が遅くて、音声対話シナリオにおけるユーザーの体験が悪いという技術問題が存在する。
本発明の実施例は、音声対話方法、装置、端末、サーバ及び可読記憶媒体を提供し、少なくとも従来技術における上述技術課題を解決する。
第1態様によれば、本発明の実施例は音声対話方法を提供し、
ユーザーの音声により、ユーザーのニーズを取得するステップと、
前記ユーザーのニーズにマッチングするような予め記憶されるタスクテンプレートを確定するステップと、
前記ユーザーのニーズを、マッチングするタスクテンプレートにおける必要なスロットにマッチングさせるステップと、
前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得することを実行し、必要なスロットの内容を取得するステップとを含み、
前記タスクテンプレートは、音声がタスク操作を起動することに必要な情報に基づいて予め生成されたテンプレートであり、前記スロットは前記タスクテンプレートにおける情報であり、前記必要なスロットは前記タスクテンプレートにおいてタスク操作を起動することに用いられる必要な情報である。
第2態様によれば、本発明の実施例は音声対話装置を提供し、
タスクテンプレートを記憶する記憶モジュールと、
ユーザーの音声により、ユーザーのニーズを取得する取得モジュールと、
前記ユーザーのニーズにマッチングするような予め記憶されたタスクテンプレートを確定し、前記ユーザーのニーズを、マッチングするタスクテンプレートにおける必要なスロットにマッチングさせるマッチングモジュールと、
前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得することを実行し、必要なスロットの内容を取得する制御モジュールと、を備え、
前記タスクテンプレートは音声がタスク操作を起動することに必要な情報に基づいて予め生成されたテンプレートであり、前記スロットは前記タスクテンプレートにおける情報であり、前記必要なスロットは前記タスクテンプレートにおいてタスク操作を起動することに用いられる必要な情報である。
第3態様によれば、本発明の実施例は、端末を提供し、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶する記憶装置と、を備え、
前記1つ又は複数のプログラムが、前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに第1態様に記載の方法を実現させる。
第4態様によれば、本発明の実施例は、サーバを提供し、1つ又は複数のプロセッサと、1つ又は複数のプログラム及びタスクテンプレートを記憶する記憶装置と、を備え、
前記1つ又は複数のプログラムが、前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに第1態様に記載の方法を実現させる。
第5態様によれば、本発明の実施例は、コンピュータープログラムを記憶するコンピューター可読記憶媒体を提供し、当該プログラムがプロセッサにより実行される場合、第1態様に記載の方法を実現する。
上述技術案のうちの1つは、ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行するが、必要なスロットの内容のみを取得してもよい、一方、音声がタスク操作を起動することに対して所要情報が少なくて、音声がタスク操作を起動する速度が速いため、音声対話のシナリオにおけるユーザーの体験を向上するというメリット又は有益な効果を有する。
上述技術案のうちの1つは、音声対話装置の制御モジュールが前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行するが、必要なスロットの内容のみを取得してもよい、音声がタスク操作を起動することに対して所要情報が少なくて、音声起動タスク操作の速度が速いため、音声対話のシナリオにおけるユーザーの体験を向上するように設置されるというメリット又は有益な効果を有する。
上記概要は明細書の目的のために説明されたが、何らかの形態で本発明を限定するものではない。上記例示的な態様、実施形態及び特徴に加えて、図面及び以下の詳細な説明を参照することによって、本発明のさらなる態様、実施形態及び特徴は分かりやすくなる。
図面において、特に断らない限り、複数の図面を通して同一符号は同一又は類似の部材又は要素を示す。これらの図面は必ずしも縮尺で描かれたものではない。なお、これらの図面は本発明に開示された幾つかの実施形態のみを示し、本発明の範囲を限定するものではない。
本発明の実施例1に係る音声対話方法のフローチャートである。 本発明実施例2に係る音声対話方法における第1種の必要なスロットの内容を取得するフローチャートである。 本発明の実施例6に係る音声対話装置の略図である。 本発明の実施例10に係る端末の略図である。 本発明の実施例11に係るサーバの略図である。
以下では、幾つかの例示的な実施例のみを簡単に説明する。当業者であれば、本発明の趣旨又は範囲を逸脱せずに、説明した実施例に様々な変更を施すことができると理解できる。従って、図面と説明は本質的に例示的であり、限定的ではないとみなされるべきである。
実施例1
本発明の実施例1は、音声対話方法を提供し、図1に示すように、下記ステップを含む。
ステップS100では、ユーザーの音声により、ユーザーのニーズを取得する。
本発明の実施例の1つの例において、ユーザーの音声は、ユーザーの音声データを取得できる端末により取得され、ここで、端末はスマホ、タブレットとスマートロボット等の設備を含むが、これらに限らない、多種音声識別技術を使用してユーザーの音声を解析して、ユーザーのニーズを取得し、選択可能な方式として、ユーザーの音声をクラウドサーバにアップロードして解析してもよい、解析した後の結果によってユーザーのニーズを取得し、元に取得したユーザーの音声データを処理してクラウドサーバにアップロードするデータの大きさを減少してもよい。
ステップS200では、前記ユーザーのニーズにマッチングするような予め記憶されたタスクテンプレートを確定する。
ステップS300では、前記ユーザーのニーズを、マッチングするタスクテンプレートにおける必要なスロットにマッチングさせ、
前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得することを実行する。
ここで、前記タスクテンプレートは音声がタスク操作を起動することに必要な情報に基づいて予め生成されたテンプレートであり、前記スロットが前記タスクテンプレートにおける情報であり、前記必要なスロットが前記タスクテンプレートにおいてタスク操作を起動することに用いられる必要な情報である。
予め記憶されたタスクテンプレートは、サーバに予め記憶されたものであっても良い。それぞれのタスクテンプレートは、論理的に独立で、且つ細分できない1つのタスク操作に対応する。音声があるタスクテンプレートを起動する時に、当該タスクテンプレートに対応するタスク操作を起動する。例えば、操作対象が目覚まし時計であるタスク操作に対して、下表に示すような論理的に独立で、且つ細分できない四種のタスク操作を含む。
アラーム新規作成用タスクテンプレートを例として、アラーム新規作成用タスクテンプレートにおいて、必要なスロット、必要なスロットの内容、必要でないスロット及ぶ必要でないスロットの内容について、次の表の通りに表す。
例えば、ユーザーの音声が「アラームをセットしろ」であれば、取得するユーザーのニーズは、アラームを新規作成することである。
前記ユーザーのニーズにマッチングするような、予め記憶されたすべてのタスクテンプレートを確定し、アラームのタスクテンプレートを新規作成する。
ユーザーからのアラーム新規作成のニーズを、マッチングしたアラーム新規作成のタスクテンプレートにおける必要なスロット「日付」と「タイム」にマッチングする。
この場合、ユーザーからのアラーム新規作成のニーズにおいて、アラーム新規作成用タスクテンプレートに対する必要なスロット位置「日付」と「タイム」という内容がないため、必要なスロットの内容を取得することを実行する必要があり、プリセットガイドルールにより、「日付」と「タイム」を取得する為の対話データを生成してユーザーに提供し、「日付」と「タイム」という内容、例えば、明日及び7時を取得する。
本発明の実施例の上述技術案における音声対話方法は、ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行するが、必要なスロットの内容のみを取得してもよい、一方、音声がタスク操作を起動することに対して所要情報が少なくて、音声がタスク操作を起動する速度が速いため、音声対話のシナリオにおけるユーザーの体験を向上する。
本発明の実施例における上述説明は、すべて前記ユーザーのニーズに必要なスロットの内容が欠如する場合に対する処理方式に関する。以下は、前記ユーザーのニーズにすべての必要なスロットの内容が含まれることについて説明する。
ユーザーのニーズにすべての必要なスロットの内容が含まれる場合、前記タスクテンプレートに対応するタスク操作を起動する。
ここで、各タスクテンプレートは、それぞれ1つのタスク操作に対応する。
前記技術特徴を有する技術案において、ユーザーのニーズにすべての必要なスロットの内容が含まれる場合、前記タスクテンプレートに対応するタスク操作を起動し、音声によりタスク操作を起動する速度が速いため、音声対話のシナリオにおけるユーザーの体験を向上する。
今回のタスク操作を実行したプリセット時間帯において、ユーザーのニーズが今回のタスク操作に対する修正であれば、ユーザーに修正の操作について再び確認し、ユーザーが確認した後に、タスク操作を修正するステップをさらに含む。
アラーム新規作成に成功した後アラームをキャンセルすることを例として、
Q:アラーム新規作成に成功したので、明日朝8時にあなたを呼び覚まします。
A:キャンセルしてください。
Q:明日朝8時にあなたを呼び覚ますアラームをキャンセルしますが、確かにこれを確認しますか?
A:はい、確認します。
Q:アラームを削除しました。
必要でないスロットについて、ユーザーが必要でないスロットの内容を表現した後、本発明の実施例における上述技術案は識別することで、起動されたタスク操作が、ユーザーの繊細な個性化ニーズに更に適合する。但し、ユーザーが表現しない場合、ユーザーの表現がすべての必要なスロットの内容を含む限り、前記タスクテンプレートに対応するタスク操作を起動する。
音声対話のシナリオで、ユーザーの体験を向上することは非常に重要である。ユーザーのニーズに対して、ユーザーの表現を濃縮することで、ユーザーの体験を有効に向上することができる。ユーザー表現の真実性を確実にする為、できるだけオンラインユーザー日誌を使用して濃縮したほうがいい、そうでない場合、表現の多様性を確実にするため、「クラウドソーシング」を通じて複数のユーザーにユーザーの表現を濃縮することに参加させることができる。
濃縮集合の理想的な状況は、2種に分かれ、1つ目が真実なユーザーのニーズを模擬する集合であって、「真実な集合」と呼ばれ、2つ目がプロダクト戦略として後に満足することを望む集合であって、「難度集合」と呼ばれる。「真実な集合」により、真実な効果を評価し、「難度集合」により、戦略最適化の方向を指導する。
ユーザーの表現が濃縮された後、濃縮集合におけるいずれかの対象は、ユーザーのニーズにマッチングすることができる。例えば、ユーザーのニーズが、アラーム新規作成であれば、ユーザーの表現の濃縮集合は、「アラームをセッテしろ」、「アラームを作れ」、「アラームを新規作成しろ」及び「アラーム」等を含む。ユーザーはが音声を通じて濃縮集合における何れかを表現する場合、取得したユーザーのニーズがすべてアラームを新規作成することである。
実施例2
本発明の実施例2は本発明の実施例1に基づき、ユーザーのニーズに欠如する必要なスロットが、具体的に第1種の必要なスロットの内容である。
この状況で、図2に示すように、必要なスロットの内容を取得することは、具体的に下記ステップを含む。
ユーザーのニーズに第1種の必要なスロットの内容が欠如する場合、第1種の必要なスロットの内容を解明するための手順を実行し、具体的に、下記ステップを含む。
ステップS311では、プリセット解明ルールにより、第1種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供する。
ステップS312では、ユーザーの音声を取得し、前記ユーザーの音声に基づいて、前記の第1種の必要なスロットの内容を確定する。
ここで、前記第1種の必要なスロットの内容は、ユーザーに提供されなければならない必要なスロット位置の内容である。
ユーザーのニーズに第1種の必要なスロットの内容が欠如する場合、即ち、ユーザーのニーズに欠如しするのが、ユーザーに提供されなければならない必要なスロットの内容である場合、例えば、アラーム新規作成用タスクテンプレートにおける「日付」と「タイム」という内容、プリセット解明ルールにより、第1種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供し、ユーザーの音声を取得し、前記ユーザーの音声に基づいて、前記第1種の必要なスロットの内容を確定する。これで、比較的に完璧で明確的な意味の表現を便利的に取得することができ、音声によりタスク操作を起動する速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
ユーザーのニーズに第1種の必要なスロットの内容が欠如する場合、1つの内容が欠如する可能性があり、複数の内容が欠如する可能性もある。ユーザーのニーズに1つの第1種の必要なスロットの内容が欠如する場合、直接に本発明の実施例2における前記技術案により解決できる。
ユーザーのニーズに複数の第1種の必要なスロットの内容が欠如する場合、複数の第1種の必要なスロットの内容を逐一取得する必要があり、一定の順序を設置する必要がある。
即ち、プリセット順序に基づいて、欠如する各第1種の必要なスロットの内容に対して、第1種の必要なスロットの内容を解明するためのステップを実行する。
順序をプリセットすることは、複数の第1種の必要なスロットの優先度に基づいて順序を手配してもよい。例えば、優先度の順序に基づいて降順で取得でき、即ち、優先度が比較に高い第1種の必要なスロットの内容を問ってから、優先度が比較に低い第1種の必要なスロットの内容を問う。
第1種の必要なスロットの内容を解明することを実行するステップにおいて、解明効率を決定するのは、解明ルールである。
各第1種の必要なスロットの内容を解明することを実行するステップには、ユーザーとの複数のラウンドの対話を行う必要があるかもしれない。複数のラウンドの対話において、合理的な終了戦略が必要であり、即ち、異なる終了必要である状況の場合、終了する。
まず、受動的に終了する場合、例えば、第1種の必要なスロットの内容を解明することを実行するステップにおいて、ユーザーの入力が、スロットにマッチングしない回数が、プリセット回数に達する、又はプリセット時間帯において前記ユーザーの音声を取得できない場合、タスク操作の起動を終止する。
例えば、アラーム新規作成のタスク操作において、ユーザーの入力が、スロットにマッチングしない回数が、2回に達する、又はプリセット時間帯の40秒以内、前記ユーザーの音声を取得できない場合、アラーム新規作成のタスク操作を起動することを終了する。
それ以外、能動的に終了する場合もあり、ユーザーのニーズにタスク操作のキャンセルが変更すれば、ユーザーに確認リクエストを送信し、ユーザーが前記タスク操作のキャンセルを確認した後に、タスク操作のキャンセルを実行する。
又は、ユーザーのニーズが、他のタスク操作の起動に変更することであれば、修正した他のタスク操作を起動する。
また、各第1種の必要なスロットの内容を解明することを実行するステップには、ユーザーに複数のラウンドの対話を行う必要があるかもしれない。複数のラウンドの対話において、受動的に終了することや能動的に終了することなど意外な別の状況が発生する可能性があるので、一般的な他の状況を処理する必要がある。
第1種の必要なスロットの内容を解明することを実行するステップにおいて、
ユーザーのニーズが、解明した第1種の必要なスロットの内容を修正することである場合、ユーザーが確認した後に修正し、
又は、ユーザーのニーズが、タスク操作のキャンセルに変更することであれば、ユーザーが確認した後に、タスク起動をキャンセルする操作を行う。
複数のラウンドの音声対話において、一般的な状況を処理することによって、より真実的な意味の表現を取得することを実現でき、音声によるタスク操作の起動速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
ユーザーのニーズが、解明した第1種の必要なスロットの内容を修正することである場合、ユーザーが確認した後に修正し、具体的な例は、下記の通りであり、
A:私は、オレンジクリスタルホテル崇文門チェーン店のエグゼクティブルーム(3泊)を注文したいと思います。
Q:ちょっとお尋ねしますが、何日にチェックインしますか?
A:3月18日
Q:オレンジクリスタルホテル崇文門チェーン店、1つのエグゼクティブルーム、3月18日チェックイン、3泊となりますが、確かに確認しますか?
A:3月19日にしましょう。
Q:チェックイン時間を3月19日に変更しますが、確かに確認しますか?
A:はい、確認します。
ユーザーのニーズが、解明した第1種の必要なスロットの内容に対して質問することである場合、解明した第1種の必要なスロットの内容をユーザーに告知する。具体的な例は、下記の通りであり、
...
Q:何を食べたいですか?
A:麦辛鶏足堡セット1部をお願いします。
...
Q:どんな方法で支払いをしたいですか?
A:先ほど、私は、何部かの麦辛鶏足堡セットを注文しましたか?
Q:麦辛鶏足堡セット1部でございます。
Q:どんな方法で支払いをしたいですか?...。
ユーザーのニーズが、他のタスク操作の起動に変更することである場合、修正したタスク操作を起動し、具体的な例は、下記の通りであり、
Q:私に、アラームをセットしてください。
A:何時あなたを呼び覚ましますか?
Q:明日の天気は、如何ですか?
A:「明日天気の状況を放送します」
実施例3
本発明の実施例3は、本発明の実施例1に基づき、ユーザーのニーズに欠如する必要なスロットの内容が、具体的に第2種の必要なスロットの内容であることについて説明する。
この状況で、必要なスロットの内容を取得することが、具体的に、
ユーザーのニーズに第2種の必要なスロットの内容が欠如する場合、ユーザーが使用する端末からローカルに取得した第2種の必要なスロットの内容、例えば、ユーザーの使用する端末のデフォルト値又は現在状態等を取得するステップを含む。
ここで、前記第2種の必要なスロットの内容は、ユーザーが使用する端末からローカルに取得できる必要なスロットの内容である。
天気照会のタスクテンプレートを例として、天気照会のタスクテンプレートにおいて、必要なスロットは場所及び時間を含んで、第2種の必要なスロットであり、ユーザーの使用する端末の現在の場所及び時間を取得することによって、第2種の必要なスロットを充填し、即ち、ユーザーの使用する端末の現在の場所及び時間を、第2種の必要なスロットの内容とする。
ユーザーの使用する端末から、必要なスロットの内容をローカルに取得することは、必ずしも毎回に成功することではない、従って、この状況で、
ユーザーの使用する端末から、必要なスロットの内容をローカルに取得することが失敗した後、
プリセット解明ルールにより、第2種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供するステップと、
ユーザーの音声を取得し、前記ユーザーの音声により、前記の第2種の必要なスロット内容を確定するステップと、をさらに含む。
ユーザーのニーズに第2種の必要なスロットの内容が欠如する場合、ユーザーの使用する端末から、必要なスロットの内容をローカルに取得し、ユーザーの使用する端末から、必要なスロットの内容をローカルに取得することが失敗する場合、プリセット解明ルールにより、第2種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供し、ユーザーの音声を取得し、前記ユーザーの音声により、前記の第2種の必要なスロットの内容を確定する。これで、ある程度で、ユーザーとの対話を減少でき、同時に、比較に完璧で明確的な意味の表現を便利的に取得することを実行でき、音声によるタスク操作を起動する速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
同様に、第2種の必要なスロットの内容を解明することを実行するステップにおいて、解明効率を決定するのは、解明ルールであり、解明ルールは、スロットのタイプに基づいて制定された解明ルールであり、同じ種類のスロットのタイプは、同じ解明ルールを使用する。航空券予約のタスクテンプレートを例とする。
2つの異なるスロットの出発地と目的地は、同じスロットのタイプの都市に属すると分かる。これで、解明ルールは、スロットのタイプに基づいて制定された解明ルールであり、同じ種類のスロットのタイプに対して、同じ解明ルールを使用する。
「質問時間」の通知の新規作成を例として、
「確認必要」時間に曖昧することがあり、即ち、完全に曖昧しないように1つの精確な時刻に指定できなくて、確認必要になる。
a.ユーザーは、1〜11時の時間(日付無し)しか表現しない、24時間内に、要求条件に適合する時間は2つがあるため、具体的な時間を判断できない、ユーザーに少なくとも2つの時間点を与えて質問する必要があり、例えば、
Q:「8時に、私に薬を服用するように通知してください」
A:「今晩の8時ですか?それとも明日の朝8時ですか?」
b.ユーザーは、日付(X月X日、X曜日、明日)+時間を表す場合、当日の24時間内に、要求条件に適合する時間は2つがあるため、事件と時間との関係を正確に識別できなくて、具体的な時間を判断できない、ユーザーに少なくとも2つの時間点を与えて質問する必要があり、例えば 、
Q:「12月31日8時に、私に薬を服用するように通知してください」
A:「12月31日朝8時ですか?それとも12月31日午後8時ですか?」
c.ユーザーは、「明日朝X時に私を呼び覚ましてください」を表現すると、現在の時間が朝3〜6時であり、且つ、モーニングコール時間が現行の時間よりも長いと、今日の朝であるか、それとも明日の朝ですか、例えば、
Q:「明日朝8時に私を呼び覚ましてください」
A:「現在はもう明け方ですが、モーニングコール時間が明日朝8時ですか、それとも今日の朝8時ですか?」
d.ユーザーが表現した日付に曖昧があると、例えば、12月第3週の月曜日、ユーザーに少なくとも2つの時間点を与えて質問する必要があり、例えば、
Q:「12月第3週の月曜日朝8時に私を呼び覚ましてください」
A:「X月X日朝X時ですか、それともX月X日朝X時ですか?」
ユーザーの使用する端末から、ローカルに取得された必要なスロットの内容を、欠如する第2種の必要なスロットの内容とするため、時にはそれがユーザーの真実なニーズではない状況が発生する可能性があり、従って、当該状況に対して、便利な修正方式を提供する必要がある。
前記タスク操作の実行中又は前記タスク操作済み後のプリセット期間内、ユーザーのニーズにより、何れかの前記第2種の必要なスロットの内容が変更した場合、変更後の前記タスクテンプレートに対応するタスク操作を実行する。
ここで、各前記タスクテンプレートは、それぞれ1つの前記タスク操作に対応する。
同じように、天気照会のタスクテンプレートを例として、天気照会のタスクテンプレートにおいて、ユーザーが使用する端末の現在の場所「北京」及び現在の時間「午前9時」を第2種の必要なスロットの内容として、天気予報に対してプリセット時間を設定し、ユーザーの音声が「上海」であり、即ち、ユーザーのニーズには、場所という第2種の必要なスロット内容が変更した場合、変更後の場所「上海」に対する時間を現在時間とする天気予報のタスク操作を実行する。
前記タスク操作の実行中又は前記タスク操作済み後のプリセット時間内、ユーザーは、音声により前記第2種の必要なスロットの内容を変更でき、変更後の前記タスクテンプレートに対応するタスク操作を実行し、出来るだけ早くタスクテンプレートを修正することによって、ユーザーの真実なニーズに適合するタスク操作を実行でき、比較的に真実で明確的な意味の表現を実現でき、音声によるタスク操作を起動する速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
実施例4
本発明の実施例4は、本発明の実施例2と本発明の実施例3との組合せであり、ここではこれ以上言及しないこととする。
実施例5
本発明実施例1〜実施例4はすべて、音声対話方法におけるユーザーに対する対話がタスクタイプの対話である技術案であり、タスクタイプの対話は、ユーザーが1つの特定タスクを完成するのを手伝う対話である。ユーザーの対話は、オープン対話をさらに含み、オープン対話は、特定のテーマがない問答対話と指し、オープン対話も、画像対話、雑談対話及び補完対話を含む。
本発明の実施例5は、実施例1〜実施例4に基づき、オープン対話に対する技術案も含む。
例えば、画像対話に対する技術案は、
前記ユーザーのニーズを、予め記憶された画像テンプレートにマッチングするステップと、
前記ユーザーのニーズに対応する画像テンプレートへのマッチングが成功する場合、前記ユーザーのニーズを、前記ユーザーのニーズに対応する画像テンプレートの情報にマッチングするステップと、
ユーザーのニーズにマッチングする前記情報がある場合、ユーザーにニーズの情報を告知するステップと、をさらに含み、
ここで、前記画像テンプレートは、画像対象の情報により生成されたものである。
画像対話は、ユーザー自身の画像と音声対話方法を実行する音声対話システムの画像を含む。この2種類の対話の目標が異なり、ユーザー自身の画像の対話目標は、ユーザーの情報を発掘し、ユーザー画像に関する肝心な情報を記録し、それに基づいて、個性化のユーザー画像サービスを提供し、音声対話システムの対話目標は、ユーザーに、端末関連情報を告知し、擬人化のイメージを確立し、ユーザーとの間の信任感を増加する。
ユーザー自身の画像について、ユーザー氏名等の肝心なユーザー情報に対する処理を行い、ユーザーがこれらの自分の情報を表現する前提で、音声対話システムは、ユーザーの対応情報を記録し、最終的に、ユーザーが、自分の氏名を覚えているか等の問題を聞く時に、ユーザーにフィードバックする。
音声対話の画像は、音声対話情報のすべての情報と頻繁な個性化情報をカバーする。システム画像に対して、指向性の質疑応答関連話術が配置されていて、主に一問題複数の回答の形で存在し、ユーザーは、具体的な問題を質問する場合、複数の返答から1つの返答を選んでユーザーに返答を与え、同時に、問題に対して、システムの画像がある程度の一般化も行い、十分にたくさんのユーザーの表現を呼び戻しできることを確保する。
例えば、雑談対話に対する技術案は、前記ユーザーのニーズを、予め記憶された雑談テンプレートにマッチングするステップと、
前記ユーザーのニーズに対応する雑談テンプレートへのマッチングが成功する場合、前記ユーザーのニーズを、前記ユーザーのニーズに対応する雑談テンプレートの情報にマッチングするステップと、
ユーザーのニーズにマッチングする前記情報がある場合、ユーザーに告知するステップと、をさらに含み、
ここで、前記雑談テンプレートは、プリセット雑談テーマの情報により生成されたものである。
語義理解能力の技術的な制限により、現在は、ユーザー表現の理解に基づいて、オープンで順暢な雑談をやり遂げることができない、現行の雑談テンプレートは大量なQ&Aコーパスに基づき、ユーザー表現とセマンティクスにおいて、質問に対するマッチング検索を行い、回答を与える。これを見ると、この方式で、論理的に一致するようにユーザーと持続的に雑談することを確保できない、ユーザーの通常の感覚は、一言で雑談してもいい、おしゃべりが多すぎると答えてしまうこともある。
従って、特定の問い合わせのみに対して雑談内容を提供し、ユーザーに、雑談において決して持続的にチャットさせない、このため、プロダクトの役目により、少量の特定の問い合わせに対応する雑談返答を作成し、各返答内容がプロダクトの役目に適合することを確保する。
補完対話に対する技術案を例とする。
補完対話とは、ユーザーのニーズを呼び戻すサービスがない場合、ユーザーに与える補完返答であり、ここで、基本的な応答内容とガイド内容が含まれ、応答内容は、ユーザーに、ユーザーのニーズを満足できないことを告知し、ガイド内容は、ユーザーにこれからの操作を指導する。
ユーザーの音声により取得されたユーザーのニーズが、予め記憶されたタスクテンプレート、画像テンプレート及び雑談テンプレートにマッチングできない場合、補完対話で、ユーザーにユーザーの意味を余りに理解できないと返答し、音声対話方法のロバスト性を向上する。
タスク操作、画像操作及び雑談操作の起動に異常が発生し、サービスを提供できない場合、補完返答において、プリセット補完の論理により答える。
Q:今日の天気は、如何ですか?
A:「サービスに予想外の事態が発生した」天気サービスに予想外の事態が発生しましたが、間もなく回復します。ちょっと後で私に聞いてください。
前記のような表現にとって、現在の状態を表明してから、ユーザーに操作方法を告知するのは、補完対話において不可欠で、スマート音声対話方法において欠かせない部分である。
実施例6
本発明の実施例は、音声対話装置を提供し、図3に示すように、タスクテンプレートを記憶する記憶モジュール110と、
ユーザーの音声により、ユーザーのニーズを取得する取得モジュール120と、
前記ユーザーのニーズにマッチングする予め記憶されたタスクテンプレートを確定し、前記ユーザーのニーズを、マッチングされたタスクテンプレートにおける必要なスロットにマッチングするマッチングモジュール130と、
前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行し、必要なスロットの内容を取得する制御モジュール140と、を備え、
ここで、前記タスクテンプレートは、音声がタスク操作を起動することに必要な情報に基づいて予め生成されるテンプレートであり、前記スロットは前記タスクテンプレートにおける情報であり、前記必要なスロットは前記タスクテンプレートにおいてタスク操作を起動することに用いられる必要な情報である。
本発明の実施例における前記技術案の音声対話装置の制御モジュールは、前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行するが、必要なスロットの内容を取得してもよい。本発明の実施例における前記技術案の音声対話装置は、音声がタスク操作を起動することに対して所要情報が少なくて、音声がタスク操作を起動する速度が速いため、音声対話のシナリオにおけるユーザーの体験を向上する。
本発明の実施例における前記説明内容は、すべて前記ユーザーのニーズに必要なスロットの内容が欠如する場合に対する処理方式に関する。以下は、前記ユーザーのニーズにすべての必要なスロットの内容が含まれることについて説明する。
制御モジュールはユーザーのニーズにすべての必要なスロットの内容が含まれる場合、前記タスクテンプレートに対応するタスク操作を起動するようにさらに設置される。
ここで、各タスクテンプレートはそれぞれ1つのタスク操作に対応する。
前記技術特徴を有する技術案において、ユーザーのニーズにすべての必要なスロットの内容が含まれる場合、制御モジュールが前記タスクテンプレートに対応するタスク操作を起動し、音声によりタスク操作を起動する速度が速いため、音声対話のシナリオにおけるユーザーの体験を向上する。
必要でないスロットの内容について、ユーザーが表現した後、本発明の実施例における前記技術案は識別することで、起動されたタスク操作が、ユーザーの繊細な個性化ニーズに更に適合する。但し、ユーザーが表現しない場合、ユーザーの表現がすべての必要なスロットの内容を含む限り、前記タスクテンプレートに対応するタスク操作を起動する。
実施例7
本発明の実施例7は本発明の実施例6に基づき、ユーザーのニーズに欠如する必要なスロットの内容が、具体的に第1種の必要なスロットの内容である。
この状況で、制御モジュールは、ユーザーのニーズに第1種の必要なスロットの内容が欠如する場合、第1種の必要なスロットの内容を解明するステップを実行し、具体的に、プリセット解明ルールに基づいて第1種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供するステップと、
前記取得モジュールを介して、ユーザーの音声を取得し、前記ユーザーの音声により、前記の第1種の必要なスロットの内容を確定するステップと、を含み、
ここで、前記第1種の必要なスロットの内容は、ユーザーにより提供されなければならない必要なスロットの内容である。
これで、第1種の必要なスロットの内容を取得でき、比較に完璧で明確的な意味の表現を便利的に取得でき、これで、音声によりタスク操作の起動速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
ユーザーのニーズに第1種の必要なスロットの内容が欠如するのは、1つが欠如する可能性があり、複数が欠如する可能性もある。欠如する第1種の必要なスロットの内容は1つである場合、直接に本発明の実施例7における前記技術案で解決できる。
ユーザーのニーズに複数の第1種の必要なスロットの内容が欠如する場合、複数の第1種の必要なスロットの内容を逐一取得する必要もあり、一定の順序を設置する必要もある。具体的は、下記の通りである。
制御モジュールはプリセット順序に基づいて、欠如する各第1種の必要なスロットの内容に対して、第1種の必要なスロットの内容を解明するためのステップを実行する。
プリセット順序は、複数の第1種の必要なスロットの優先度に基づいて順序を手配してもよい、例えば、優先度の順序に基づいて降順で取得でき、即ち、優先度が比較に高い第1種の必要なスロットの内容を問ってから、優先度が比較に低い第1種の必要なスロットの内容を問う。
第1種の必要なスロットの内容を解明することを実行するステップにおいて、解明効率を決定するのは、解明ルールである。
各第1種の必要なスロットの内容を解明することを実行するステップには、ユーザーとの複数のラウンドの対話を行う必要があるかもしれない。複数のラウンドの対話において、合理的な終了戦略が必要であり、即ち、異なる終了必要である状況の場合、終了する。
まず、受動的に終了する場合、例えば、制御モジュールは、第1種の必要なスロットの内容を解明することを実行するステップにおいて、ユーザーの入力が、スロットにマッチングしない回数が、プリセット回数に達する、又はプリセット時間帯において、前記ユーザーの音声を取得できない場合、タスク操作の起動を終止する。
また、各第1種の必要なスロットの内容を解明することを実行するステップには、ユーザーに複数のラウンドの対話を行う必要があるかもしれない。複数のラウンドの対話において、ユーザーには、受動的に終了することや能動的に終了することなど意外な別の状況が発生する可能性があるので、一般的な他の状況を処理する必要がある。
第1種の必要なスロットの内容を解明することを実行するステップにおいて、
制御モジュールは、ユーザーのニーズが第1種の必要なスロット内容を修正することである場合、ユーザーが確認した後に修正し、又は、制御モジュールは、ユーザーのニーズがタスク操作のキャンセルに変更することであれば、ユーザーに確認リクエストを送信し、ユーザーにより、前記タスク操作のキャンセルを確認してから、前記タスク操作のキャンセルを実行する。
複数のラウンドの対話において、一般的な状況を処理することによって、より真実的な意味の表現を取得することを実現でき、音声によるタスク操作の起動速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
実施例8
本発明の実施例8及び本発明の実施例6に基づき、ユーザーのニーズに欠如する必要なスロットの内容が、具体的に第2種の必要なスロット内容である場合について説明する。
この状況で、制御モジュールは、ユーザーのニーズに欠如するものが第2種の必要なスロットの内容である場合、ユーザーが使用する端末からロカールに取得された前記第2種の必要なスロットの内容、例えば、ユーザーの使用する端末のデフォルト値又は現在状態等、を取得する。
ここで、前記第2種の必要なスロットの内容は、ユーザーが使用する端末から、ローカルに取得できる必要なスロットの内容である。
ユーザーの使用する端末から、必要なスロットの内容をローカルに取得するのは必ずしも毎回に成功することではない、従って、この状況で、
制御モジュールは、ユーザーの使用する端末から、必要なスロットをローカルに取得するのが失敗した後、プリセット解明ルールにより、第2種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供し、ユーザーの音声を取得し、前記ユーザーの音声により、前記の第2種の必要なスロットの内容を確定するように更に設置される。
本発明の実施例における前記技術案は、ある程度で、ユーザーとの対話を減少でき、同時に、比較に完璧で明確的な意味の表現を便利的に取得でき、これで、音声によるタスク操作の起動速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
ユーザーの使用する端末から、ローカルに取得された必要なスロットの内容、例えば、ユーザーの使用する端末のデフォルト値又は現在状態を、欠如する第2種の必要なスロットの内容とする場合、ある状況でユーザーの真実なニーズではない状況があり、従って、当該状況に対して、便利な修正方式を提供する必要がある。
制御モジュールは、前記タスク操作の実行中、又は前記タスク操作の実行後のプリセット時間帯において、ユーザーのニーズに何れかの前記第2種の必要なスロット内容が変更した場合、変更後の前記タスクテンプレートに対応するタスク操作を実行するように設置される。
ここで、各タスクテンプレートは、それぞれ1つの前記タスク操作に対応する。
前記タスク操作の実行中、又は前記タスク操作の実行後のプリセット時間帯において、ユーザーは、音声を通じて前記第2種の必要なスロットの内容を変更し、変更後の前記タスクテンプレートに対応するタスク操作を実行でき、出来るだけ早くタスクテンプレートを修正することによって、ユーザーの真実なニーズに適合するタスク操作を実行でき、より真実で明確的な意味の表現を取得することを実現でき、これで、音声によるタスク操作の起動速度の向上に役立ち、音声対話のシナリオにおけるユーザーの体験を向上する。
実施例9
本発明の実施例9は、本発明の実施例7と本発明の実施例8との組合せであり、ここではこれ以上言及しないこととする。
実施例10
本発明の実施例10は、端末を提供し、図4に示すように、1つ又は複数のプロセッサ210と、
1つ又は複数のプログラムを記憶する記憶装置220と、を備え、
前記1つ又は複数のプログラムが、前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに本発明実施例1〜5におけるいずれかの方法を実現させる。
実施例11
本発明の実施例11は、サーバを提供し、図5に示すように、
1つ又は複数のプロセッサ310と、
1つ又は複数のプログラム及びタスクテンプレートを記憶する記憶装置320と、を備え、
前記1つ又は複数のプログラムが、前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに本発明実施例1〜5におけるいずれかの方法を実現させる。
実施例12
本発明の実施例12は、コンピューター可読記憶媒体を提供する。該コンピューター可読記憶媒体はコンピュータープログラムを記憶し、当該プロセッサが、プロセッサにより実行される場合、本発明実施例1〜5におけるいずれかの方法を実現させることを特徴とする。
本発明のすべての実施例において、音声対話は、ユーザーと対話する必要がある。従って、音声対話において、ユーザーへの問い合わせは必須である。ユーザーへの問い合わせは、音声対話シナリオにおけるユーザー体験を高めるため、設計する必要があり、すなわち問い合わせに対する話術を行う必要がある。
話術の設計が比較に主観的であるので、プロダクトの役目を定義し、これをもとにして話術を設計する。話術自身が尽きることがないので、ここでプロダクトの役目の定義によって、話術の設計方法を提供する。
まず、対話における内容を、話術スロットと話術という2種類に分け、話術スロットは、話術に含まれるべき基本元素を指し、話術がどのように書かれても、対応する要素が必要であり、例えば、
Q:歌を再生してください。
A:趙雷さんの「成都」を推薦いたします。
ここで、話術スロットは、{曲名}と{歌手名前}であり、この文で完全に表現する他の補助内容は話術スロットと一緒に話術を構成する。
当該方法は2つの部分に分かれる。1つ目が話術を作成するフローであり、2つ目が話術を作成する原則である。
1 話術作成フロー
タスクタイプの対話とオープンタイプの対話について、話術作成フローが異なる。
1.1 タスクタイプの対話に対する話術フローの作成フローは、対話フローの設計、話術要素の設計及び話術の作成を含む。
対話フローの設計
スクリプトを作るような形で、ユーザーの頻繁に使用する対話フローを作成することができ、対応フローには、主対話フローを含むと同時に、各種の予想外分岐フローも考えなければならない、これで完璧な対話フローを形成する。
話術要素の設計
話術要素は、特定な返答に含まれる必要がある情報であり、対話フローにおける各回答に含まれる必要がある話術要素を抽出して、後続の話術の作成に備える。
話術の作成
以上の概念で述べたように、話術が基本話術と特別話術を含み、設備のシナリオに対して特殊なニーズがなければ、共通のプロダクト主役目を作成原則として、一番簡潔ではっきりしている基本話術を作成する。設備のシナリオに対して特殊なニーズがあれば、対応するプロダクト役目に基づいて特別話術を作成する。
1.2 オープンタイプの対話に対する話術の作成フローは、話術原則を定義するステップと、話術を作成擦るステップと、を含む。
話術原則を定義する
定義されたプロダクトの役目性格に基づいて、具体的な対話細則を作成し、オープンタイプの対話細則を作成する際、下記の設定を遵守すべきである。
(1)オープンタイプの対話は補助にすぎない。開発するものはタスクタイプの対話システムであるので、補完、チャット及び画像等の特殊なシナリオのみでオープンタイプの対話を導入し、従って、オープンタイプ対話を慎重に使用し、タスクタイプの対話システムの補充しかとしない。
(2)余計にオープンタイプの対話を行わない。自然な言語識別技術の能力制限により、オープンタイプの対話は、ユーザーの語意を理解したことに基づく返答ではない、従って、ユーザーが多すぎのオープンタイプの対話を行うことをガイドしてはいけない、各返答は、ユーザーの返答を誘導しないことを第一原則とする。
話術の作成
補完、雑談及び画像描画に対する話術の作成の方式が異なるので、各自の原則を簡単に説明する。
(1)戦略に応じて問い合わせを選ぶ。補完、雑談及び画像描画における話術を作成する必要がある問い合せの選択ルールが異なり、補完によりユーザーの意図を、表現によって細分し、各種類の意図に対して問い合せを濃縮し、雑談において、人気の問い合せに対して濃縮し、画像描画においては、内容のある画像回答に対して問い合せを濃縮する。
(2)各問い合わせを一般化する必要がある。各問い合わせをできるだけ一般化する必要があるので、類似の問い合わせに対する回答を繰り返して作成する必要がない。
(3)各返答を3つ以上作成する必要がある。各種類の問い合わせに対して、同じ返答を繰り返して行ってはいけない、少なくとも3つの異なる返答用話術をランダムに表示する必要がある。
2 話術の作成における原則
前記原則を全体原則、話術解明原則及び話術満足原則に分け、内容については、それぞれ下記の通りである。
2.1 全体原則
全体原則は、複数の面を含み、それぞれ下記の通りである。
対話のスタイルが正しい
人の話しのスタイルが相対に固定で、殆どのシナリオにおいて、スタイル設定に適合するようになるが、時には特定な話題について話す際に、差異があり、例えば、音楽を愛する人は、普段チャットする際に音楽を言及すると、一層興奮する。従って、対話のスタイルが2種に分かれ、1種が主スタイルであり、他の1種が、特定なシナリオにおけるスタイルであり、従って、対話のスタイルの正確性を確保すると同時に、偶に特定なシナリオで、微小な変化を有することは、第1原則である。
段落返答の原則
いずれかの対話返答において、大きい段落のような返答を避けることが必要であり、大きい段落の文字で返答しなければならない場合、遵守すべき唯一の原則として論理が明瞭であり、論理をはっきりさせるために、段落の返答が下記の3つの状況に分かれる。
推奨の接続詞を使用して段落における各内容を接続し、段落構造の明晰性を確保する。
言葉の選択原則
A. 単語の選択原則
常用語を優先にし、最もよく使われる文字を選択して表現し、例えば、「必要がない」を勧めるが、「無用」を勧めない。
曖昧性のない単語を優先にし、できるだけ多音語及び多義語を使用せず、曖昧性のない表現を選択する。
非流行語を優先にし、流行するネットワーク単語を使用しない、なぜかというと、流行するものが時代遅れになりやすいためである。
単語の品詞に対する選択について、動詞と名詞を主にとし、可能な限り少ない形容詞を使用し、必要に応じて、よく使われる形容詞を選び、言語合成標記語にうまく定義される擬声語がない限り、擬声語を選択しない、テキストから音声放送までの状況で、擬声語が話しぶりをうまく伝えることを確保する。
B. 人称の選択原則
一人称:自称する時に、名称自身の代わりに、できるだけ「私」を使用する。
二人称:「君」ではなくて、ユーザーを「あなた」と称する。
話術のテスト原則
話術設計をした後、テストする必要があり、テストする際に、下記の原則を遵守しなければならない。
読み体験テスト
話術の設計者は、話術の作成を完成した後、ユーザーと対話演習を行い、互いに大きな声で読み問答を行う。この過程で、話術の表現が自然で順暢であるか体験できる。
一息の順調読むテスト
一言だけでユーザーに返答する場合、できるだけこの文を一息に気軽で読むようにし、できない場合、できるだけ簡潔な話術を使用する必要がある。
上文忘れのテスト
原則の上、各文の話術において、音声対話の表現を忘れても、自分が何をすべきか、何の問題に答えるか相変わらず了解しようとする。
2.2 解明話術原則
定義
解明話術というのは、対話において、ユーザーが表現したスロット情報を解明し、又はユーザーの意図を確認する対話話術である。実例として、下記の通りである。
Q:私に、アラームを設定してください。
A:何時にあなたを呼び覚ましますか?
以上の例における回答の内容は、解明話術であり、次に、解明話術を詳細に説明する。
基本原則
2.2.1 話術の文型に、疑問文を使用し、目標を明確にしようとする。
2.2.1.1 問い合わせを行う時、毎回に1つのスロットしか問合せない、閉鎖型解答を有する問題しか問い合わせない、ユーザーには、自分でどのように回答するか明確に了解させる。
2.2.1.2 終わりに疑問句を使用する。解明話術は、必ず1つの疑問句であり、「?」を文の終わりにし、複数の記述必要な内容を有する場合、まずこれらをユーザーに表し、語尾に平叙文を終わりとして使用する。
2.2.1.3 ユーザーにどのように表現するかについて案内する必要がある場合、表現を案内する説明を前置きし、解明話術を終わりとして語尾に置く。
2.2.2 文は簡単な文型を使用しなければならない、筋が通ってわかりやすい。
2.2.2.1 文型構造が簡単で筋が通って、倒置文型を使用しない。
2.2.2.2 解明話術において、「ちょっとお尋ねしますが」と「申し訳ありませんが」というような丁寧なお詫びの気持ちを表す語句を直接に省略し、文を短縮し、直接にコミュニケーションを行っても良いであり、これで、解明話術の構造を、「直接的な問題」にするか又は「ユーザーのフィードバック」+「直接的な問題」にする。
2.2.3 話術は、くどいではなく、自然にシンプルである。
2.2.3.1 文の長さが適切で、文の長さが正常な話速で、一息に全部話したことが最適であり、これで、ユーザーの注意力分散の前に、全体的な文の内容を理解できるようにする。
2.2.3.2 指示語を適切に使用し、文において、できるだけユーザーの既知の内容を省略し、解明の時、文の構造の完全性を求めない、なぜかというと、文の構造の完全性より正確性と簡単性のほうが一層重要である。注意すべきは、指示語を使用する時に、ユーザーの問題に対して指してもいいし、現行のユーザーに対する返答または前に言及した内容を指しても良い、但し、前のラウンドでの返答又は前のラウンドでユーザーにより表現された内容を指してはいけない。
2.2.3.3 擬音語、例えば、「ワンワン」、「ドンドン」等を、できるだけ使用せず、又は少なく使用しない。
2.3 満足話術原則
定義
対話を通じて、ユーザーのニーズを直接に満足し、ユーザーの問題に対する返答の内容を、対話の「満足」と称する。
Q:1プラス1は何ですか?
A:1プラス1は2になります。
次に、満足話術の特殊な原則を説明する。
基本原則
2.3.1 話術の文型は、平叙文を使用し、返答が明確である。
2.3.1.1 できるだけ平叙文で表現し、返答において問題を設置せず、現行の返答をこの文の対話の終わりとする。
2.3.1.2精確なニーズに対して、ユーザーの情報ニーズを満足する場合、ユーザーのニーズを繰り返して、条件を明確にする必要がある。
2.3.1.3 総括推薦の満足について、できるだけユーザーに現在満足している内容の情報を告知する。
2.3.2 文は、簡単な文型を使用し、筋が通っていてわかりやすい。
2.3.2.1 文の構造が簡単であり、倒置又は多すぎの従文を使用しない、その上、形容詞を連ねてはいけない、代わりに、論理的で明瞭な普通の記述を使用する。
2.3.2.2 文の構造の可読性が高い、大量な単語を並列してはいけない、できるだけ単語をクラスターに分け、口語の話し方を模擬しようとし、ユーザーの注意力を引き付ける。
2.3.3 制御類満足は、簡潔で明確である。
2.3.3.1 フィードバック遅延に対して、より大きい満足があるかもしれない、ユーザーが待っているので、ユーザーのニーズを理解するかどうか確定できない可能性があり、従って、「はい」というフィードバックを与えてから、後続のタスクを実行する。
2.3.3.2 遅延が殆どない満足に対して、ユーザーが満足行為の結果の音声フィードバックを通じて、操作が実行されたか明確に了解できるので、専門的な応答の話術がなくても良い。
2.3.3.3 明確的なフィードバックがない制御類ニーズに対して、操作完成後の状態をユーザーに告知する必要がある。
本明細書の説明において、用語「一実施例」、「幾つかの実施例」、「例」、「具体例」、又は「幾つかの例」等を参照する記載は、該実施例又は例を参照して説明された具体的な特徴、構造、材料又は特性が本発明の少なくとも1つの実施例又は例に含まれることを意味する。さらに、説明された具体的な特徴、構造、材料又は特性はいずれか又は複数の実施例又は例において適宜な方式で組み合わせることができる。また、矛盾しない限り、当業者は本明細書に記載の異なる実施例又は例及び異なる実施例又は例の特徴を組み合わせることができる。
また、用語「第1」、「第2」は説明目的でのみ使用されており、相対重要性を指示又は示唆したり、指示した技術的特徴の数を黙示的に指示したりするものではない。従って、「第1」、「第2」を付けて定義された特徴は少なくとも1つの該特徴を明示的又は黙示的に含むと理解できる。本発明の説明において、「複数」は、特に断らない限り、2つ又は2つ以上を意味する。
フローチャートにおいて又はここでほかの形態で説明されたすべてのプロセス又は方法についての説明は、特定のロジック機能又はプロセスのステップを実現するための1つ又は複数の実行可能な命令を含むコードのモジュール、セグメント又は部分を示すと理解でき、且つ、当業者であれば、本発明の好適実施形態の範囲は別の実現を含み、示された又は検討された順序にもかかわらず、係る機能に応じてほぼ同時に又は反対順序で機能を実行してもよいと理解できる。
フローチャートに示された又はここでほかの形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令のシーケンスリストとしてみなされてもよく、具体的には、命令実行システム、装置又は機器(例えば、コンピュータに基づくシステム、プロセッサを備えたシステム、又は命令実行システム、装置又は機器から命令を読み取って命令を実行するほかのシステム)の使用に供し、又はこれらの命令実行システム、装置又は機器と組み合わせて使用するように、任意のコンピュータ可読媒体に実現される。本明細書において、「コンピュータ可読媒体」は、命令実行システム、装置又は機器の使用に供し、又はこれらの命令実行システム、装置又は機器と組み合わせて使用するように、プログラムを具備、記憶、通信、伝播又は伝送できる装置である。
本発明の実施例に記載のコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又はそれらの任意の組合せであってもよい。コンピュータ可読記憶媒体のより具体的な例は少なくとも(非網羅的なリスト)、1つ又は複数の配線を有する電気接続部(電子装置)、ポータブルコンピュータディスクボックス(磁装置)、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、ファイバ装置、及びポータブル読み取り専用メモリ(CDROM)を含む。また、コンピュータ可読記憶媒体はさらに、前記プログラムを印刷可能な紙やほかの適切な媒体であってもよく、例えば紙やほかの媒体を光走査し、続いて編集、解釈し又は必要に応じてほかの適宜な形態で処理して前記プログラムを電子的に取得し、その後、コンピュータメモリに記憶する。
本発明の実施例では、コンピュータ可読信号媒体はベースバンドに伝播されるデータ信号又は搬送波の一部として伝播されるデータ信号を含んでもよいし、前記データ信号はコンピュータ可読プログラムコードを搭載する。このような伝播されるデータ信号は様々な形態であり、電磁信号、光信号又は上記任意の適切な組合せを含むが、それに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、入力法又はデバイスに用いられるプログラム又はそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送できる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送でき、無線、ワイヤー、ケーブル、無線周波数(Radio Frequency、RF)等、又はそれらの任意の適切な組合せを含むが、それらに限定されない。
なお、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組合せによって実現できると理解できる。上記実施形態では、複数のステップ又は方法は、メモリに記憶され且つ適切な命令実行システムにより実行されるソフトウェア又はファームウェアによって実現できる。例えば、ハードウェアで実現される場合、別の実施形態と同様に、データ信号に対してロジック機能を実現するための論理ゲート回路を有する離散論理回路、適切な組合せ論理ゲート回路を有する特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)等という公知技術のうちのいずれか又はそれらの組合せによって実現できる。
当業者は、上記実施例の方法に含まれるすべて又は一部のステップを、プログラムによって関連ハードウェアに命令を出して完成させることができ、前記プログラムはコンピュータ可読記憶媒体に記憶され、該プログラムが実行される時、方法の実施例のステップのいずれか又はそれらの組合せを含むと理解できる。
また、本発明の各実施例の各機能ユニットは1つの処理モジュールに集積されてもよいし、各ユニットは別々に物理的に存在してもよいし、2つ又は2つ以上のユニットは1つのモジュールに集積されてもよい。上記集積したモジュールはハードウェアの形態で実現されてもよく、ソフトウェア機能モジュールの形態で実現されてもよい。前記集積したモジュールがソフトウェア機能モジュールの形態で実現されて且つ独立した製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよい。
以上、本発明の具体的な実施形態を説明したが、本発明の保護範囲を限定するものではなく、本発明に開示された技術的範囲を逸脱せずに当業者が容易に想到し得る種々の変更や置換はすべて、本発明の保護範囲に属する。従って、本発明の保護範囲は特許請求の範囲に定められる。
110 記憶モジュール
120 取得モジュール
130 マッチングモジュール
140 制御モジュール
210 端末のプロセッサ
220 端末の記憶装置
310 サーバのプロセッサ
320 サーバの記憶装置

Claims (18)

  1. ユーザーの音声により、ユーザーのニーズを取得するステップと、
    前記ユーザーのニーズにマッチングする予め記憶されるタスクテンプレートを確定するステップと、
    前記ユーザーのニーズを、マッチングするタスクテンプレートにおける必要なスロットにマッチングさせるステップと、
    前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行し、必要なスロットの内容を取得するステップと、を含み、
    前記タスクテンプレートは、音声がタスク操作を起動することに必要な情報に基づいて予め生成されるテンプレートであり、前記スロットは前記タスクテンプレートにおける情報であり、前記必要なスロットは前記タスクテンプレートにおいてタスク操作を起動することに用いられる必要な情報であることを特徴とする音声対話方法。
  2. 前記必要なスロットの内容を取得するステップは、
    ユーザーのニーズに第1種の必要なスロットの内容が欠如する場合、第1種の必要なスロットの内容を解明するステップを実行することは、
    プリセット解明ルールにより、第1種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供するステップと、
    ユーザーの音声を取得し、前記ユーザーの音声により、前記第1種の必要なスロットの内容を確定するステップと、を含み、
    前記第1種の必要なスロットの内容は、ユーザーによって提供されなければならない必要なスロットの内容であるステップを含むことを特徴とする請求項1に記載の方法。
  3. ユーザーのニーズに複数の第1種の必要なスロットの内容が欠如する場合、プリセット順序に基づいて、欠如する各第1種の必要なスロットの内容に対して、第1種の必要なスロットの内容を解明するステップを実行することを特徴とする請求項2に記載の方法。
  4. 第1種の必要なスロットの内容を解明するステップを実行することにおいて、ユーザーの入力がスロットにマッチングしない回数は、プリセット回数に達する、又はプリセット時間帯において前記ユーザーの音声を取得できない場合、タスク操作の起動を終止するステップをさらに含むことを特徴とする請求項2に記載の方法。
  5. 第1種の必要なスロットの内容を解明するステップを実行することにおいて、
    ユーザーのニーズが、解明された第1種の必要なスロットの内容を修正することである場合、ユーザーが確認した後に修正し、
    又は、ユーザーのニーズが、解明された第1種の必要なスロットの内容を問い合わせることである場合、解明された第1種の必要なスロットの内容をユーザーに告知し、
    又は、ユーザーのニーズが、タスク操作をキャンセルすることである場合、確認リクエストをユーザーに送信し、ユーザーが前記タスク操作のキャンセルを確認した後に、前記ルタスク操作のキャンセを実行し、
    又は、ユーザーのニーズが、他のタスク操作を起動することである場合、他のタスク操作の起動を実行することを特徴とする請求項2に記載の方法。
  6. 前記必要なスロットの内容を取得するステップは、ユーザーのニーズに第2種の必要なスロットの内容が欠如する場合、ユーザーの使用する端末から、ローカルに取得された前記第2種の必要なスロットの内容を取得するステップを含み、
    前記第2種の必要なスロットの内容は、ユーザーの使用する端末から、ローカルに取得できる必要なスロットの内容であることを特徴とする請求項1に記載の方法。
  7. ユーザーの使用する端末から、ローカルに取得された必要なスロットの内容を取得することが失敗した後、プリセット解明ルールにより、第2種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供するステップと、
    ユーザーの音声を取得し、前記ユーザーの音声により、前記第2種の必要なスロットの内容を確定するステップとをさらに含むことを特徴とする請求項6に記載の方法。
  8. ユーザーのニーズにすべての必要なスロットの内容が含まれる場合、前記タスクテンプレートに対応するタスク操作を実行するステップと、
    前記タスク操作の実行中、又は前記タスク操作の実行後のプリセット時間帯において、ユーザーのニーズに何れかの前記第2種の必要なスロットの内容が変更した場合、変更後の前記タスクテンプレートに対応するタスク操作を起動するステップとをさらに含み、
    各前記タスクテンプレートは、それぞれ1つの前記タスク操作に対応することを特徴とする請求項6に記載の方法。
  9. ユーザーのニーズにすべての必要なスロットの内容が含まれる場合、前記タスクテンプレートに対応するタスク操作を実行するステップをさらに含み、
    各前記タスクテンプレートは、それぞれ1つのタスク操作に対応することを特徴とする請求項1〜7のいずれか1項に記載の方法。
  10. 今回のタスク操作の実行後のプリセット時間帯において、ユーザーのニーズが今回のタスク操作を修正することである場合、
    ユーザーに修正の操作について再び確認し、ユーザーが確認した後に、タスク操作を修正するステップをさらに含むステップをさらに含むことを特徴とする請求項9に記載の方法。
  11. タスクテンプレートを記憶する記憶モジュールと、
    ユーザーの音声により、ユーザーのニーズを取得する取得モジュールと、
    前記ユーザーのニーズにマッチングする予め記憶されるタスクテンプレートを確定し、前記ユーザーのニーズを、マッチングするタスクテンプレートにおける必要なスロットにマッチングさせるマッチングモジュールと、
    前記ユーザーのニーズに必要なスロットの内容が欠如する場合、必要なスロットの内容を取得するステップを実行し、必要なスロットの内容を取得する制御モジュールとを備え、
    前記タスクテンプレートは、音声がタスク操作を起動することに必要な情報に基づいて予め生成されるテンプレートであり、前記スロットは前記タスクテンプレートにおける情報であり、前記必要なスロットは前記タスクテンプレートにおけるタスク操作を起動することに用いられる必要な情報であることを特徴とする音声対話装置。
  12. 前記制御モジュールは、ユーザーのニーズに第1種の必要なスロットの内容が欠如する場合、第1種の必要なスロットの内容を解明するステップを実行することは、
    プリセット解明ルールにより、第1種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供するステップと、
    前記取得モジュールを介してユーザーの音声を取得し、前記ユーザーの音声により、前記第1種の必要なスロットの内容を確定するステップとを含み、
    前記第1種の必要なスロットの内容は、ユーザーによって提供されなければならない必要なスロットの内容であることを特徴とする請求項11に記載の装置。
  13. 前記制御モジュールは、欠如する第1種の必要なスロットの内容が複数である場合、プリセット順序に基づいて、欠如する各第1種の必要なスロットの内容に対して、第1種の必要なスロットの内容を解明するステップを実行することを特徴とする請求項12に記載の装置。
  14. 前記制御モジュールは、ユーザーのニーズに欠如するものが第2種の必要なスロットの内容である場合、ユーザーの使用する端末から、ローカルに取得された第2種の必要なスロットの内容を取得し、
    前記第2種の必要なスロットの内容は、ユーザーの使用する端末から、ローカルに取得できる必要なスロットの内容であることを特徴とする請求項11に記載の装置。
  15. 前記制御モジュールは、ユーザーの使用する端末から、ローカルに取得された必要なスロットの内容を取得することが失敗した後に、
    プリセット解明ルールにより、第2種の必要なスロットの内容を解明するための対話データを生成してユーザーに提供するステップと、
    ユーザーの音声を取得し、前記ユーザーの音声により、前記の第2種の必要なスロットの内容を確定するステップとを実行することを特徴とする請求項14に記載の装置。
  16. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶する記憶装置とを備え、
    1つ又は複数のプログラムが、前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1〜10のいずれか1項に記載の方法を実現することを特徴とする端末。
  17. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラム及びタスクテンプレートを記憶する記憶装置とを備え、
    前記1つ又は複数のプログラムが、前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに、請求項1〜10のいずれか1項に記載の方法を実現することを特徴とするサーバ。
  18. コンピュータープログラムを記憶し、当該コンピュータープログラムが、プロセッサにより実行される場合、請求項1〜10のいずれか1項に記載の方法を実現することを特徴とするコンピューター可読記憶媒体。
JP2018147750A 2017-11-16 2018-08-06 音声対話方法、装置、端末、サーバ及び可読記憶媒体 Pending JP2019091007A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711138336.4 2017-11-16
CN201711138336.4A CN107886948A (zh) 2017-11-16 2017-11-16 语音交互方法及装置,终端,服务器及可读存储介质

Publications (1)

Publication Number Publication Date
JP2019091007A true JP2019091007A (ja) 2019-06-13

Family

ID=61777109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018147750A Pending JP2019091007A (ja) 2017-11-16 2018-08-06 音声対話方法、装置、端末、サーバ及び可読記憶媒体

Country Status (3)

Country Link
US (1) US11335339B2 (ja)
JP (1) JP2019091007A (ja)
CN (1) CN107886948A (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599192A (zh) * 2018-05-23 2019-12-20 阿里巴巴集团控股有限公司 一种用户订单的定位方法、设备以及系统
US10770066B2 (en) * 2018-05-31 2020-09-08 Robert Bosch Gmbh Slot filling in spoken language understanding with joint pointer and attention
CN108920603B (zh) * 2018-06-28 2021-12-21 厦门快商通信息技术有限公司 一种基于客服机器模型的客服引导方法
CN108922531B (zh) * 2018-07-26 2020-10-27 腾讯科技(北京)有限公司 槽位识别方法、装置、电子设备及存储介质
JP7252327B2 (ja) * 2018-10-10 2023-04-04 華為技術有限公司 人間とコンピュータとの相互作用方法および電子デバイス
CN109634550A (zh) * 2018-11-20 2019-04-16 维沃移动通信有限公司 一种语音操作控制方法及终端设备
CN109901896A (zh) * 2018-12-06 2019-06-18 华为技术有限公司 一种人机交互系统及人机交互系统中多任务处理方法
CN109712619B (zh) * 2018-12-24 2020-12-11 出门问问信息科技有限公司 一种解耦对话假设并执行的方法、装置及语音交互系统
CN111427992A (zh) 2019-01-10 2020-07-17 华为技术有限公司 对话处理方法及设备
CN109672786B (zh) * 2019-01-31 2021-08-20 北京蓦然认知科技有限公司 一种来电接听方法及装置
CN110633426A (zh) * 2019-02-26 2019-12-31 北京蓦然认知科技有限公司 一种智能交互平台中的任务处理方法及装置
CN110310641B (zh) * 2019-02-26 2022-08-26 杭州蓦然认知科技有限公司 一种用于语音助手的方法及装置
US11769016B2 (en) * 2019-03-27 2023-09-26 Apple Inc. Generating responses to user interaction data based on user interaction-styles
CN110111787B (zh) * 2019-04-30 2021-07-09 华为技术有限公司 一种语义解析方法及服务器
CN110211001A (zh) * 2019-05-17 2019-09-06 深圳追一科技有限公司 一种酒店助理客服系统、数据处理方法及相关设备
WO2020258082A1 (zh) * 2019-06-26 2020-12-30 深圳市欢太科技有限公司 信息推荐方法、装置、电子设备以及存储介质
CN110297617B (zh) * 2019-06-28 2021-05-14 北京蓦然认知科技有限公司 一种主动对话的发起方法和装置
CN110798506B (zh) * 2019-09-27 2023-03-10 华为技术有限公司 执行命令的方法、装置及设备
CN111223485A (zh) * 2019-12-19 2020-06-02 深圳壹账通智能科技有限公司 智能交互方法、装置、电子设备及存储介质
CN111128121B (zh) * 2019-12-20 2021-04-30 贝壳找房(北京)科技有限公司 语音信息生成方法和装置、电子设备和存储介质
CN111105800B (zh) * 2019-12-26 2022-07-15 百度在线网络技术(北京)有限公司 语音交互处理方法、装置、设备和介质
CN113132214B (zh) * 2019-12-31 2023-07-18 深圳市优必选科技股份有限公司 一种对话方法、装置、服务器及存储介质
CN111368191B (zh) * 2020-02-29 2021-04-02 重庆百事得大牛机器人有限公司 基于法律咨询交互过程的用户画像系统
CN111488444A (zh) * 2020-04-13 2020-08-04 深圳追一科技有限公司 基于场景切换的对话方法、装置、电子设备及存储介质
CN111612482A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 对话管理方法、装置和设备
CN111951795B (zh) * 2020-08-10 2024-04-09 中移(杭州)信息技术有限公司 语音交互方法、服务器、电子设备和存储介质
CN112017663B (zh) * 2020-08-14 2024-04-30 博泰车联网(南京)有限公司 一种语音泛化方法、装置及计算机存储介质
CN114694646A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 一种语音交互处理方法及相关装置
CN113113012A (zh) * 2021-04-15 2021-07-13 北京蓦然认知科技有限公司 一种基于协作语音交互引擎簇进行交互的方法及装置
CN114333807B (zh) * 2021-12-24 2023-04-25 北京百度网讯科技有限公司 电力调度方法、装置、设备、存储介质及程序
CN114267356B (zh) * 2021-12-30 2024-04-02 重庆特斯联智慧科技股份有限公司 一种人机交互物流机器人及其控制方法
US11908473B2 (en) 2022-05-10 2024-02-20 Apple Inc. Task modification after task initiation
WO2023219908A1 (en) * 2022-05-10 2023-11-16 Apple Inc. Task modification after task initiation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185324A (ja) * 1994-12-28 1996-07-16 Canon Inc 情報処理システム及びその方法
JP2001075636A (ja) * 1999-09-07 2001-03-23 Toshiba Corp プラント運転支援装置
JP2005301017A (ja) * 2004-04-14 2005-10-27 Sony Corp 情報処理装置および情報処理方法、並びに、プログラム
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置
JP2016192020A (ja) * 2015-03-31 2016-11-10 株式会社デンソーアイティーラボラトリ 音声対話装置、音声対話方法及びプログラム
JP2016212135A (ja) * 2015-04-30 2016-12-15 日本電信電話株式会社 音声入力装置、音声入力方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194116B2 (en) * 2004-04-23 2007-03-20 Sony Corporation Fingerprint image reconstruction based on motion estimate across a narrow fingerprint sensor
CA2928051C (en) * 2005-07-15 2018-07-24 Indxit Systems, Inc. Systems and methods for data indexing and processing
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
CN103198831A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
CN105450822A (zh) * 2015-11-11 2016-03-30 百度在线网络技术(北京)有限公司 智能语音交互方法和装置
CN106408253A (zh) * 2016-09-05 2017-02-15 乐视控股(北京)有限公司 事件提醒方法、装置及系统
CN106782537A (zh) * 2016-12-27 2017-05-31 深圳前海勇艺达机器人有限公司 机器人上查询天气的方法与系统
GB2559617B (en) * 2017-02-13 2020-06-24 Toshiba Kk A dialogue system, a dialogue method and a method of adapting a dialogue system
GB2559618B (en) * 2017-02-13 2020-07-08 Toshiba Kk A dialogue system, a dialogue method and a method of adapting a dialogue system
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185324A (ja) * 1994-12-28 1996-07-16 Canon Inc 情報処理システム及びその方法
JP2001075636A (ja) * 1999-09-07 2001-03-23 Toshiba Corp プラント運転支援装置
JP2005301017A (ja) * 2004-04-14 2005-10-27 Sony Corp 情報処理装置および情報処理方法、並びに、プログラム
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置
JP2016192020A (ja) * 2015-03-31 2016-11-10 株式会社デンソーアイティーラボラトリ 音声対話装置、音声対話方法及びプログラム
JP2016212135A (ja) * 2015-04-30 2016-12-15 日本電信電話株式会社 音声入力装置、音声入力方法、およびプログラム

Also Published As

Publication number Publication date
US11335339B2 (en) 2022-05-17
CN107886948A (zh) 2018-04-06
US20190147869A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
JP2019091007A (ja) 音声対話方法、装置、端末、サーバ及び可読記憶媒体
JP6888125B2 (ja) ユーザプログラマブル自動アシスタント
US10733983B2 (en) Parameter collection and automatic dialog generation in dialog systems
EP3545427B1 (en) Service for developing dialog-driven applications
US10891152B2 (en) Back-end task fulfillment for dialog-driven applications
CN110730953B (zh) 基于创建者提供的内容定制交互式对话应用的方法、系统
CN112136124B (zh) 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
Batish Voicebot and Chatbot Design: Flexible Conversational Interfaces with Amazon Alexa, Google Home, and Facebook Messenger
CN111090728B (zh) 一种对话状态跟踪方法、装置及计算设备
AU2018204661A1 (en) Systems and methods for integrating third party services with a digital assistant
McTear et al. Conversational interfaces: Past and present
KR102429407B1 (ko) 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션
JP2019185737A (ja) 検索方法及びそれを用いた電子機器
US20200395019A1 (en) Method, computer device and computer readable recording medium for providing natural language conversation by timely providing substantial reply
Bisser et al. Introduction to the microsoft conversational ai platform
CN114860910A (zh) 智能对话方法及系统
Thymé-Gobbel et al. Running a Voice App—and Noticing Issues
Rupitz et al. Development of an Amazon Alexa App for a University Online Search
Cañas et al. A Proposal for Developing and Deploying Statistical Dialog Management in Commercial Conversational Platforms
Singh Analysis of Currently Open and Closed-source Software for the Creation of an AI Personal Assistant
Baker et al. Synthesising contextually appropriate intonation in limited domains
Thymé-Gobbel et al. Keeping Voice in Mind
Taba Personalized AI Assistant
Sahin et al. Finding Answers in a Text Document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191216