JP7274043B2 - 音声会話処理方法及び装置 - Google Patents

音声会話処理方法及び装置 Download PDF

Info

Publication number
JP7274043B2
JP7274043B2 JP2022510069A JP2022510069A JP7274043B2 JP 7274043 B2 JP7274043 B2 JP 7274043B2 JP 2022510069 A JP2022510069 A JP 2022510069A JP 2022510069 A JP2022510069 A JP 2022510069A JP 7274043 B2 JP7274043 B2 JP 7274043B2
Authority
JP
Japan
Prior art keywords
conversation
voice
user
customer service
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022510069A
Other languages
English (en)
Other versions
JP2022544969A (ja
Inventor
▲シン▼ 董
中原 戴
敏 初
寒 顧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2022544969A publication Critical patent/JP2022544969A/ja
Application granted granted Critical
Publication of JP7274043B2 publication Critical patent/JP7274043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

関連出願の相互引用
本発明は、2019年08月15日に中国専利局へ提出された、出願番号が201910752714.0である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
本発明は、スマート顧客サービス技術分野に関し、例えば音声会話処理方法及び装置に関する。
マン-マシンインタラクションは、人とコンピュータシステムの間のインタラクション関係を研究する技術である。AI(Artificial Intelligence、人工知能)会話システムは、新型のマン-マシンインタラクション方式であり、自然音声又は自然言語形式によって入出力を行う。現在、AI会話システムは、スマートフォン、スマートホーム、スマート車載、スマート顧客サービス等のシーンに広く応用されている。
しかし、異なるメーカーにとって必要な会話業務フロー及び内容に区別が存在するため、各メーカーは、自分に属する音声会話システムをカスタマイズする必要がある。現在、業務論理の複雑性は、AI会話システムの会話フロー開発の複雑さを引き起こし、会話業務カスタマイズ開発の低効率をもたらす。また、メーカーが業務フロー又は内容をメンテナンスや変更する必要があるときに、コードロジックを繰り返し開発するか修正する必要があるため、業務プロセスの後期のメンテナンスに不利であった。
本発明は、上記技術課題の少なくとも1つを解決するための音声会話処理方法及び装置を提供する。
第1態様において、本発明の実施例は、音声会話処理方法を提供する。当該音声会話処理方法は、音声顧客サービスサーバ側に用いられ、処理すべきユーザ音声に対応する音声意味を特定するステップと、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
第2態様において、本発明の実施例は、音声顧客サービス方法を提供する。当該音声顧客サービス方法は、会話フロー設計サーバ側に用いられ、会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定するステップと、前記少なくとも1つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するステップと、前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするステップと、を含み、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
第3態様において、本発明の実施例は、音声会話処理装置を提供する。当該音声会話処理装置は、処理すべきユーザ音声に対応する音声意味を特定するための音声意味特定手段と、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するための会話管理エンジン呼出手段と、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するための顧客サービス音声生成手段と、を備え、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
第4態様において、本発明の実施例は、音声会話処理装置を提供する。当該音声会話処理装置は、会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定するための会話ストリーム特定手段と、前記少なくとも1つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するための業務カスタマイズファイル生成手段と、前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするための業務カスタマイズファイル送信手段とを備え、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
第5態様において、本発明の実施例は、電子機器を提供する。当該電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサで実行され得る指令が記憶され、前記少なくとも1つのプロセッサは、前記指令を実行することにより、上記方法のステップを実施可能である。
第6態様において、本発明の実施例は、記憶媒体を提供する。当該記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上記方法のステップは、実施される。
本発明では、会話管理エンジンを利用してユーザ音声の音声意味に対応する応答文を特定する。ここで、会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの、所定順番を持つ複数の会話ノードを含む会話ストリームの会話業務カスタマイズファイルを基に作成される。会話業務カスタマイズファイルの作成が簡単且つ便利であり、コードロジックの修正に関わらないため、会話業務カスタマイズ開発は、より便利且つ効果的になる。また、業務カスタマイズファイルを交換するだけで会話管理エンジンに対する反復操作を完了することができ、業務フローの後期メンテナンスが便利になる。
本発明の実施例の音声会話処理方法のフローチャートである。 音声顧客サービスサーバ側に用いられる音声会話処理方法の一例示におけるフローチャートを示す。 本実施例に係る会話フローの一例示における模式図を示す。 本発明の一実施例に適用される音声会話処理方法の例示的な原理アーキテクチャ模式図を示す。 本発明の実施例のオンライン会話システムにおける会話管理エンジンがモデリングを行う原理フローチャートを示す。 会話フロー設計サーバ側に用いられる音声顧客サービス方法のフローチャートを示す。 会話フローを構築する過程における、会話設計クライアント側の異なる状態でのスクリーンショットインターフェースの例示をそれぞれ示す。 本発明の実施例の音声会話処理装置の構造ブロック図を示す。
本発明の実施例の目的、解決手段及び利点がより明確になるように、以下では、本発明の実施例の図面を参照しながら本発明の実施例の解決手段を明確で完全に説明する。説明される実施例は本発明の一部の実施例であり、全部の実施例ではない。なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージメディアに配置できる。
本発明では、「モジュール」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び/又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
最後に、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
本明細書において、用語「エンジン」は、少なくとも1つのアルゴリズムモデルをカプセル化した後で形成された構造を表す。用語「意図」は、語句に対する分類を表し、例えば、ユーザの語句「またね」は、「会話終了」という意図に分類すべきである。
図1に示すように、本発明の実施例の音声会話処理方法の例示的なフローは、複数の実行主体の間の通信インタラクションに係り、例えば会話フロー設計クライアント側10、会話フロー設計サーバ側20、音声顧客サービスサーバ側30及びユーザ端末40の間で通信インタラクションを行う。クライアント及びユーザ端末は、任意のタイプのノートパソコン、タブレットPC、携帯電話のような端末機器、例えば、特定のアプリケーションプログラムがインストールされた端末機器であってもよい。また、サーバ側は、中心通信ネットワークアーキテクチャにおけるサーバ又はピアツーピア通信ネットワークアーキテクチャにおける業務を提供するためのマスタノード機器として示されてもよい。
図1に示すとおり、本発明の実施例の音声会話処理方法のフロー100は、以下のステップを含む。
ステップ101では、会話フロー設計クライアント側10が会話フロー設計要求を生成する。
会話フロー設計クライアント側10は、メーカー音声業務マンのユーザ操作を受け付け、且つユーザ操作に応じて対応する会話フロー設計要求を生成する。会話フロー設計要求は、既に設計された1つ又は複数の会話ストリームに対する要求指令であってもよく、会話ストリームは、所定順番を持つ複数の会話ノードを含んでもよい。
例示として、メーカー音声業務マンは、会話フロー設計クライアント側10において1つの会話項目に対する複数の会話フローを描画し、且つこれらの複数の会話フローに基づいて会話フロー設計要求を生成してもよい。また、会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成されてもよい。このように、メーカー音声業務マンは、会話ノード枠をドラッグすることにより、会話フローを構築することを迅速に実現することができる。
ステップ102では、会話フロー設計クライアント側10は、会話フロー設計要求を会話フロー設計サーバ側20へ送信する。
ステップ103では、会話フロー設計サーバ側20は、会話フロー設計要求に基づいて会話業務カスタマイズファイルを生成する。
例示として、会話フロー設計サーバ側20は、会話フロー設計要求における少なくとも1つの会話ストリームを解析し、且つ会話ストリーム中の各規則的なノードのノード内容及びノードタイプを自動的に認識し、会話業務カスタマイズファイルを生成する。当該会話業務カスタマイズファイルは、jsonファイルであってもよい。ここで、会話フロー設計サーバ側20は、会話フロー設計クライアント側10との間の複数回のインタラクション操作(例えば、複数の会話フロー設計要求)により会話業務カスタマイズファイルを特定してもよい。
ステップ104では、会話フロー設計サーバ側20は、会話業務カスタマイズファイルを音声顧客サービスサーバ側30へ送信する。
ステップ105では、音声顧客サービスサーバ側30は、会話業務カスタマイズファイルに基づいて会話管理エンジンをトレーニングする。
ここで、音声顧客サービスサーバ側30は、会話業務カスタマイズファイルに基づいて会話管理エンジンに対するトレーニングサンプルセットを生成し、更にトレーニングサンプルセットを利用して会話管理エンジンをトレーニングしてもよい。
ステップ106では、ユーザ端末40は、ユーザ音声を音声顧客サービスサーバ側30へ送信する。
ここで、会話管理エンジンは、トレーニングされた後でオンラインすることができる。その際、オンライン後の音声顧客サービスサーバ側は、ユーザ端末からのユーザ音声を受信してユーザへサービスを提供してもよい。
ステップ107では、音声顧客サービスサーバ側30は、ユーザ音声に対する顧客サービス音声を特定する。
音声顧客サービスサーバ側30は、処理すべきユーザ音声に対応する音声意味を特定してもよく、例えばASR(Automatic Speech Recoarition、音声認識)機能モジュール及びNLU(Natural Language Understanding、自然言語理解)機能モジュールを応用することにより実現される。次に、音声顧客サービスサーバ側30は、会話管理エンジンを呼び出すことで音声意味に対する応答文を特定し、且つ特定された応答文に基づいてユーザ音声に応答するための顧客サービス音声を生成する。応答文を利用して顧客サービス音声を生成する過程において、音声顧客サービスサーバ側30は、NLG(Natural Language Generation、自然言語生成)機能モジュール及びTTS(Text To Speech、音声合成)機能モジュールを応用することにより実現することができる。
ステップ108では、音声顧客サービスサーバ側30は、顧客サービス音声をユーザ端末40へ送信する。
理解できるように、顧客サービス音声が複数回提供されるように、上記ステップ106~108は、望ましいサービスがユーザへ提供されるまで、繰り返されてもよい。また、図1に示す実施例は、例示に過ぎず、上記フローにおける一部のステップは、選択可能又は置換可能である。例えば、音声顧客サービスサーバ側は、更にローカルで会話業務カスタマイズファイルを直接取得してもよい。
図2は、本発明の実施例の音声顧客サービスサーバ側30に用いられる音声会話処理方法の一例におけるフローであり、以下のステップを含む。
ステップ201では、処理すべきユーザ音声に対応する音声意味を特定する。
ステップ202では、会話管理エンジンに基づいて音声意味に対する応答文を特定し、会話管理エンジンは、汎用会話管理モデル及び業務会話管理モデルを含む。
ステップ203では、特定された応答文に基づいて、ユーザ音声に応答するための顧客サービス音声を生成する。
本実施例において、会話管理エンジンは、汎用会話を処理するための汎用会話管理モデルと、専用業務を処理するための業務会話管理モデルとを含む。汎用会話管理モデルは、異なる複数の業務顧客サービス項目で共有してコードロジックを多重化することができ、顧客サービスシステムの開発効率を向上させる。
スマート顧客サービスのコールセンターシーンにおいて、電話には、常に「うん」、「あぁ」、「もしもし」のような特定の電話話し言葉返信が伴う。且つ、電話中においてユーザが挨拶、中断、リピート、解釈等の汎用型の会話要求を行うことが常に伴う。しかし、現在のAI会話システムは、コールセンターシーンにおいてこのような会話要求に対して最適化処理を行うことが少なく、顧客サービスのサービスプロセスが凝りすぎてユーザ体験に影響を与える。
本発明の実施例における汎用会話管理モデルにより、上記会話要求を好適に処理し、ユーザ体験を向上させることができる。ユーザ音声の音声意味の指すユーザの意図を特定し、且つそれが汎用意図セットに属する場合に、汎用会話管理モデルを使用して前記ユーザ意図に対する汎用会話操作を実行する。汎用会話操作は、オペレーターに繋ぐ操作、繰り返し放送操作、会話退出操作及び感嘆詞処理操作のうちのいずれか1種を含む。
表1は、汎用意図セットにおける各汎用意図について実行される汎用会話操作に係る関連フローの記述を示す。
Figure 0007274043000001
幾つかの実施形態において、ユーザ意図が汎用意図セットに属さないときに、業務会話管理モデルを使用して、以下の業務操作、即ち、ユーザ意図に対応する目標会話ストリームを特定することと、特定された目標会話ストリームにおける会話ノードに基づいて応答文を特定することと、を実行して応答文を特定する。
例示として、会話ノードは、会話開始ノード、ユーザコミュニケーションノード、ユーザ情報認識ノード及びスロットフィリングノードを含む。会話開始ノードは、会話ストリームが開始するノードである。ユーザコミュニケーションノードは、顧客サービスがユーザとコミュニケーションを行う必要のあるノードである。ユーザ情報認識ノードは、他のサービスAPIを呼び出すことにより(例えば、関数により)ユーザ情報を認識するものであってもよい。スロットフィリングノードは、最終的に収集された情報を対応するスロット位置に追加するノードである。このように、ユーザ意図に基づいて目標会話ストリーム中の対応する会話ノードを呼び出すことができ、それにより対応する操作を実行して応答文を特定する。
図3に示す会話フローを参照する。ユーザ音声が顧客サービスプラットフォームに導入されたときに、会話フロー中のユーザ情報認識ノードにより旧ユーザであるか否かを直接認識する。旧ユーザであれば、ユーザが履歴宅配記録に指示された地点で注文するか否かを直接問い合わせ、新ユーザであれば、会話フロー中のユーザコミュニケーションノードを呼び出してユーザの出荷先を問い合わせてもよい。音声認識技術を利用してユーザフィードバック音声における出荷アドレスを取得した後、スロットフィリング操作を完了し、認識されなかった又はスロットフィリングに成功しなかった場合に、オペレーターに繋ぐ処理へ移行してもよい。
図4は、本発明の一実施例に適用される音声会話処理方法の例示的な原理アーキテクチャを示し、全体的にオンラインAI会話システム及びオフラインDM(Dialogue Management、会話管理)カスタマイズプラットフォームを含む。ここで、オンラインAI会話システムのアクセスサービスモジュールは、sipプロトコル(session initiation protocol、セッション開始プロトコル)によってユーザクライアントのcall centerに合わせることにより、ユーザクライアント側で指示されたユーザへサービスを提供する。
また、オンラインAI会話システムの内部に幾つかの大きなユニットモジュールがあり、それらは、ASRモジュール、NLUモジュール、NLGモジュール、TTSモジュール及びDMエンジンを含む。DMエンジンは、業務DMと汎用DMに分けられる。
本発明の実施例において、コールセンターシーンについて、AI会話システムにおける会話管理を業務型DMと汎用型DMの2種類に分ける。業務DMは、具体的な業務フローに関連する会話管理である。汎用DM設計は、マンマシン会話プロセスの汎用の会話管理を処理するために、会話全体をよりスムーズにするが、具体的な業務シーン及び知識に係らない。
コールセンターシーンの電話会話において、比較的に通常な会話、例えば、挨拶、中断、リピート、解釈等が非常に多い。表1に示すように、これらは、汎用DMを用いてこれらの汎用型の会話ロジックを処理することができる。汎用DMは、汎用モジュールとして任意の業務DMの前側に埋め込まれ、会話を人と人の間のチャットコミュニケーションの効果に更に近づけることができる。このような設計は、ユーザ体験を改善するだけでなく、異なるシーンDMのカスタマイズ開発コストを節約することができる。
図5は、本発明の実施例のオンラインAI会話システムにおけるDMエンジンがモデリングを行う原理プロセスを示す。業務DMの迅速なカスタマイズを実現するために、会話管理におけるキー要素をモデリングすることにより、業務型会話フローは、jsonファイル方式で記述することができる。具体的な記述は、以下のようになる。
シーン(Bot):即ち、会話ロボットであり、ある顧客サービス項目として理解されてもよい。
会話ストリーム(Flow):あるタスクを実施する会話フローである。1つの項目は、1つ又は複数の会話ストリームで構成される。
会話ノード(Node):会話ストリームにおけるあるラウンドの会話であって、異なるノードタイプ、例えば、開始ノード、ユーザコミュニケーションノード、スロットフィリングノード、ユーザ情報認識ノード等を提供する。開始ノードは、当該会話ストリームの開始ノードであり、ユーザコミュニケーションノードは、次のラウンドの会話であり、スロットフィリングノードは、スロット位置を収集するために設計された特殊なノードであってスロット位置情報を補完するために用いられ、ユーザ情報認識ノードは、他のサービスAPIアクセスをカプセル化する。
具体的な操作(Operation):会話ノードに係る具体的な操作、例えば、当該会話ノードがユーザへ返信する話術、用いられるユーザの発話を解析する意図リスト、ジャンプロジック等である。したがって、会話ノードが特定された後、会話ノードにより指示された内容及びタイプに直接応じて対応する具体的な操作を行ってもよい。
図4の例を参照し、オフラインDMカスタマイズプラットフォームにより会話フローを設計する。オフラインDMカスタマイズプラットフォームは、会話設計ツール及び会話テストツールを含み、グラフィカルドラッグの方式を提供して会話設計及びテストを行う。オフラインDMカスタマイズプラットフォームは、項目の会話をjsonフォーマットのファイルとして生成する。オンラインDMエンジンは、当該ファイルをロードし、AI会話ロボットを生産し、オンライントラフィックにサービスする。
図6は、会話フロー設計サーバ側に用いられる音声顧客サービス方法のフローを示す。会話フロー設計サーバ側と会話フロー設計クライアント側とのインタラクション操作により会話フローを迅速にカスタマイズし且つ対応する会話業務カスタマイズファイルを構築することを実現する。当該方法は、以下のステップを含む。
ステップ601では、会話フロー設計クライアント側からの会話フロー設計要求を取得し、且つ会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定する。会話ストリームは、所定順番を持つ複数の会話ノードを含む。
ステップ602では、少なくとも1つの会話ストリームに基づいて会話業務カスタマイズファイルを生成する。
ステップ603では、会話業務カスタマイズファイルを音声顧客サービスサーバ側に送信して会話管理エンジンに関するトレーニングサンプルセットを構築することにより、音声顧客サービスサーバ側が会話管理エンジンに基づいて音声サービスを実行するようにする。
会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成される。会話フロー設計クライアント側10は、メーカー開発者による前記グラフィックスインタフェースに対するユーザ操作を受け付けて対応する前記会話フロー設計要求を生成する。このように、メーカーは、クライアントグラフィックスインターフェースのドラッグ方式を開発することで業務型会話ストリームを生成することにより、対応するjsonファイルを生成し、業務型DMカスタマイズを迅速に完了することができる。
以下では、図7A~7Zにおける開発クライアント側スクリーンショットを参照して図3に示す具体的な宅配顧客サービスシーンにおいて会話フロー設計クライアント側10でDMを行う例を説明する。
図7Aに示すように、左側をクリックして新たなシーン部分を作成し、ダイアログボックスをポップアップし、「シーン名」及び「シーン記述」を入力する。ここで、1つのシーンは、1つの顧客サービス項目を表してもよい。
次に、図7Bに示すように、会話ストリームを新規作成する。作成されたシーン「宅配」をクリックし、以下のページに進む。左側から順に以下のとおりである。1)シーン配置:シーン名、製品ID、グローバル変数追加、汎用フロー追加等を含む。2)会話ストリームカスタマイズ:このページで会話ストリームを描画する。3)意図カスタマイズ:ユーザ発話から解析された意図を追加する。4)会話テスト:構築されたモデルをテストする。5)botデバッグ:可視化ツールで構築された会話ストリームモデルによって自動的に生成されたコードに対して修正及びデバッグを行う。
会話フロー配置をクリックして図7Cに示すユーザインターフェースに入る。その際、会話ストリーム「ピックアップアドレス収集」を新規作成する。クリックした後のインターフェースは、以下の図のようになる。右側に4種のノードを提供し、当該4種のノードは、それぞれ、開始ノード(又はスタートノード)、会話ノード(又はユーザコミュニケーションノード)、関数ノード(又はユーザ情報認識ノード)及びスロットフィリングノードである。
ノード配置過程において、まず開始ノードに対応する「前置き」を追加する(例えば、図7D)。図7Eに示すインターフェースのスクリーンショットを参照し、具体的な操作は、以下を含む。1)右側の「開始ノード」をクリックし、パネルに開始ノードを追加する。2)開始ノードでの「編集」をクリックする。3)「基本設定」により:ノードの名称を「前置き」に変更し、話術テキスト「こんにちは、ここはxx宅配便」を追加する。4)「ジャンプリンク」により:新たなジャンプロジック「へジャンプ」を追加し、次のノードを選択してジャンプする(次のノードを追加した後こそ、初めてジャンプすることができ、このステップを先にスキップしてもよい)。
次に、関数ノード「新旧顧客判断」を追加する。図7Fに示すように、「関数ノード」をクリックし、パネルに関数ノードを作成する。これは、以下のステップを含む。1)クリックして編集し、基本設定では、ノードの名称を「新旧顧客判断」に修正し、関数記述「この携帯番号が履歴注文を所有するか否かを判断する」を追加して保存する。2)開始ノード-関数ノードのジャンプを完了する:「新旧顧客判断」を選択してジャンプし、会話ノードの間のリンクが出現することを見ることができる。3)「シーン配置」に移行し、2つのグローバル変数:phone_num、historical_ordersを新規作成する。同時にこのページに汎用DMフローを追加することができ、図7Gに示すように、使用可能な汎用フローをチェックする。4)会話ストリームに戻り、図7Hに示すように、「関数ノード」の基本設定を編集し、パラメータ設定「phone_num」を入力し、パラメータ設定「historical_orders」に戻る。
次に、図7I-Mに示すように、ユーザコミュニケーションノード「この地点で注文?」及び「出荷先を問い合わせる」を追加する。1)2つのユーザコミュニケーションノードを追加し、「編集-基本設定-ノード名」によって「この地点で注文?」及び「出荷先を問い合わせる」とリネームする。2)「新旧顧客判断」を編集し、ジャンプリンクを設定する。下方の「新たなジャンプロジックを追加する」をクリックし、条件「グローバル変数-履歴発注状態isNotEmpty」を設定して「この地点で注文?」にジャンプし、再び「新たなジャンプロジックを追加する」をクリックし、条件「グローバル変数-履歴発注状態isEmpty」を設定して「出荷先を問い合わせる」にジャンプする。保存する。3)図7Jに示すように、「意図カスタマイズ」に移行し、新たな業務意図を追加し、業務意図「はい」、「いいえ」を追加する。4)会話フローカスタマイズに戻り、会話ノード「この地点で注文?」を編集し、話術テキスト「システムは、最近、XX市XX区XX路XX号に物品を送ったことがあると検索で分かり、このアドレスをまだ使用しますか?」を入力する。5)業務意図「はい」、「いいえ」を追加する。6)「出荷先を問い合わせる」を編集し、話術「あなたの出荷先がどこにありますか?」を追加する。
次に、図7N及び7Oに示すように、会話ノード「アドレス情報を受信した」を追加する。1)放送会話ノード「アドレス情報を受信した」を追加し、基本設定を修正し、話術「はい、宅配便のお兄さんが宅配便を受け取るのを待ってください。楽しく過ごしてください」を追加し、「放送後の操作」を「会話完了」に修正して保存する。2)「この地点で注文?」を編集してジャンプリンクを設定し、条件「業務意図contains確定」を設定して「アドレス情報を受信した」にジャンプし、条件「業務意図contains否定」を設定して「出荷先を問い合わせる」にジャンプする。
次に、図7P-7Uに示すように、スロットフィリングノード(「スロットフィリング:出荷先」を追加する。1)スロットフィリングノードを追加し、「スロットフィリング:出荷先」とリネームし、会話ノード「出荷先を問い合わせる」を編集し、ジャンプリンクを設定し、「スロットフィリング:出荷先」にジャンプする。2)シーン配置に移行し、グローバル変数「出荷_都市」、「出荷_都道府県」、「出荷_ストリート」を新規作成する。3)意図カスタマイズに移行し、意図「ストリートのみを話した」、「都道府県のみを話した」、「都市のみを話した」、「ストリートと都道府県のみを話した」、「都道府県と都市のみを話した」、「ストリートと都市のみを話した」を新規作成する。4)会話ストリームカスタマイズに戻り、「スロットフィリング:出荷先」を編集し、基本設定をクリックし、以上の6つの意図を追加する。5)「スロットフィリング:出荷先」を編集し、スロット位置配置をクリックし、新たなスロット位置変数を追加し、スロットフィリングを必要とする変数-出荷_都市、必須選択、意図-「ストリートのみを話した」、「都道府県のみを話した」、「ストリート及び都道府県のみを話した」を順に設定し、逆質問文「どの都市にありますか?」を入力し、最大逆質問回数を2に設定する。6)同様に他の2つのスロット位置変数を追加する。
次に、図7V及び7Wに示すように、会話ノード「オペレーターに繋げ」を追加する。1)会話ノード「オペレーターに繋げ」を追加することを含む。話術を設定し、会話完了を選択する。2)「スロットフィリング:出荷先」を編集し、ジャンプリンクをクリックする。条件「スロットフィリングに成功した」の場合に、「アドレス情報を受信した」にジャンプし、条件「スロットフィリングに失敗した」の場合に、「オペレーターに繋げ」にジャンプする。これにより、以上の会話ストリームを完了する。最終的に得られた会話ストリームの結果は、図7Xに示される。
次に、ローカルに保存する。図7Yに示すように、「シーン配置-DMファイル導出」によりjsonファイルをローカルに保存してもよい。
幾つかの実施形態において、機能の完備性が保証されるように、構築された会話ストリームをローカルにテストしてもよい。図7Zに示すように、「会話テストクリック-テスト発表-ユーザ音声入力」によってテスト操作を実行する。
本発明の実施例において、高速カスタマイズプラットフォームを提供し、コールセンターのインテリジェント音声開発速度を大幅に加速し、開発コストを著しく低減することができ、それによりコールセンター業界全体のインテリジェント化レベルに影響を与える。
図8に示すように、本発明の一実施例の音声会話処理装置800は、音声意味特定手段810、会話管理エンジン呼出手段820及び顧客サービス音声生成手段830を備える。音声意味特定手段810は、処理すべきユーザ音声に対応する音声意味を特定し、会話管理エンジン呼出手段820は、会話管理エンジンに基づいて前記音声意味に対する応答文を特定する。会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に構築され、且つ会話ストリームは、所定順番を持つ複数の会話ノードを含む。顧客サービス音声生成手段830は、特定された応答文に基づいてユーザ音声に応答するための顧客サービス音声を生成する。
上記本発明の実施例の装置は、本発明における対応する方法実施例を実行し、上記本発明の方法実施例の奏する技術的効果を有することができ、ここで繰り返し説明しない。
本発明の実施例では、ハードウェアプロセッサ(hardware processor)を介して関連機能モジュールを実現してもよい。
別の態様において、本発明の実施例は、記憶媒体を提供する。当該記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上述したサーバで実行されるローカルの管理方法のステップは、実施される。
上記製品は、本発明の実施例に係る方法を実行可能であり、方法を実行する関連機能モジュール及び有利な作用効果を有する。本実施例において詳しく記述されていない技術的詳細は、本発明の実施例に係る方法を参照可能である。
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)データー交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

Claims (10)

  1. 音声顧客サービスサーバ側に用いられる音声会話処理方法であって、
    処理すべきユーザ音声に対応する音声意味を特定するステップと、
    会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、
    特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、
    前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声会話処理方法。
  2. 前記会話管理エンジンは、汎用会話管理モデル及び業務会話管理モデルを含み、
    会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップは、
    前記音声意味によって示されるユーザ意図を特定するステップと、
    前記ユーザ意図が汎用意図セットに属するときに、前記汎用会話管理モデルを用いて前記ユーザ意図に対する汎用会話操作を実行するステップと、を含み、
    前記汎用会話操作は、オペレーターに繋ぐ操作、繰り返し放送操作、会話退出操作及び感嘆詞処理操作のうちの何れか一項を含む請求項1に記載の音声会話処理方法。
  3. 前記ユーザ意図が前記汎用意図セットに属さないときに、前記業務会話管理モデルを用いて、
    前記ユーザ意図に対応する目標会話ストリームを特定することと、
    特定された目標会話ストリームにおける会話ノードに基づいて前記応答文を特定することと、
    を含む業務操作を実行することにより、前記応答文を特定するステップを更に含む請求項2に記載の音声会話処理方法。
  4. 前記会話業務カスタマイズファイルは、会話フロー設計サーバ側から取得され、前記会話フロー設計サーバ側は、会話フロー設計クライアント側とのインタラクションを行うことで前記会話業務カスタマイズファイルを作成するように構成される請求項1に記載の音声会話処理方法。
  5. 前記会話ノードは、会話開始ノード、ユーザコミュニケーションノード、ユーザ情報認識ノード及びスロットフィリングノードを含む請求項1~4の何れか一項に記載の音声会話処理方法。
  6. 会話フロー設計サーバ側に用いられる音声顧客サービス方法であって、
    会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定するステップと、
    前記少なくとも1つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するステップと、
    前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするステップと、を含み、
    前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声顧客サービス方法。
  7. 前記会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成され、前記会話フロー設計クライアント側は、前記グラフィックスインタフェースに対するユーザ操作を受け付けて対応する前記会話フロー設計要求を生成する請求項6に記載の音声顧客サービス方法。
  8. 音声会話処理装置であって、
    処理すべきユーザ音声に対応する音声意味を特定するための音声意味特定手段と、
    会話管理エンジンに基づいて前記音声意味に対する応答文を特定するための会話管理エンジン呼出手段と、
    特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するための顧客サービス音声生成手段と、を備え、
    前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声会話処理装置。
  9. 電子機器であって、
    少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサで実行され得る指令が記憶され、前記少なくとも1つのプロセッサは、前記指令を実行することにより、請求項1~7の何れか一項に記載の方法のステップを実施可能である電子機器。
  10. コンピュータプログラムが記憶される記憶媒体であって、
    当該コンピュータプログラムがプロセッサによって実行されたときに、請求項1~7の何れか一項に記載の方法のステップは、実施される記憶媒体。
JP2022510069A 2019-08-15 2019-12-09 音声会話処理方法及び装置 Active JP7274043B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910752714.0 2019-08-15
CN201910752714.0A CN110442701B (zh) 2019-08-15 2019-08-15 语音对话处理方法及装置
PCT/CN2019/123937 WO2021027198A1 (zh) 2019-08-15 2019-12-09 语音对话处理方法及装置

Publications (2)

Publication Number Publication Date
JP2022544969A JP2022544969A (ja) 2022-10-24
JP7274043B2 true JP7274043B2 (ja) 2023-05-15

Family

ID=68435649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022510069A Active JP7274043B2 (ja) 2019-08-15 2019-12-09 音声会話処理方法及び装置

Country Status (5)

Country Link
US (1) US20220293089A1 (ja)
EP (1) EP4016330A4 (ja)
JP (1) JP7274043B2 (ja)
CN (1) CN110442701B (ja)
WO (1) WO2021027198A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442701B (zh) * 2019-08-15 2022-08-05 思必驰科技股份有限公司 语音对话处理方法及装置
CN111128147A (zh) * 2019-11-18 2020-05-08 云知声智能科技股份有限公司 一种终端设备自动接入ai多轮对话能力的系统及方法
CN111107156A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互系统
CN111182117B (zh) * 2019-12-30 2021-07-13 深圳追一科技有限公司 通话处理方法、装置、计算机设备和计算机可读存储介质
CN111402872B (zh) * 2020-02-11 2023-12-19 升智信息科技(南京)有限公司 用于智能语音对话系统的语音数据处理方法及装置
JP7566476B2 (ja) * 2020-03-17 2024-10-15 東芝テック株式会社 情報処理装置、情報処理システム及びその制御プログラム
CN111654582A (zh) * 2020-06-05 2020-09-11 中国银行股份有限公司 一种智能外呼方法及装置
CN111683182B (zh) * 2020-06-11 2022-05-27 中国银行股份有限公司 一种业务节点的处理方法及系统
CN111916111B (zh) * 2020-07-20 2023-02-03 中国建设银行股份有限公司 带情感的智能语音外呼方法及装置、服务器、存储介质
CN111653262B (zh) * 2020-08-06 2020-11-17 上海荣数信息技术有限公司 一种智能语音交互系统及方法
CN112364140B (zh) * 2020-11-04 2022-09-13 北京致远互联软件股份有限公司 一种通过配置单实现语音识别意图定制的方法
CN113067952B (zh) * 2021-03-31 2023-04-14 中国工商银行股份有限公司 用于多台机器人的人机协同无感控制方法和装置
CN113064987B (zh) * 2021-04-30 2024-08-20 中国工商银行股份有限公司 数据处理方法、装置、电子设备、介质和程序产品
CN113326365B (zh) * 2021-06-24 2023-11-07 中国平安人寿保险股份有限公司 回复语句生成方法、装置、设备及存储介质
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN113887554B (zh) * 2021-08-26 2024-10-15 阿里巴巴达摩院(杭州)科技有限公司 处理反馈语的方法以及装置
CN114493513B (zh) * 2022-01-14 2023-04-18 杭州盈兴科技有限公司 一种基于语音处理的酒店管理方法、装置和电子设备
CN114582314B (zh) * 2022-02-28 2023-06-23 江苏楷文电信技术有限公司 基于asr的人机音视频交互逻辑模型设计方法
CN114691852B (zh) * 2022-06-01 2022-08-12 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN115659994B (zh) * 2022-12-09 2023-03-03 深圳市人马互动科技有限公司 人机交互系统中的数据处理方法及相关装置
CN116476092B (zh) * 2023-04-26 2024-01-23 上饶高投智城科技有限公司 基于asr及nlp技术实现小区智慧服务的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003505778A (ja) 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
JP2011515028A (ja) 2007-12-28 2011-05-12 ジェネシス・テレコミュニケーションズ・ラボラトリーズ・インコーポレーテッド 再帰的な適応的インタラクション管理システム
JP2014191271A (ja) 2013-03-28 2014-10-06 Kddi Corp 対話シナリオに動的対話ノードを挿入する対話プログラム、サーバ及び方法
JP2018156418A (ja) 2017-03-17 2018-10-04 ヤフー株式会社 修正装置、修正方法および修正プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4785408A (en) * 1985-03-11 1988-11-15 AT&T Information Systems Inc. American Telephone and Telegraph Company Method and apparatus for generating computer-controlled interactive voice services
US8285550B2 (en) * 2008-09-09 2012-10-09 Industrial Technology Research Institute Method and system for generating dialogue managers with diversified dialogue acts
US8953764B2 (en) * 2012-08-06 2015-02-10 Angel.Com Incorporated Dynamic adjustment of recommendations using a conversation assistant
US10455088B2 (en) * 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
CN105845137B (zh) * 2016-03-18 2019-08-23 中国科学院声学研究所 一种语音对话管理系统
EP3535664A4 (en) * 2016-11-04 2020-06-17 Semantic Machines, Inc. DATA COLLECTION FOR A NEW TALK DIALOG SYSTEM
CN107135247B (zh) * 2017-02-16 2019-11-29 江苏南大电子信息技术股份有限公司 一种人与人工智能协同工作的服务系统及方法
JP6857581B2 (ja) * 2017-09-13 2021-04-14 株式会社日立製作所 成長型対話装置
CN107657017B (zh) * 2017-09-26 2020-11-13 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN108053023A (zh) * 2017-12-01 2018-05-18 北京物灵智能科技有限公司 一种自动式意图分类方法及装置
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置
CN109408800B (zh) * 2018-08-23 2024-03-01 阿里巴巴(中国)有限公司 对话机器人系统及相关技能配置方法
CN109597607A (zh) * 2018-10-31 2019-04-09 拓科(武汉)智能技术股份有限公司 任务型人机对话系统及其实现方法、装置与电子设备
CN109739605A (zh) * 2018-12-29 2019-05-10 北京百度网讯科技有限公司 生成信息的方法和装置
CN110442701B (zh) * 2019-08-15 2022-08-05 思必驰科技股份有限公司 语音对话处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003505778A (ja) 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
JP2011515028A (ja) 2007-12-28 2011-05-12 ジェネシス・テレコミュニケーションズ・ラボラトリーズ・インコーポレーテッド 再帰的な適応的インタラクション管理システム
JP2014191271A (ja) 2013-03-28 2014-10-06 Kddi Corp 対話シナリオに動的対話ノードを挿入する対話プログラム、サーバ及び方法
JP2018156418A (ja) 2017-03-17 2018-10-04 ヤフー株式会社 修正装置、修正方法および修正プログラム

Also Published As

Publication number Publication date
CN110442701B (zh) 2022-08-05
US20220293089A1 (en) 2022-09-15
CN110442701A (zh) 2019-11-12
JP2022544969A (ja) 2022-10-24
EP4016330A4 (en) 2023-11-29
WO2021027198A1 (zh) 2021-02-18
EP4016330A1 (en) 2022-06-22

Similar Documents

Publication Publication Date Title
JP7274043B2 (ja) 音声会話処理方法及び装置
CN107977236B (zh) 问答系统的生成方法、终端设备、存储介质及问答系统
CN111145745B (zh) 对话流程定制方法及装置
CN110998526B (zh) 用户配置的且自定义的交互式对话应用
CN114830614A (zh) 用于双向通信系统的功能即服务云聊天机器人
US20190205461A1 (en) Method and System For Exposing Virtual Assistant Services Across Multiple Platforms
CN109739605A (zh) 生成信息的方法和装置
JP2021022928A (ja) 人工知能基盤の自動応答方法およびシステム
KR20220011083A (ko) 사용자 대화 중 정보 처리 방법, 장치, 전자 기기 및 기록 매체
CN111462726B (zh) 一种外呼应答方法、装置、设备及介质
CN111858874B (zh) 对话服务处理方法、装置、设备及计算机可读存储介质
Li et al. A speech-enabled virtual assistant for efficient human–robot interaction in industrial environments
CN112837683B (zh) 语音服务方法及装置
CN111754974B (zh) 信息处理方法、装置、设备和计算机存储介质
CN115658875B (zh) 基于聊天服务的数据处理方法及相关产品
CN112069830A (zh) 一种智能会话方法及装置
CN110442698A (zh) 对话内容生成方法及系统
US20230169273A1 (en) Systems and methods for natural language processing using a plurality of natural language models
KR102448733B1 (ko) 문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备
US11150923B2 (en) Electronic apparatus and method for providing manual thereof
Feng et al. A platform for building mobile virtual humans
CN114582314B (zh) 基于asr的人机音视频交互逻辑模型设计方法
CN117496973B (zh) 一种提升人机对话交互体验感的方法、装置、设备及介质
CN112966077B (zh) 对话状态的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230428

R150 Certificate of patent or registration of utility model

Ref document number: 7274043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150