JP2019053126A - 成長型対話装置 - Google Patents

成長型対話装置 Download PDF

Info

Publication number
JP2019053126A
JP2019053126A JP2017175850A JP2017175850A JP2019053126A JP 2019053126 A JP2019053126 A JP 2019053126A JP 2017175850 A JP2017175850 A JP 2017175850A JP 2017175850 A JP2017175850 A JP 2017175850A JP 2019053126 A JP2019053126 A JP 2019053126A
Authority
JP
Japan
Prior art keywords
knowledge
text
intention
growth type
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017175850A
Other languages
English (en)
Other versions
JP6857581B2 (ja
Inventor
永松 健司
Kenji Nagamatsu
健司 永松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017175850A priority Critical patent/JP6857581B2/ja
Priority to US16/037,566 priority patent/US11037553B2/en
Priority to CN201810809616.1A priority patent/CN109493850B/zh
Publication of JP2019053126A publication Critical patent/JP2019053126A/ja
Application granted granted Critical
Publication of JP6857581B2 publication Critical patent/JP6857581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】音声を利用して学習する対話システムにおいて、知識の特性に基づいて、得られた知識を適切に分類して、対話に利用することにより、対話の精度を向上させる。【解決手段】成長型対話装置は、ユーザと音声対話を行って、音声対話の結果を知識として蓄える成長型対話装置であって、取得したユーザの発話音声から、音声認識を行いテキスト化する音声認識部と、意図理解学習データから学習された意図理解モデルデータを参照して、音声認識部により音声認識されたテキストから発話意図を解析する意図理解部と、QA DBを参照し、意図理解部で解析された発話意図から応答テキストを生成する応答生成部と、音声認識部により音声認識されたテキスト、発話意図、応答テキストから知識を抽出する知識抽出部と、知識抽出部により抽出された知識を特性に応じて分類する知識分類部とを有する。【選択図】 図5

Description

本発明は、成長型対話装置に係り、特に、音声対話を自動的に行うための知識情報を獲得するのに好適な成長型対話装置に関する。
コンピュータまたはロボットと人間のユーザとの間で音声によって対話を行うシステム(以下、対話システムと呼ぶ)が開発されている。この対話システムを搭載したロボット、またはスマートフォンやタブレットPCなどのデバイス(以下、「対話デバイス」と呼ぶ)は、対話システムを動作させ、対面するユーザに対して音声対話によるサービスを実施する。
この対話システムでは、まずユーザが発話した音声をマイクにより集音し、音声認識する。次に、書き起こされたテキストに対して意図理解と呼ばれる処理により、ユーザが対話システムに何をしてもらいたいと言っているかを判別する。最後に、判別結果に基づき、ユーザが意図した動作、例えば、質問への回答の読み上げや情報の表示などの動作、ロボットであれば移動など動作を対話デバイスが実行する。
この対話システムにおいて、システムが回答を知らない質問をユーザが行った場合、従来であれば対話システムは「知りません」などの回答をしていたが、逆にシステムからユーザにその質問の回答を尋ね、その結果で質問応答の知識を更新させていくことができる。特許文献1ではそのような対話システムの構成を開示している。特許文献1の音声対話装置においては、ユーザから知らないことを聞かれた場合にユーザにその答えを問い返し、その質問内容と答えを記憶して、次からの対話に用いるようにする。このため、知らない対話内容によって対話を中断させたり、ユーザの提示する話題を変更したりする必要性が小さくなると共に、学習によって新たなシナリオや語彙を増やして知識を向上させ、次回からのユーザとの対話に反映することができるとしている。
同様に対話システムにおいては、質問の回答内容そのものではなく、ユーザが使う質問で使った表現を学習し、よりバリエーションの大きい質問表現に対応できるように知識を更新させていくシステム構成も存在する。
特開2004−109323号公報
従来の対話システムでは、上記のように逆質問を行うなどして得た知識は、そのシステムがそれ以降に音声対話するすべてのユーザやすべての文脈において使われることが一般的だった。しかしながら、新たに学習した回答知識は、常に使える知識、特定の対話デバイスだけが使ってよい知識、または特定の役割を担った対話デバイス間で共有できる知識などに分類できる。同じく、質問表現のバリエーションに関する知識も、常に使える知識、特定のユーザに対してのみ使える知識(または特定のユーザに対して特に有効な知識)、対話シナリオの特定の文脈において使える知識などに分類できる。
従来の対話システムではこのような知識の特性に基づいて、得た知識をどのような場合で使ってよいかを切り替えることについては考慮されていなかった。このため、あるユーザの個人的な情報に関する回答知識を他のユーザに使ったり、特定のユーザしか使わない質問表現知識を学習したりして、対話の精度を下げてしまうなどの問題があった。
本発明は、音声を利用して学習する対話システムにおいて、知識の特性に基づいて、得られた知識を適切に分類して、対話に利用することにより、対話の精度を向上させることのできる成長型対話装置を提供することにある。
本発明の成長型対話装置の構成は、好ましくは、ユーザと音声対話を行って、音声対話の結果を知識として蓄える成長型対話装置であって、取得したユーザの発話音声から、音声認識を行いテキスト化する音声認識部と、意図理解学習データから学習された意図理解モデルデータを参照して、音声認識部により音声認識されたテキストから発話意図を解析する意図理解部と、QA DBを参照し、意図理解部で解析された発話意図から応答テキストを生成する応答生成部と、音声認識部により音声認識されたテキスト、発話意図、応答テキストから知識を抽出する知識抽出部と、知識抽出部により抽出された知識を特性に応じて分類する知識分類部とを有するようにしたものである。
本発明によれば、音声を利用して学習する対話システムにおいて、知識の特性に基づいて、得られた知識を適切に分類して、対話に利用することにより、対話の精度を向上させることのできる成長型対話装置を提供することができる。
実施形態1に係る成長型対話装置の機能構成を示す図である。 意図理解用モデルデータの一例を示す図である。 意図理解用学習データの一例を示す図である。 QA DBの一例を示す図である。 実施形態1に係る成長型対話装置の処理の流れを示す図である。 実施形態1に係る知識分類処理を示すフローチャートである。 シナリオ文脈依存度およびタスク文脈依存度の算出処理を示すフローチャートである。 個人性依存度の算出処理を示すフローチャートである。 実施形態2に係る成長型対話装置の機能構成を示す図である。 実施形態2に係る成長型対話装置の処理の流れを示す図である。 実施形態2に係る知識分類処理を示すフローチャートである。
以下、本発明に係る各実施形態を、図1ないし図11を用いて説明する。
〔実施形態1〕
以下、本発明の実施形態1を、図1ないし図8を用いて説明する。
先ず、図1を用いて実施形態1に係る成長型対話装置の構成について説明する。
本実施形態に係る成長型対話装置200は、図1に示されるように、処理部210、記憶部220、音声入出力部230からなる。成長型対話装置200は、PCやスマートフォンなどの一般的な情報処理装置でもよいし、特定の業務を遂行するためのロボットでもよい。
音声入出力部230には、マイク231と、スピーカー230が接続され、マイク231からユーザの音声を入力し、スピーカー230からユーザに音声を出力するようになっている。
処理部210は、成長型対話装置200の各処理を実行する部分であり、発話区間検出部211、音声認識部212、意図理解部213、意図理解モデル学習部214、応答生成部215、音声合成部216、知識抽出部217、知識分類部218、知識格納部219のサブコンポーネントよりなる。
処理部210のサブコンポーネントの機能は、ハードウェアとしての中央処理装置(CPU)が主記憶装置上のプログラムを実行することにより、実行される。
発話区間検出部211は、ユーザ音声から無音部を検知し、発話区間を検出する機能部である。音声認識部212は、ユーザ音声を音声認識して、テキスト化する機能部である。意図理解部213は、音声認識したテキストからユーザの発話意図を意味づける機能部である。意図理解モデル学習部214は、意図理解学習データ(後述)から意図理解モデルデータ(後述)を生成する機能部である。応答生成部215は、意図理解部213の処理に基づいて、成長型対話装置200の応答のためのデータを生成する機能部である。音声合成部216は、成長型対話装置200がユーザに応答するための音声データを生成する機能部である。知識抽出部217は、応答生成部215の処理に基づいて、知識情報を獲得する機能部である。知識分類部218は、知識抽出部217により抽出された知識情報の格納箇所を判定する機能部である。知識格納部219は、知識情報をQA DB(後述)と意図理解学習データ(後述)に格納する機能部である。
記憶部220は、成長型対話装置200の各処理を実行するための必要データを格納する部分であり、音声認識用モデルデータ108、意図理解用モデルデータ109、意図理解用学習データ(一般)121、意図理解用学習データ(特定ユーザ)122、意図理解用学習データ(シナリオノード)123、QA DB(一般)111、QA DB(特定タスク)113の各種データが記憶される。
音声認識用モデルデータ108は、音響データを音素に変換したり、語のつながりを識別するための確率値からなる音声認識用の基準データである。意図理解用モデルデータ109は、認識されたテキストから意図を抽出するための基準データである。意図理解用学習データは、認識されたテキストとユーザの発話意図を結びつけるための学習データである。本実施形態の意図理解用学習データには、意図理解用学習データには、意図理解用学習データ(一般)121、意図理解用学習データ(特定ユーザ)122、意図理解用学習データ(シナリオノード)123の三つの種類の学習データを想定する。意図理解用学習データの詳細は、後に説明する。
QA DB(Question and Answer DataBase)は、ユーザの発話意図と応答するための答えを結びつけるデータである。本実施形態のQA DBには、QA DB(一般)111、QA DB(特定タスク)113の二つの種類のDBを想定する。
次に、図2ないし図4を用いて本実施形態の成長型対話装置に用いられるデータ構造の主要なものについて説明する。
意図理解用モデルデータ109は、認識されたテキストから意図を抽出するための基準データであり、図2に示されるように、テキスト109a、コマンド109b、確信度109cのフィールドからなる。
テキスト109aは、意図理解用学習用データから得られるテキストの単語列を格納するフィールドである。コマンド109bは、成長型対話装置が動作するためのコマンドを格納するフィールドである。確信度109cは、ユーザとの対話でテキスト109aの単語が出てきたときに、成長型対話装置がコマンド109bに記述されたコマンドで対応するときの蓋然性を0〜1の間で数値化した確率を格納するフィールドである。
例えば、図2の第三レコードに示される例では、「高尾山」、「高さ」、「何m」または「高い」という単語がユーザとの対話に出てきたときに、質問の応答として、高尾山の高さを答える確信度が、0.9であることを示している。
意図理解用学習データ(一般)121は、認識されたテキストから意図を学習して、意図理解用モデルデータ109を作成するための元データであり、図3に示されるように、テキスト121a、コマンド121bのフィールドからなる。
テキスト121aは、ユーザの対話を音声認識して書き起こしたテキストを格納するフィールドである。コマンド121bは、テキスト121aに対応した成長型対話装置が動作するためのコマンドを格納するフィールドである。図3に示される例では、コマンド121bが質問応答として、「高尾山の高さ」を答えるのに対応するテキストが「高尾山の高さは」、「高尾山の高さはどれくらいですか」、「高尾山と富士山の高さはどれくらい違いますか」などであることを示している。
また、図としては示さなかったが、意図理解用学習データ(特定ユーザ)122は、特定のユーザごとに別個に存在する学習データであり、そのユーザに対する知識獲得が行われていない場合には中身は空となる。
さらに、図としては示さなかったが、意図理解用学習データ(シナリオノード)123は、特定のシナリオツリーごとに存在する学習データである。ここで、シナリオツリーとは、成長型対話装置の対話における対応を表すツリーであり、シナリオノードとは、対話装置の対応の有限状態を表すノードである。成長型対話装置は、シナリオツリーに従い、ユーザからの対話の入力によってノードを遷移して、ユーザへの対話の応答をするように設計されている。
QA DB(一般)は、質問回答の内容に応じて、その答えを格納するデータであり、図4に示されるように、Iフィールド111a、Aフィールド111bからなる。
Iフィールド111aは、質問を表す意図ラベルを格納するフィールドである。ここで、意図ラベルとは、「高尾山の高さ」、「高尾山の位置」などのように、質問の意図を表す識別子である。Aフィールド111bは、Iフィールド111aの質問の意図に対する答えを格納するフィールドである。図4に示される例では、質問意図の「高尾山の高さ」に対する答えとして、「599メートル」、質問意図の「高尾山の位置」に対する答えとして、「東京都八王子市」が格納されることを示している。
また、QA DB(特定タスク)113は、特定のタスクごとに作成されて、その特定のタスクに関しての、質問回答の内容に応じて、その答えを格納するデータである。特定のタスクとは、成長型対話装置が対話応答に関して受取るコマンドに対して動作をいう。
次に、図5ないし図8を用いて成長型対話装置の処理について説明する。
最初に、図5を用いて成長型対話装置(対話デバイス)を通した音声対話処理の流れ、特にユーザが発話した質問音声に対して成長型対話装置が回答音声を発話するまでの一連の処理の流れについて説明する。
成長型対話装置は、常に、図1に示したマイク231で音声を集音し続けている。この状況下で、ユーザが発声したユーザ発話音声101は、マイクでデジタル信号に変換された後、発話区間検出処理102により、ユーザの音声部分のみが切り出される。次に、音声認識処理103により、音声認識処理がされて、音声に対応するテキストに書き起こされる。ここで、音声認識処理103は、音声認識用モデルデータ108を用いる。
次に、意図理解処理104でテキストに含まれる単語情報をもとに、ユーザ質問の意図ラベルが決定される。ここで意図ラベルとは、既に説明したように、「高尾山の高さ」、「高尾山の位置」などのように、質問の意図を表す識別子である。単語情報からこの意図情報を決定するために、意図理解用モデルデータ109を用いる。次に、応答生成処理105で二種類のQA DB内で、意図理解処理104で決定したIフィールドの意図ラベルを検索し、対応するAフィールドに格納された回答テキストを出力する。最後に、音声合成処理106で回答テキストを合成音声に変換し、スピーカー232を通して対話デバイスから応答音声107として発声させる。
意図理解用モデルデータ109は、意図理解モデル学習処理110によって、意図理解用学習データ(一般)121と意図理解用学習データ(特定ユーザ)122を結合した学習データから機械学習されたモデルデータである。ここで、意図理解用学習データ(特定ユーザ)122は、ユーザごとに別個に存在するデータであり、そのユーザに対する知識獲得が行われていない場合には中身は空となる。対話デバイスが新たなユーザを検知して音声対話サービスを開始する際、顔認識や生体情報認証技術などを用いてそのユーザを識別し、既知のユーザであればそのユーザ用の意図理解用学習データ(特定ユーザ)122を選択した後、上述の機械学習処理が行われる。
未知のユーザだった場合は、空のデータを用意し、そのユーザ用の意図理解用学習データ(特定ユーザ)122として新たにシステムに追加する。このようにして、対話デバイスがあるユーザにサービスしている状況では、意図理解用モデルデータ109は、そのユーザに特化した意図理解モデル学習がなされることになる。
また、意図理解用学習データ(特定シナリオ)123は、シナリオツリーごとに別個に存在するデータであり、そのシナリオに対する知識獲得が行われていない場合には中身は空となる。
QA DBには、上述のように、QA DB(一般)111、QA DB(特定タスク)113の二種類がある。QA DB(一般)111は、どのユーザ、どのタスク、どの対話デバイスでも利用できる回答情報が格納されたDBであり、QA DB(特定タスク)113はある特定のタスクを実行中の対話デバイスのみ回答できる回答情報が格納されたDBである。
これらのQA DBは、上述のように、基本的にはIフィールドと、Aフィールドの二つのフィールドを持つテーブルであり、Iフィールドにはあらかじめ定義された意図ラベルが格納され、Aフィールドにはその意図ラベルが意味する質問に対する回答テキストが格納されている。またQA DB(特定タスク)113、QA DB(特定デバイス)114も、複数のタスクや複数の対話デバイスそれぞれに対して存在するDBであり、ユーザと同様にタスクや対話デバイスが変わるごとに切り替えが行われる。
上述のように、本実施形態の成長型対話装置では、タスクと呼ぶ概念を採用している。タスクとは、対話デバイスが実施しているサービスの内容を示す情報であり、例えば、「お客様誘導タスク」「商品説明タスク」などが考えられる。一つ一つの成長型対話装置では、一時期に、いずれか一つのタスクが割り当てられ、そのタスクに対応するコンテンツでサービスを実施する。もちろん、タスクを切り替えた際に、三種類の意図理解用学習データ、二種類のQA DBは、そのタスク用のものに一斉に切り替えることで対話の精度を向上させることが可能である。
応答生成処理105から出力される、音声認識処理103の書き起こしテキスト、意図理解処理104の意図ラベルとその確信度、応答生成処理105でのQA DBの検索結果(成功/失敗)などの情報に基づいて、知識抽出処理118で、新たな知識情報を抽出する。ここで出力される知識情報は、書き起こしテキストQ、意図ラベルI、回答テキストAの三つの情報である。
知識抽出処理118は、例えば以下のような手順を取りうる。
(意図ラベルの確信度が低い場合)
意図ラベルの確信度がある閾値T1以下だった場合、応答生成処理105では回答テキストを検索可能だが、その回答テキストの読み上げは実施しない。そして、知識抽出処理118では、ユーザへの逆質問を行うことにより、回答テキストを取得する。ここで、ユーザとは質問をしたユーザとは、別のユーザであり、それから知識を獲得することのできる主体であると想定している。例えば、書き起こしテキストが「高尾山の高さを教えて」だったとすると、対話システムはこのテキストに対して定型的な文末表現変換処理を行うことにより、「高尾山の高さを教えてください」とユーザに質問を行う。
これに対してユーザが「599メートルだよ」と回答すれば、音声認識処理の後、定型的な文末表現を削除するなどのテキスト処理を行うことで「599メートル」というテキストを得る。さらに、対話システムが自身固有の文末表現を追加することで「599メートルです」という回答テキストを得る。結果、書き起こしテキストQ「高尾山の高さを教えて」、新たに作成した意図ラベルI「高尾山の高さを教えて」、対応する回答テキストA「599メートルです」という抽出知識を出力できる。新たに作成する意図ラベルは既に存在するラベルとは合致しない一意なものでなければならない。上記の例では書き起こしテキストQをそのままラベルとしたが、もし同一の意図ラベルが存在していれば末尾に識別番号を付与するなどして一意にすることは容易である。
(意図ラベルがQAデータベースに含まれない場合)
応答生成処理105でQAデータベースを検索した際に指定された意図ラベルがIフィールドに存在しなかった場合、上記と同様に対話システムが逆質問を行って回答テキストを取得する。結果、書き起こしテキストQ、意図ラベルI、回答テキストAの三つの情報を出力できる。
(意図ラベルの確信度が高く、QA DBにも含まれる場合)
意図ラベルの確信度が閾値T1よりも高く、QA DBにも含まれる場合は、知識抽出処理118は実施せず、応答生成処理105で検索された回答テキストの読み上げを実施するのみとなる。
知識抽出処理118が実行され、上記三つの知識情報が出力された場合、それらは、次の知識分類処理120への入力とされる。知識分類処理120では、これらの知識情報をどの意図理解用学習データ、どのQAデータベースに格納するかを決定する。
最後に、知識分類処理120の判定結果に基づき、知識格納処理124では抽出された知識情報(Q,I,A)を適切な場所に格納する。すなわち、書き起こしテキストQは、意図理解学習用データのテキストフィールドに、意図ラベルIは、意図理解学習用データのコマンドフィールドと、QA DBのIフィールドに、回答テキストAは、QA DBのIフィールドのAフィールドに所定の形式で格納される。
次に、図6を用いて知識分類処理120の詳細について説明する。
先ず、入力された知識情報に基づいて、その意図ラベルIと回答テキストAの組がいずれかのQA DBのIフィールドおよびAフィールドに格納されているかを検索する(S201)。そのようなレコードが検索された場合(S201:Y)、この知識情報は、新たな回答知識の抽出ではなく、新たな表現知識の抽出結果と判断される。その場合、次に、書き起こしテキストQすなわちそのテキストの質問表現のシナリオ文脈依存度Cを算出する(S202)(詳細は後述)。
さらに、Qの個人依存度Uを算出する(S203)(詳細は後述)。そして、シナリオ文脈依存度Cと個人依存度Uの大きさをある閾値C0、U0と比較することにより(S204、S205)で、この知識情報(表現情報)の格納先とすべき意図理解用学習データの場所を決定する。すなわち、シナリオ文脈依存度Cが閾値C0より、大きいときには(S204:Y)、意図理解用学習データ(シナリオノード)123に格納し、シナリオ文脈依存度Cが閾値C0より、大きくないときには(S204:N)、S205に行く。個人依存度Uが閾値U0より、大きいときには(S205:Y)、意図理解用学習データ(特定ユーザ)122に格納し、大きくないときには(S205:N)、意図理解用学習データ(一般)121に格納する。
一方、処理S201でレコードが検索されなかった場合(S201:N)、抽出された知識情報は、回答知識であると判断される。この場合、回答テキストAのタスク文脈依存度Tを算出し(S207)(詳細は後述)、ある閾値T0との比較により、格納箇所をQA DB(一般)111、または、QA DB(特定タスク)113と分類する。すなわち、獲得した回答知識(I,A)を、タスク文脈依存度Tが閾値T0より、大きいときには(S207:Y)、QA DB(特定タスク)113に格納し、タスク文脈依存度Tが閾値T0より、大きくないときには(S207:N)、QA DB(一般)111に格納する。
そして、いずれかに格納後に、S202に行き、知識情報を意図理解用学習データのいずれかに、格納する。
ここで、シナリオ文脈依存度Cと個人依存度Uは、書き起こしテキストQを解析して、その値を算出し、タスク文脈依存度Tは、回答テキストAを解析して、その値を算出している。これは、質問の言い回しや表現は、成長型対話装置におけるシナリオと、個人の言い方に依存することが多いことが推測されるが、質問に対する答えは、成長型対話装置に与えられたタスクに依存しており(例えば、商品説明タスクでは、商品名や商品の特性などが答えになることが多いであろう)、シナリオや個人の特性にはあまり依存しないと推測されるからである。
次に、図7を用いてシナリオ文脈依存度C算出処理、個人依存度U算出処理の詳細について説明する。
書き起こしテキストQのシナリオ文脈依存度Cは、以下のようにして算出される。先ず、書き起こしテキストQが形態素解析プログラムなどを用いて単語に分割される(S301)。次に、辞書を参照し、助詞など特定の品詞の単語を削除することにより、意味を持つ内容語wを抽出することができる(S302)。同様に、シナリオデータに含まれるテキストから、単語分割をし(S303)、内容語の列cを抽出する(S304)。
次に、辞書からランダムに、単語列cと同じ長さの単語列rを生成する(S306)。そして、単語共起確率データベース307を参照することし、これらの単語w、単語列c、rから、単語列cとrで条件づけられた単語wに含まれるすべての単語間の共起確率Pr(w,w|c)とPr(w,w|r)を取得する。共起確率Pr(w,w|c)とは、単語列cを含む文章中で、単語wと、単語wが共に表れる統計的確率であり、共起確率Pr(w,w|r)とは、単語列rを含む文章中で、単語wと、単語wが共に表れる統計的確率であり、最後に、シナリオ文脈依存度Cを、例えば、以下の(式1)により、算出する。ただし、対数は自然対数をとる。
Figure 2019053126
ここで、シナリオ文脈依存度Cが大きいときには、書き起こしテキストQがシナリオに依存する度合いが大きい(すなわち、ランダムな単語列と比べて乖離が大きい)ことを意味する。
タスク文脈依存度Tも、同様の処理で実現できる。この場合、回答テキストAとタスクデータを入力とし、最終的に計算された値をタスク文脈依存度Tとする。ここでタスクデータとは、あるタスクに含まれるサービスシナリオ全体に含まれるテキストを指す。この場合、内容語抽出S304の出力を、tとし、タスク文脈依存度Tの値は、以下の(式2)により算出する。
Figure 2019053126
次に、図8を用いて個人依存度U算出処理について説明する。
先ず、書き起こしテキストQは、図7に示した処理と同様に、単語分割され(S401)、内容語を抽出して(S402)、単語wへ変換される。次に、処理S403では単語共起確率データベース405を参照することにより、単語wに含まれるすべての単語間の共起確率Pr(w,w)を取得する(S403)。最後に、個人依存度Uを、以下の(式3)により算出する。
Figure 2019053126
ここで、個人依存度Uが大きいときには、書き起こしテキストQが特定ユーザに依存する度合いが大きいことを意味する。すなわち、一般的に使われない言い方(確率が少ない単語の組合せ表現)をするときには、特定のユーザに依存するとみなすことを意味する。
なお、本実施形態では、意図理解用学習用データとして、一般、特定ユーザ、シナリオノードの三種類を別の場所に格納することにより区別したが、データにラベルを付け、そのラベルを読み取ることによって、意図理解用学習用データの種類を判定してもよい。また、QA DBとして、一般、特定タスクの二種類を別の場所に格納することにより区別したが、データにラベルを付け、そのラベルを読み取ることによってQA DBの種類を判定してもよい。
また、知識格納判定処理では、獲得した知識を、シナリオ文脈依存度、個人依存度、タスク文脈依存度という各種の指標に基づいて、意図理解用学習データ、QA DBの入れる場所を判定したが、成長型対話装置に表示装置と入力装置を設けて、獲得した知識情報(Q,I,A)と、指標による判断を表示して、管理者がどの意図理解用学習データ、QA DBの入れるかをチェックするようにしてもよい。
以上、本実施形態の構成により、成長型対話装置は、新たに得た質問回答に関する知識または質問表現に関する知識を、その特性に従って適切に分類された意図理解用モデルデータまたはQA DBに格納することができる。その結果、特定のユーザに対してのみ回答してよい知識を他のユーザに回答することがなくなり、また、特定のユーザに有効な質問表現知識を他のユーザにも使って、対話精度を落としてしまう課題が解決される。特定タスクに関しても同様である。
また、成長型対話装置のシナリオにそった質問表現に関する知識を意図理解用モデルデータとして格納することにより、学習の精度を向上させることができる。
〔実施形態2〕
以下、本発明の実施形態2を、図9ないし図11を用いて説明する。
実施形態1では、音声認識によりユーザと対話する成長型対話装置の知識獲得について説明した。本実施形態では、それに加えて、人に対して画像認識が可能で、稼動ログを蓄積して、特定タスクについて経験知識を蓄える場合の知識獲得について説明する。
本実施形態では、実施形態1と比較して異なる所を重点的に説明することとする。
先ず、図9を用いて実施形態2に係る成長型対話装置の構成について説明する。
本実施形態の成長型対話装置が、実施形態1の成長型対話装置と異なるのは、画像入力部240を有し、それにカメラ(撮像装置)242が接続され、そこから撮影した動画、静止画を取り込めることである。
処理部210には、実施形態1に加えて、画像認識部230と経験知識生成部232のサブコンポーネントが付け加わっている。
画像認識部230は、撮影した動画、静止画をパターン認識して特徴を読み取る機能部である。画像認識部230の画像認識結果と稼動ログより、その成長型対話装置に関する経験知識を生成する機能部である。成長型対話装置に関する経験知識とは、その成長型対話装置を稼動させたことによって得られた知識である。
また、記憶部220は、実施形態1のデータに加えて、QA DB(特定デバイス)114と稼動ログ117が加わっている。
QA DB(特定デバイス)114は、特定のデバイスごとに作成されて、その特定のデバイスに関しての質問回答の内容に応じて、その答えを格納するデータである。ここで、特定のデバイスとは、成長型対話装置のハードウェアのことを意味しており、一台、一台の成長型対話装置が特定のデバイスとみなすこととする。稼動ログ117は、成長型対話装置の稼動記録である。稼動ログ117には、例えば、成長型対話装置により画像認識された特定のユーザが、何年の何月何日にこのデバイスとある話題について対話したなどの記録が書き込まれる。
次に、図10および図11を用いて本実施形態の成長型対話装置の処理について説明する。
本実施形態の成長型対話装置では、実施形態1の図5に示した成長型対話装置の処理に、画像認識処理116と経験知識生成処理119、データとして、稼動ログ117、QA DB(特定デバイス)が加わっている。本実施形態の成長型対話装置の処理では、画像認識の結果と、成長型対話装置の稼動ログ117より、経験知識生成処理119より、その成長型対話装置に関する経験知識を生成する。
生成した経験知識は、知識分類処理120の判断に用いられる。
次に、図11を用いて実施形態2に係る知識分類処理120の詳細について説明する。
実施形態2に係る知識分類処理120では、S201:Nのときの判定処理として、回答テキストAが経験知識であるか否かを判定する(S206)。回答テキストAが経験知識のときには(S206:Y)、獲得した回答知識(I,A)を、QA DB(特定デバイス)114に格納する。回答テキストAが経験知識でないときには(S206:N)、S207に行く。
また、各QA DBに格納後に、S202の判定処理に行くのは、図6に示した実施形態1の知識分類処理120と同様である。
本実施形態では、実施形態1の成長型対話装置の機能に加えて、特定デバイスに特化した知識の獲得をおこなうことができる。
101…ユーザ発話音声
102…発話区間検出処理
103…音声認識処理
104…意図理解処理
105…応答生成処理
106…音声合成処理
107…応答音声
108…音声認識用モデルデータ
109…意図理解用モデルデータ
110…意図理解モデル学習処理
111…QA DB(一般)
113…QA DB(特定タスク)
114…QA DB(特定デバイス)
117…稼動ログ
118…知識抽出処理
120…知識分類処理
121…意図理解用学習データ(一般)
122…意図理解用学習データ(特定ユーザ)
123…意図理解用学習データ(シナリオノード)
124…知識格納処理

Claims (9)

  1. ユーザと音声対話を行って、音声対話の結果を知識として蓄える成長型対話装置であって、
    取得したユーザの発話音声から、音声認識を行いテキスト化する音声認識部と、
    意図理解学習データから学習された意図理解モデルデータを参照して、前記音声認識部により音声認識されたテキストから発話意図を解析する意図理解部と、
    QA DBを参照し、前記意図理解部で解析された発話意図から応答テキストを生成する応答生成部と、
    前記音声認識部により音声認識されたテキスト、前記発話意図、前記応答テキストから知識を抽出する知識抽出部と、
    前記知識抽出部により抽出された知識を特性に応じて分類する知識分類部とを有することを特徴とする成長型対話装置。
  2. 前記知識抽出部により抽出された知識は、前記音声認識部により音声認識されたテキスト、前記発話意図の対の情報となる意図理解学習データ、または、前記発話意図と、前記応答テキストの対の情報であるQA DBであることを特徴とする請求項1記載の成長型対話装置。
  3. 前記意図理解学習データは、前記音声認識部により音声認識されたテキストが特定ユーザに依存するかの指標、前記音声認識部により音声認識されたテキストが成長型対話装置の対話のシナリオに依存するかの指標によって分類されることを特徴とする請求項2記載の成長型対話装置。
  4. 前記QA DBは、前記応答テキストが特定タスクに依存するかの指標によって分類されることを特徴とする請求項2記載の成長型対話装置。
  5. 前記知識分類部の知識の分類結果を表示し、成否の判定を入力する手段を有することを特徴とする請求項2記載の成長型対話装置。
  6. さらに、撮影した画像から画像認識をおこなう画像認識部を有することを特徴とする請求項1記載の成長型対話装置。
  7. 稼動ログを保持することを特徴する請求項1記載の成長型対話装置。
  8. 稼動ログからデバイスに関する経験知識を生成する経験知識生成部を有することを特徴とする請求項7記載の成長型対話装置
  9. 前記QA DBは、前記稼動ログを参照し、前記応答テキストが特定デバイスに依存するかの指標によって分類されることを特徴とする請求項7記載の成長型対話装置。
JP2017175850A 2017-09-13 2017-09-13 成長型対話装置 Active JP6857581B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017175850A JP6857581B2 (ja) 2017-09-13 2017-09-13 成長型対話装置
US16/037,566 US11037553B2 (en) 2017-09-13 2018-07-17 Learning-type interactive device
CN201810809616.1A CN109493850B (zh) 2017-09-13 2018-07-23 成长型对话装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017175850A JP6857581B2 (ja) 2017-09-13 2017-09-13 成長型対話装置

Publications (2)

Publication Number Publication Date
JP2019053126A true JP2019053126A (ja) 2019-04-04
JP6857581B2 JP6857581B2 (ja) 2021-04-14

Family

ID=65632375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017175850A Active JP6857581B2 (ja) 2017-09-13 2017-09-13 成長型対話装置

Country Status (3)

Country Link
US (1) US11037553B2 (ja)
JP (1) JP6857581B2 (ja)
CN (1) CN109493850B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516056A (zh) * 2019-08-20 2019-11-29 深圳市奥拓电子股份有限公司 人机对话的自主学习方法、自主学习系统及存储介质
JP2021043766A (ja) * 2019-09-12 2021-03-18 ソプラ株式会社 業務支援装置、及び業務支援システム
JP2021076677A (ja) * 2019-11-07 2021-05-20 Jeインターナショナル株式会社 自動発信システム、処理方法、およびプログラム
WO2021256043A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 推定装置、推定方法、学習装置、学習方法およびプログラム
KR20220042940A (ko) * 2020-09-28 2022-04-05 주식회사 마인즈랩 문자열의 의도 분류 방법 및 컴퓨터 프로그램
JP2022544969A (ja) * 2019-08-15 2022-10-24 エーアイ スピーチ カンパニー リミテッド 音声会話処理方法及び装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222161B (zh) * 2019-05-07 2022-10-14 北京来也网络科技有限公司 对话机器人智能应答方法及装置
JP7026659B2 (ja) * 2019-06-20 2022-02-28 本田技研工業株式会社 応答装置、応答方法、およびプログラム
CN110675876A (zh) * 2019-10-17 2020-01-10 珠海格力电器股份有限公司 一种语义识别智能控制方法、智能控制器、系统及存储介质
CN113035181A (zh) * 2019-12-09 2021-06-25 斑马智行网络(香港)有限公司 语音数据处理方法、设备和系统
CN111241236B (zh) * 2019-12-30 2023-08-22 新大陆数字技术股份有限公司 任务导向性问答方法、系统、电子设备、可读存储介质
CN111858876A (zh) * 2020-05-14 2020-10-30 北京捷通华声科技股份有限公司 一种知识库的生成方法、文本查找方法和装置
WO2021255484A1 (en) * 2020-06-18 2021-12-23 Citrix Systems, Inc. Autonomous learning of entity values in artificial intelligence conversational systems
CN112101044B (zh) * 2020-11-02 2021-11-12 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备
CN112463939A (zh) * 2020-11-12 2021-03-09 深圳市欢太科技有限公司 人机对话方法、系统、服务设备及计算机存储介质
CN112307187A (zh) * 2020-12-08 2021-02-02 浙江百应科技有限公司 一种基于智能客服辅助交互的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004101901A (ja) * 2002-09-10 2004-04-02 Matsushita Electric Works Ltd 音声対話装置及び音声対話プログラム
JP2008512789A (ja) * 2004-09-10 2008-04-24 マイクロソフト コーポレーション 機械学習

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP3945356B2 (ja) 2002-09-17 2007-07-18 株式会社デンソー 音声対話装置及びプログラム
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
JPWO2007105409A1 (ja) * 2006-02-27 2009-07-30 日本電気株式会社 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2011215742A (ja) * 2010-03-31 2011-10-27 Nec Corp 対話システム、対話フローの更新方法およびプログラム
JP5674689B2 (ja) * 2012-02-15 2015-02-25 日本電信電話株式会社 知識量推定情報生成装置、知識量推定装置、方法、及びプログラム
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP2816553A1 (en) * 2013-06-20 2014-12-24 2236008 Ontario Inc. Natural language understanding automatic speech recognition post processing
US20140379334A1 (en) * 2013-06-20 2014-12-25 Qnx Software Systems Limited Natural language understanding automatic speech recognition post processing
CN103458056B (zh) * 2013-09-24 2017-04-26 世纪恒通科技股份有限公司 自动外呼系统基于自动分类技术的语音意图判定系统
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
JP6143883B2 (ja) * 2013-11-29 2017-06-07 株式会社東芝 対話支援システム、方法、及びプログラム
DE112014007123T5 (de) * 2014-10-30 2017-07-20 Mitsubishi Electric Corporation Dialogsteuersystem und Dialogsteuerverfahren
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统
CN105913039B (zh) * 2016-04-26 2020-08-18 北京光年无限科技有限公司 基于视觉和语音的对话数据交互处理方法及装置
US9972304B2 (en) * 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
CN107146610B (zh) * 2017-04-10 2021-06-15 易视星空科技无锡有限公司 一种用户意图的确定方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004101901A (ja) * 2002-09-10 2004-04-02 Matsushita Electric Works Ltd 音声対話装置及び音声対話プログラム
JP2008512789A (ja) * 2004-09-10 2008-04-24 マイクロソフト コーポレーション 機械学習

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022544969A (ja) * 2019-08-15 2022-10-24 エーアイ スピーチ カンパニー リミテッド 音声会話処理方法及び装置
CN110516056A (zh) * 2019-08-20 2019-11-29 深圳市奥拓电子股份有限公司 人机对话的自主学习方法、自主学习系统及存储介质
JP2021043766A (ja) * 2019-09-12 2021-03-18 ソプラ株式会社 業務支援装置、及び業務支援システム
JP2021076677A (ja) * 2019-11-07 2021-05-20 Jeインターナショナル株式会社 自動発信システム、処理方法、およびプログラム
WO2021256043A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 推定装置、推定方法、学習装置、学習方法およびプログラム
JP7425368B2 (ja) 2020-06-16 2024-01-31 日本電信電話株式会社 推定装置、推定方法、学習装置、学習方法およびプログラム
KR20220042940A (ko) * 2020-09-28 2022-04-05 주식회사 마인즈랩 문자열의 의도 분류 방법 및 컴퓨터 프로그램
KR102456646B1 (ko) * 2020-09-28 2022-10-21 주식회사 마인즈랩 문자열의 의도 분류 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
CN109493850A (zh) 2019-03-19
US20190080687A1 (en) 2019-03-14
US11037553B2 (en) 2021-06-15
CN109493850B (zh) 2023-03-31
JP6857581B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
JP6857581B2 (ja) 成長型対話装置
US10616414B2 (en) Classification of transcripts by sentiment
WO2020228173A1 (zh) 违规话术检测方法、装置、设备及计算机可读存储介质
US8195459B1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
WO2017127296A1 (en) Analyzing textual data
KR20170088164A (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
CN109192194A (zh) 语音数据标注方法、装置、计算机设备及存储介质
WO2018192186A1 (zh) 语音识别方法及装置
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN110998719A (zh) 信息处理设备和信息处理方法
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN111209367A (zh) 信息查找方法、信息查找装置、电子设备及存储介质
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US10282417B2 (en) Conversational list management
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
JP2001100787A (ja) 音声対話システム
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN110021295B (zh) 用于识别由语音识别系统生成的错误转录的方法和系统
US20220392439A1 (en) Rescoring Automatic Speech Recognition Hypotheses Using Audio-Visual Matching
US11632345B1 (en) Message management for communal account

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210322

R150 Certificate of patent or registration of utility model

Ref document number: 6857581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150