JP2023012634A - 対話表現分析方法、対話表現分析システム、及び対話表現分析プログラム - Google Patents
対話表現分析方法、対話表現分析システム、及び対話表現分析プログラム Download PDFInfo
- Publication number
- JP2023012634A JP2023012634A JP2021116172A JP2021116172A JP2023012634A JP 2023012634 A JP2023012634 A JP 2023012634A JP 2021116172 A JP2021116172 A JP 2021116172A JP 2021116172 A JP2021116172 A JP 2021116172A JP 2023012634 A JP2023012634 A JP 2023012634A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- named entity
- expression analysis
- speaker
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000010195 expression analysis Methods 0.000 title claims abstract description 41
- 230000014509 gene expression Effects 0.000 claims abstract description 68
- 230000008569 process Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 241000283973 Oryctolagus cuniculus Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】語彙や表現の一貫性が低い話者の発話内容を適切に変換して、発話内容を用いた対話知識の検索精度を向上できる対話表現分析方法、システム及びプログラムを提供する。【解決手段】方法は、対話の対話記録における第1の話者及び第2の話者の発話に基づいて対話記録のサブコーパスを推定し、サブコーパス毎に対話記録から第1の話者が用いた第1の固有表現及び第2の話者が用いた第2の固有表現を抽出し、第1の固有表現及び第2の固有表現が所定条件を充足するか否かを判定し、所定条件を充足する場合に、第1の固有表現と第2の固有表現とが対応関係を有すると推定する、各処理を有する。【選択図】図10
Description
本発明は、対話表現分析方法、対話表現分析システム、及び対話表現分析プログラムに関する。
例えばコールセンタのオペレータの顧客電話応対業務を支援する対話型業務推薦システムがある。対話型業務推薦システムは、相談者である顧客の発話内容を基に対話知識を検索し、応対者であるオペレータが行うべき適切な業務手続き(対応)を対話知識から特定して提示する。このため、適切な業務手続きの特定のためには、顧客の発話意図を適切に把握することが望まれる。
このように話者の意図を把握する技術として、例えば特許文献1には「セマンティックマイニングフレームワークは、発話のコーパス内の意図を検出すること、コーパス内の意図に対する意図ベクトルを生み出すこと、意図ベクトル間の距離を計算すること、該距離に基づいて意図ベクトルの意味クラスタを生成すること、意味クラスタに対するクラスタ半径値の安定範囲を検出すること、及び意味クラスタとクラスタ半径値の安定範囲とから意図/実体モデルを生成することを含む。エージェント自動化フレームワーク100は、受信された自然言語のリクエスト中の意図を分類するために、意図/実体モデルを使用する。」が開示されている(特許文献1の要約書参照)。
しかしながら、応対者は、業務マニュアル等に基づく比較的一貫性が高い表現や語彙を用いて発話する一方、相談者は、必ずしも表現や語彙に一貫性があるとは言えず、業務マニュアル等が想定する表現や語彙以外を用いて発話することがある。対話知識が業務マニュアル等から構築されたものである場合に、相談者が想定外の表現や語彙を用いて発話すると、相談者の発話意図を適切に把握し切れない。このため、相談者の発話の表現や語彙を用いた対話知識の検索精度が低下し、応対者に対して適切な業務手続きを提示できないという問題がある。
本発明は、上記の問題に鑑みてなされたものであり、語彙や表現の一貫性が低い話者の発話内容を適切に変換して、発話内容を用いた対話知識の検索精度を向上し得るようにすることを1つの目的とする。
上述した課題を解決するため、本発明の一態様では、第1の話者及び第2の話者による対話で用いられた表現の対応関係を分析する対話表現分析システムが実行する対話表現分析方法であって、前記対話の対話記録における前記第1の話者及び前記第2の話者の発話に基づいて前記対話記録のサブコーパスを推定し、前記サブコーパス毎に前記対話記録から前記第1の話者が用いた第1の固有表現及び前記第2の話者が用いた第2の固有表現を抽出し、前記第1の固有表現及び前記第2の固有表現が所定条件を充足するか否かを判定し、前記所定条件を充足する場合に、前記第1の固有表現と前記第2の固有表現とが対応関係を有すると推定する、各処理を有することを特徴とする。
本発明によれば、例えば、語彙や表現の一貫性が低い話者の発話内容を適切に変換して、発話内容を用いた対話知識の検索精度を向上し得るようにすることができる。
以下、図面を参照して本発明の実施形態を説明する。実施形態は、本発明を説明するための例示に過ぎず、本発明を限定するものではなく、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態や各形態の一部又は全部を組合せた形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でもよい。
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
実施形態では、テーブル形式で情報を例示するが、情報はテーブル形式に限らずその他の形式であってもよい。
以下の実施形態では、コールセンタ業務を想定し、顧客が相談者、コールセンタのオペレータが応対者であり、相談者の相談内容に基づいて、応対者が取るべき適切な業務手続きを対話知識から取得して顧客に提示するための対話を前提とする。業務手続きは、対応の一例である。対話知識は、応対者との対話における相談者の発話に含まれる語彙や表現といった固有表現をキーに検索すると、応対者が取るべき適切な業務手続きがヒットする場合に検索結果を出力するナレッジDB(Data Base)である。
応対者及び対話知識は、業務マニュアル等に準拠するため、語彙にばらつきがなく一貫性がある。一方顧客は、オペレータ及び対話知識と比較して語彙にばらつきがあり一貫性がない。さらに顧客は、ある事柄を表す際に、オペレータ及び対話知識の語彙との対応関係が自明ではない語彙を用いることもある。このため、オペレータが顧客の発話内容に含まれる語彙を適切に把握しないまま対話知識を検索しても、適切な検索を得ることはできない。
そこで実施形態では、対話を行う相談者及び応対者の話者カテゴリに応じて各話者の語彙の一貫性(あるいは揺らぎ)の程度に差異があることに着目する。そしてこの差異に基づいて、顧客とオペレータの対話記録の蓄積から顧客とオペレータの語彙の対応関係を見出し、語彙の対応関係リストを作成する。この対応関係リストを用い、顧客の発話内容に含まれる語彙を適切な語彙に変換した上で対話知識を検索し、適切な業務手続きを取得でき、検索精度を向上させる。また対応関係リストを用意することで、オぺーレータをAI(Artificial Intelligence)チャットボットに置き換え後も、顧客の発話内容に含まれる語彙を適切な語彙に変換した上で対話知識を検索し、適切な業務手続きを取得できるようになる。
以下の実施形態では、オペレータ(応対者)には、顧客(相談者)との対話において表現(あるいは語彙)に一貫性があり、顧客には、オペレータとの対話において表現(あるいは語彙)に一貫性がないことを前提とする。本発明は、しかしこれに限らず、対話を行う第1の話者と第2の話者との間に、対話内での表現(あるいは語彙)の一貫性に関して相対的な差異が存在すれば、適用可能である。
(対話用語分析システム10の構成)
図1は、実施形態の対話用語分析システム10の構成例を示す図である。対話用語分析システム10には、ディスプレイやプリンタ等の表示装置20が接続される。
図1は、実施形態の対話用語分析システム10の構成例を示す図である。対話用語分析システム10には、ディスプレイやプリンタ等の表示装置20が接続される。
(対話用語分析システム10の保持データ)
対話用語分析システム10は、対話記録11、業務マニュアル12、対話記録サブコーパス13、固有表現リスト14、固有表現対応関係リスト15、及び対話用語対応関係情報16を、揮発性又は不揮発性の記憶領域に格納している。
対話用語分析システム10は、対話記録11、業務マニュアル12、対話記録サブコーパス13、固有表現リスト14、固有表現対応関係リスト15、及び対話用語対応関係情報16を、揮発性又は不揮発性の記憶領域に格納している。
(対話記録11)
図2は、実施形態の対話記録11のテーブル構成例を示す図である。対話記録11は、業務ドメイン毎に対話の記録をテーブル保存するものであり、対話記録ID111、話者カテゴリ112、発話番号113、及び発話テキスト114のカラムを有する。業務ドメインとは、応対者が担当する業務の領域であり、対話の対象領域の一例である。1つの対話は、相談者と応対者でやり取りされる複数の発話から構成される。
図2は、実施形態の対話記録11のテーブル構成例を示す図である。対話記録11は、業務ドメイン毎に対話の記録をテーブル保存するものであり、対話記録ID111、話者カテゴリ112、発話番号113、及び発話テキスト114のカラムを有する。業務ドメインとは、応対者が担当する業務の領域であり、対話の対象領域の一例である。1つの対話は、相談者と応対者でやり取りされる複数の発話から構成される。
対話記録ID111は、記録された対話の識別情報である。話者カテゴリ112は、対話記録ID111で識別される1つの対話記録の中で、発話番号113の順序で発話される発話テキスト114の話者が相談者及び応対者の何れであるかを示す。
(業務マニュアル12)
図3は、実施形態の業務マニュアル12のテーブル構成例を示す図である。業務マニュアル12は、業務ドメイン毎の業務のマニュアル文を保存するものであり、文書ID121、行番号122、及びテキスト123のカラムを有する。業務マニュアル12は、複数の文書から構成される。文書は、行番号が示される複数のテキストから構成される。
図3は、実施形態の業務マニュアル12のテーブル構成例を示す図である。業務マニュアル12は、業務ドメイン毎の業務のマニュアル文を保存するものであり、文書ID121、行番号122、及びテキスト123のカラムを有する。業務マニュアル12は、複数の文書から構成される。文書は、行番号が示される複数のテキストから構成される。
文書ID121は、業務ドメイン毎の業務マニュアル12内での文書の識別情報である。行番号122は、テキスト123で示される各マニュアル文が文書ID121で識別される文書内でどの行位置であるかを示す。
(対話記録サブコーパス13)
図4は、実施形態の対話記録サブコーパス13のテーブル構成例を示す図である。対話記録サブコーパス13は、業務ドメイン毎の対話記録11のサブコーパスに関する情報をテーブル保存するものであり、対話記録ID131、サブコーパスID132、及び生成方法133のカラムを有する。サブコーパスとは、全ての対話記録を対象として抽出された相談者と応対者の対話記録の部分集合である。
図4は、実施形態の対話記録サブコーパス13のテーブル構成例を示す図である。対話記録サブコーパス13は、業務ドメイン毎の対話記録11のサブコーパスに関する情報をテーブル保存するものであり、対話記録ID131、サブコーパスID132、及び生成方法133のカラムを有する。サブコーパスとは、全ての対話記録を対象として抽出された相談者と応対者の対話記録の部分集合である。
全ての対話記録を対象として生成方法133で示される各手法を適用して生成された各サブコーパスは、サブコーパスID132で識別される。サブコーパスID132で識別される同一のサブコーパスにグループ分けされた各対話記録は、対話記録ID131で識別される。
例えば対話記録サブコーパス13では、対話記録ID131「9」「10」「11」の対話記録が、生成方法133「クラスタリング」によってサブコーパスID132「1」のサブコーパスへ分類されたことを示す。また対話記録サブコーパス13では、対話記録ID131「12」「13」「14」が、生成方法133「業務マニュアル用語「創業記念ミュージアム」の有無」に応じてサブコーパスID132「2」のサブコーパスへ分類されたことを示す。
(固有表現リスト14)
図5は、実施形態の固有表現リスト14のテーブル構成例を示す図である。固有表現リスト14は、業務ドメイン毎の固有表現の統計情報を話者カテゴリ別に保存するテーブルである。固有表現リスト14は、固有表現ID141、サブコーパスID142、話者カテゴリ143、固有表現テキスト144、統計情報1(tf)145、及び統計情報2(idf-1)146のカラムを有する。
図5は、実施形態の固有表現リスト14のテーブル構成例を示す図である。固有表現リスト14は、業務ドメイン毎の固有表現の統計情報を話者カテゴリ別に保存するテーブルである。固有表現リスト14は、固有表現ID141、サブコーパスID142、話者カテゴリ143、固有表現テキスト144、統計情報1(tf)145、及び統計情報2(idf-1)146のカラムを有する。
固有表現ID141は、固有表現テキスト144に示される固有表現の識別情報である。サブコーパスID142は、固有表現ID141で識別される固有表現が登場するサブコーパスの識別情報である。統計情報1(tf)145は、サブコーパスID142及び話者カテゴリ143のそれぞれで識別されるサブコーパス及び話者カテゴリ内で、固有表現ID141で識別される固有表現が登場する頻度を測る統計値である。統計情報2(idf-1)146は、サブコーパスID142及び話者カテゴリ143のそれぞれで識別されるサブコーパス及び話者カテゴリ内で、固有表現ID141で識別される固有表現が出現する対話の数を測る統計値の対数値である。
固有表現リスト14を基に、例えば応対者・相談者発話頻度分布17(図9)が作成される。
(固有表現対応関係リスト15)
図6は、実施形態の固有表現対応関係リスト15のテーブル構成例を示す図である。固有表現対応関係リスト15は、業務ドメイン毎に業務マニュアル用語と相談者発話の固有表現の対応関係を保存するテーブルであり、対応関係ID、業務マニュアル用語固有表現152、相談者発話固有表現153、及びサブコーパスID154のカラムを有する。
図6は、実施形態の固有表現対応関係リスト15のテーブル構成例を示す図である。固有表現対応関係リスト15は、業務ドメイン毎に業務マニュアル用語と相談者発話の固有表現の対応関係を保存するテーブルであり、対応関係ID、業務マニュアル用語固有表現152、相談者発話固有表現153、及びサブコーパスID154のカラムを有する。
対応関係ID151は、サブコーパスID154で識別されるサブコーパス内での業務マニュアル用語固有表現152と相談者発話固有表現153との対応関係を識別する識別情報である。業務マニュアル用語固有表現152は、サブコーパスID154で識別されるサブコーパスに分類された対話記録11に登録されている応対者発話の固有表現であり、業務マニュアル12内の固有表現と一致する。相談者発話固有表現153は、サブコーパスID154で識別されるサブコーパスに分類された対話記録11に登録されている相談者発話の固有表現である。
(対話用語対応関係情報16の構成)
図7は、実施形態の対話用語対応関係情報16の構成例を示す図である。対話用語対応関係情報16は、固有表現対応関係リスト15(図6)で示す業務マニュアル用語(応対者発話)161と相談者用語(相談者発話)162との対応関係を、対応関係の根拠情報と共に表示装置20に表示する情報である。対応関係の根拠情報は、対応関係の推定の際に用いた後述の応対者・相談者発話頻度分布17(図9)である。図9では、後述するように、応対者発話の固有表現(創業記念ミュージアム」1711の統計情報1(tf)と、相談者発話の固有表現(創業記念ミュージアム)1721、(ウサギの建物)1722、(テーマパーク)1723の統計情報1(tf)の合計とが一致することで、これらの固有表現が対応関係ありと推定されることを示す。ユーザは、対話用語対応関係情報16を参照することで、業務マニュアル用語(応対者発話)161と相談者用語(相談者発話)162との対応付けの妥当性を判断できる。
図7は、実施形態の対話用語対応関係情報16の構成例を示す図である。対話用語対応関係情報16は、固有表現対応関係リスト15(図6)で示す業務マニュアル用語(応対者発話)161と相談者用語(相談者発話)162との対応関係を、対応関係の根拠情報と共に表示装置20に表示する情報である。対応関係の根拠情報は、対応関係の推定の際に用いた後述の応対者・相談者発話頻度分布17(図9)である。図9では、後述するように、応対者発話の固有表現(創業記念ミュージアム」1711の統計情報1(tf)と、相談者発話の固有表現(創業記念ミュージアム)1721、(ウサギの建物)1722、(テーマパーク)1723の統計情報1(tf)の合計とが一致することで、これらの固有表現が対応関係ありと推定されることを示す。ユーザは、対話用語対応関係情報16を参照することで、業務マニュアル用語(応対者発話)161と相談者用語(相談者発話)162との対応付けの妥当性を判断できる。
なお対話用語対応関係情報16に含まれる根拠情報として、応対者・相談者発話頻度分布17は一例に過ぎない。業務マニュアル用語(応対者発話)161と相談者用語(相談者発話)162との対応関係の推定で用いた情報であれば、他の情報も根拠情報とすることもできる。
(対話用語分析システム10の処理機能)
図1の説明に戻る。対話用語分析システム10は、処理機能部として、サブコーパス推定部21、統計情報計算部22、固有表現抽出部23、固有表現対応関係推定部24、根拠情報生成部25、及び表示制御部26を含んで構成される。これらの処理機能部は、プロセッサ及びメモリによるプログラム実行によって実現される。
図1の説明に戻る。対話用語分析システム10は、処理機能部として、サブコーパス推定部21、統計情報計算部22、固有表現抽出部23、固有表現対応関係推定部24、根拠情報生成部25、及び表示制御部26を含んで構成される。これらの処理機能部は、プロセッサ及びメモリによるプログラム実行によって実現される。
(サブコーパス推定部21のサブコーパス推定処理)
サブコーパス推定部21は、サブコーパス推定処理(後述のステップS11(図10))を実行する。サブコーパス推定処理では、指定された対象領域である業務ドメイン毎に、対話記録DB11の全ての対話記録11に対して、応対者の発話内容の類似性に基づくクラスタリングが実行される。またはサブコーパス推定処理では、業務マニュアルに登場する業務マニュアル用語の出現の有無に基づくグループ化が実行される。クラスタリング又はグループ化によって、業務ドメイン毎のサブコーパスが作成される。作成されたサブコーパスは、対話記録サブコーパス13に格納される。なおサブコーパス推定部21は、業務ドメインを、対話内の発話や表現、単語等に基づく対話の特徴量から判断してもよい。
サブコーパス推定部21は、サブコーパス推定処理(後述のステップS11(図10))を実行する。サブコーパス推定処理では、指定された対象領域である業務ドメイン毎に、対話記録DB11の全ての対話記録11に対して、応対者の発話内容の類似性に基づくクラスタリングが実行される。またはサブコーパス推定処理では、業務マニュアルに登場する業務マニュアル用語の出現の有無に基づくグループ化が実行される。クラスタリング又はグループ化によって、業務ドメイン毎のサブコーパスが作成される。作成されたサブコーパスは、対話記録サブコーパス13に格納される。なおサブコーパス推定部21は、業務ドメインを、対話内の発話や表現、単語等に基づく対話の特徴量から判断してもよい。
図8は、実施形態のサブコーパス推定処理例の説明図である。例えばサブコーパスの推定方法の一例として、業務ドメインの指定を受け付け、指定された業務ドメイン毎の対話記録11から、相談者と応対者の対話のうちの応対者の発話が類似性を有する対話を同一クラスタに分類するクラスタリングがある。図8では、3つの対話記録181、182、183の何れも相談者発話1811、1821、1831に対する応対者発話1812、1822、1832の中に「〇月〇日で創業記念ミュージアムの予約を承りました」という文があり類似性が認められる。よって対話記録181、182、183が同一のサブコーパス18にグループ化される。
またサブコーパスの推定方法の別例としては、指定された業務ドメイン毎の対話記録から、相談者と応対者の対話中で業務マニュアルに登場する業務マニュアル用語の発話がある対話、及び、業務マニュアル用語の発話がない対話、といったグループ分けがある。
(統計情報計算部22の統計情報計算処理)
統計情報計算部22は、統計情報計算処理(後述のステップS12(図10))を実行する。統計情報計算処理では、同一のサブコーパスに分類された対話記録のテキストの集合に対して、応対者側と相談者側のそれぞれの発話の統計情報を算出する。例えば統計情報計算部22は、同一のサブコーパスに分類された対話記録の応対者及び相談者の各テキストの頻度分布(統計情報1(tf)145(図5))、及び、各テキストが登場する対話の数(統計情報2(idf-1)146(図5))を算出する。
統計情報計算部22は、統計情報計算処理(後述のステップS12(図10))を実行する。統計情報計算処理では、同一のサブコーパスに分類された対話記録のテキストの集合に対して、応対者側と相談者側のそれぞれの発話の統計情報を算出する。例えば統計情報計算部22は、同一のサブコーパスに分類された対話記録の応対者及び相談者の各テキストの頻度分布(統計情報1(tf)145(図5))、及び、各テキストが登場する対話の数(統計情報2(idf-1)146(図5))を算出する。
図9は、実施形態の応対者・相談者発話頻度分布例の説明図である。図9の例では、応対者発話頻度分布171は、発話1711(創業記念ミュージアム)が20回、発話1712(XX月XX日)が1回、発話1713(YY月YY日)が1回となっている。また相談者発話頻度分布172では、発話1721(創業記念ミュージアム)が10回、発話1722(ウサギの建物)が5回、発話1723(テーマパーク)が3回となっている。
(固有表現抽出部23の固有表現抽出処理)
固有表現抽出部23は、固有表現抽出処理(後述のステップS13(図10))を実行する。固有表現抽出処理では、例えば固有表現抽出(NER:Named Entity Recognition)」のような周知技術を用いて、統計情報計算部22によって統計情報が計算されたテキストの中から固有表現が抽出される。固有表現とは、例えば「4月1日」を単語分割すると「4」「月」「1」「日」のように4つの単語に分割されるが、「4月1日」の日時情報のように、何らかの意味を持つ1つの単位になるように単語がまとめられた表現あるいは語彙を指す。さらに固有表現抽出処理では、固有表現は、出現するグループあるいはクラスタで固有の表現であるため、他のグループあるいはクラスタでも出現する表現は、一般性が高い表現として、固有表現から除外される。
固有表現抽出部23は、固有表現抽出処理(後述のステップS13(図10))を実行する。固有表現抽出処理では、例えば固有表現抽出(NER:Named Entity Recognition)」のような周知技術を用いて、統計情報計算部22によって統計情報が計算されたテキストの中から固有表現が抽出される。固有表現とは、例えば「4月1日」を単語分割すると「4」「月」「1」「日」のように4つの単語に分割されるが、「4月1日」の日時情報のように、何らかの意味を持つ1つの単位になるように単語がまとめられた表現あるいは語彙を指す。さらに固有表現抽出処理では、固有表現は、出現するグループあるいはクラスタで固有の表現であるため、他のグループあるいはクラスタでも出現する表現は、一般性が高い表現として、固有表現から除外される。
固有表現抽出部23は、上述のように一般性が高い固有表現を除外して残った固有表現に固有表現IDを割り当てる。固有表現抽出部23は、固有表現ID、この固有表現が含まれるサブコーパスID、固有表現のテキスト、統計情報1(tf)、及び統計情報2(idf-1)を対応付けて、サブコーパス毎の固有表現リスト14に登録する。
(固有表現対応関係推定部24の固有表現対応関係推定処理)
固有表現対応関係推定部24は、固有表現対応関係推定処理(後述のステップS14(図10))を実行する。対応関係推定処理では、サブコーパス毎の固有表現リスト14の中で、応対者の固有表現(業務マニュアル用語)と相談者の固有表現との対応関係が推定される。
固有表現対応関係推定部24は、固有表現対応関係推定処理(後述のステップS14(図10))を実行する。対応関係推定処理では、サブコーパス毎の固有表現リスト14の中で、応対者の固有表現(業務マニュアル用語)と相談者の固有表現との対応関係が推定される。
サブコーパス毎の固有表現リスト14の中で、対応付け可能な応対者の固有表現と相談者の固有表現とは、次の3つの条件を充足する。
(条件1)応対者の固有表現と相談者の固有表現の組合せは、対話記録ID131で識別される同一の対話記録内で共起性を有する(発話順序を示す発話番号(図2)の距離が閾値以下)。同一の組合せが複数の場合は、発話番号の距離の平均を取る。
(条件2)同一の応対者の固有表現と相談者の固有表現の複数の組合せのうちで、対話中の応対者の発話テキストに手掛かり表現(例えば“~のことですか?”といった問い返し表現等の特定表現)が含まれる割合が閾値以上である。対話中に手掛かり表現が一定割合以上存在する場合に、この応対者の固有表現と相談者の固有表現の組合せは、応対者の固有表現と相談者の固有表現の時間的近接性を表し、対応関係ありが示唆される。
(条件3)応対者側発話の固有表現の統計情報1(tf)と、相談者側発話の固有表現の統計情報1(tf)の合計とが一致又は一定範囲内で近似する。または応対者側発話の固有表現の統計情報2(idf-1)と、相談者側発話の固有表現の統計情報2(idf-1)の合計とが一致又は一定範囲内で近似する。例えば応対者側発話の1つの固有表現の統計情報1(tf)と、相談者側発話の複数の固有表現の統計情報1(tf)の合計が一致する場合に、応対者側発話の1つの固有表現が相談者側発話の複数の固有表現のそれぞれと対応関係を有すると推定される。
固有表現対応関係推定部24は、上記(条件1)~(条件3)を全て充足する応対者の固有表現と相談者の固有表現との組を、対応関係ありと分析し、固有表現対応関係リスト15(図6)に格納する。
図9では、図8の対話記録181、182、183の応対者発話1812、1822、1823における「創業記念ミュージアム」と、相談者発話1811、1821、1831における「ウサギの建物」、「創業記念ミュージアム」、「テーマパーク」と、が(条件1)~(条件3)を充足して対応関係を有すると判断される。すなわち「創業記念ミュージアム」と「ウサギの建物」、「創業記念ミュージアム」と「テーマパーク」の各組合せは、対応関係を有する固有表現であると判断される。
(条件1)発話番号の距離が閾値以下である。
(条件2)対話中に手掛かり表現の割合が閾値以上である。
(条件3)応対者側発話の固有表現(創業記念ミュージアム)1711の統計情報1(tf)が20回である。これに対して、相談者側発話の固有表現(創業記念ミュージアム)1721、(ウサギの建物)1722、(テーマパーク)1723の統計情報1(tf)の合計が10+7+3=20回である。これは、固有表現(創業記念ミュージアム)1711の統計情報1(tf)と一致する。
(条件1)発話番号の距離が閾値以下である。
(条件2)対話中に手掛かり表現の割合が閾値以上である。
(条件3)応対者側発話の固有表現(創業記念ミュージアム)1711の統計情報1(tf)が20回である。これに対して、相談者側発話の固有表現(創業記念ミュージアム)1721、(ウサギの建物)1722、(テーマパーク)1723の統計情報1(tf)の合計が10+7+3=20回である。これは、固有表現(創業記念ミュージアム)1711の統計情報1(tf)と一致する。
なお上記(条件1)~(条件3)の全てが充足されることで、応対者の固有表現と相談者の固有表現とが対応関係を有するとの推定結果の確信度が高まる。しかし、上記(条件1)~(条件3)の必ずしも全てが充足されなくても、上記(条件1)~(条件3)の少なくとも何れかが充足されれば、応対者の固有表現と相談者の固有表現とが対応関係を有すると推定してもよい。
また応対者の固有表現と相談者の固有表現とが対応関係を有すると推定する際に、上記(条件1)~(条件3)に限らず、応対者と相談者の固有表現の時間的近接性や他の関連性を示唆する条件が充足されることで、対応関係があると推定してもよい。
固有表現対応関係推定部24は、対応関係ありと推定した応対者の固有表現(業務マニュアル用語固有表現152)と相談者の固有表現(相談者発話固有表現153)を、対応関係ID151、サブコーパスID154と共に固有表現対応関係リスト15に格納する。
なお固有表現対応関係推定部24は、上述した(条件1)~(条件3)に基づく方法に限らず、各固有表現の特徴量及び対応関係の有無を学習させて予測値及び予測確信度を出力する分類器を構成し、この分類器を用いて固有表現の対応関係を判断してもよい。
(対話用語分析処理)
次に対話用語分析システム10の処理動作を説明する。図10は、実施形態の対話用語分析処理例を示すフローチャートである。先ずステップS11では、サブコーパス推定部21は、サブコーパスを作成する業務ドメインが指定された上でサブコーパス処理を実行する。次にステップS12では、統計情報計算部22は、統計情報計算処理を実行する。次にステップS13では、固有表現抽出部23は、固有表現抽出処理を実行する。次にステップS14では、固有表現対応関係推定部24は、固有表現対応関係推定処理を実行する。固有表現対応関係推定処理は、図11を参照して後述する。
次に対話用語分析システム10の処理動作を説明する。図10は、実施形態の対話用語分析処理例を示すフローチャートである。先ずステップS11では、サブコーパス推定部21は、サブコーパスを作成する業務ドメインが指定された上でサブコーパス処理を実行する。次にステップS12では、統計情報計算部22は、統計情報計算処理を実行する。次にステップS13では、固有表現抽出部23は、固有表現抽出処理を実行する。次にステップS14では、固有表現対応関係推定部24は、固有表現対応関係推定処理を実行する。固有表現対応関係推定処理は、図11を参照して後述する。
次にステップS15では、根拠情報生成部25は、根拠情報生成処理を実行する。根拠情報生成処理では、業務マニュアル用語固有表現152と相談者発話固有表現153との対応関係(図6)を推定した根拠情報として例えば応対者・相談者発話頻度分布17(図9)を付加した対話用語対応関係情報16を作成する。
次にステップS16では、表示制御部26は、対話用語対応関係情報16(図7)を表示装置20の表示画面に出力する。
(固有表現対応関係推定処理の詳細)
図11は、図10のステップS14の固有表現対応関係推定処理の詳細例を示すフローチャートである。先ずステップS1401では、固有表現対応関係推定部24は、サブコーパスIDを指定して固有表現リスト14から該当のサブコーパスIDのレコード群を抽出する。
図11は、図10のステップS14の固有表現対応関係推定処理の詳細例を示すフローチャートである。先ずステップS1401では、固有表現対応関係推定部24は、サブコーパスIDを指定して固有表現リスト14から該当のサブコーパスIDのレコード群を抽出する。
次にステップS1402では、固有表現対応関係推定部24は、ステップS1401で抽出したレコード群の中に、対応関係の有無が未判定の固有表現レコードの組があるか否かを判定する。固有表現対応関係推定部24は、対応関係の有無が未判定の固有表現レコードの組がある場合(ステップS1402YES)にステップS1403へ処理を移す。一方固有表現対応関係推定部24は、全ての固有表現レコードの組の対応関係の有無を判定した場合(ステップS1402NO)に固有表現対応関係推定処理を終了し、図10のステップS15へ処理を移す。
次にステップS1403では、固有表現対応関係推定部24は、ステップS1401で抽出したレコード群から対応関係の有無を未判定の固有表現の2つのレコードの組を1つ選択する。
次にステップS1404では、固有表現対応関係推定部24は、ステップS1403で選択した2つのうちの何れかの固有表現を発話テキスト114に含む対話記録11(図2)のレコードのうち、「手掛かり表現」(例えば「~のことでしょうか」のような聞き返しの表現)を含むレコードの有無を判定する。そして、固有表現対応関係推定部24は、ステップS1403で選択した2つのうちの何れかの固有表現を発話テキスト114に含む対話記録11(図2)のレコードのうちの、「手掛かり表現」を含むレコードの割合を計算する。
次にステップS1405では、固有表現対応関係推定部24は、ステップS1403で選択した2つの固有表現の一方と他方を発話テキスト114にそれぞれ含む対話記録11の2つのレコードの組について、発話番号113の差分に基づく2レコード間の距離(発話同士の距離)を推定する。ステップS1403で選択した2つの固有表現の一方と他方を発話テキスト114にそれぞれ含む対話記録11の2つのレコードの組が複数抽出された場合には、2つのレコードの全ての組の距離の平均を取る。
次にステップS1406では、固有表現対応関係推定部24は、ステップS1405で推定された「発話同士の距離」が上述の(条件1)を充たす、ステップS1404で計算された「手掛かり表現を含む割合」が上述の(条件2)を充たす、及び、ステップS1403で選択した2つの固有表現の統計情報(統計情報1(tf)及び統計情報2(idf-1)(図5))が上述の(条件3)を充たすことに基づいて、ステップS1403で選択した2つの固有表現の対応関係ありと判定する。(条件1)~(条件3)の何れか1つでも充足されなかった場合は、対応関係なしと判定される。対応関係ありの場合、ステップS1403で選択した2つの固有表現及び関連情報を固有表現対応関係リスト15(図6)に格納する。ステップS1406が終了すると、固有表現対応関係推定部24は、ステップS1402へ処理を戻す。
上記実施形態では、サブコーパス毎に対話記録から応対者が用いた第1の固有表現及び相談者が用いた第2の固有表現を抽出し、第1の固有表現及び第2の固有表現が所定条件を充足する場合に、第1の固有表現と第2の固有表現とが対応関係を有すると推定する。よって、表現の一貫性の高い話者(応対者)とそうでない話者(相談者)という話者の特性を利用して、応対者と相談者の語彙の対応関係を取ることができる。そして、相談者に対する応対を支援するシステムにおいて相談者の発話に基づいて対話知識を検索する際に有用な、相談者の発話語彙と業務マニュアル用語(応対者の発話語彙)の対応関係の情報を低コストで生成できる。
また上記実施形態では、固有表現の共起性、固有表現の時間的近接性を示す特定表現の存在、及び、固有表現の統計情報の特定条件充足、の少なくとも何れかが充足されることで第1の固有表現と第2の固有表現とが対応関係を有すると推定する。よって、多様な基準に基づくことで、対応関係の推定精度を高めることができる。
また上記実施形態では、共起性は、固有表現の発話順序の差で表される距離が閾値以下であることによって表される。よって発話順序が近い固有表現をより共起性が高い固有表現であると判別できる。
また上記実施形態では、固有表現に関する問い返し表現である。よって固有表現の対応関係を手掛かり語に基づいて判別できる。
また上記実施形態では、対話を行う第1の話者と第2の話者との間に、固有表現の一貫性の程度に少しでも差異があれば、本実施形態を適用して第1の話者の固有表現と第2の話者の固有表現との対応関係を取ることができる。
また上記実施形態では、固有表現の一貫性が相対的に高い第1の話者の第1の固有表現の頻度分布と、第1の話者と比較して固有表現の一貫性が相対的に低い第2の話者の第2の固有表現の第1の頻度分布とに基づいて、固有表現の対応関係を取ることができる。
また上記実施形態では、対話の業務ドメイン毎に対話記録のサブコーパスを推定することで、業務ドメインを絞った上で固有表現の対応関係を取るので、対応関係の推定精度が向上する。
また上記実施形態では、業務ドメインを対話の特徴量に基づいて判断するので、客観指標に基づく決定結果に基づいて業務ドメインを絞った上で固有表現との対応関係を取るので、対応関係の推定精度が向上する。
また上記実施形態では、類似性を有する対話を同一クラスタに分類するクラスタリングを行って対話記録のサブコーパスを推定するので、固有表現の対応関係を取る際の推定精度が向上する。
また上記実施形態では、推定された固有表現の対応関係と共に、対応関係を有すると判定された際の根拠情報をユーザインターフェースに表示することで、ユーザに対応関係の妥当性や信頼性の程度を認識させることができる。
(対話用語分析システム10を実現するコンピュータ500の構成)
図12は、対話用語分析システム10を実現するコンピュータ500の構成例を示す図である。コンピュータ500では、プロセッサ510、RAM(Random Access Memory)などのメモリ520、SSD(Solid State Drive)やHDD(Hard Disk Drive)などのストレージ530、及びネットワークI/F(Inter/Face)540が、バスを介して接続されている。
図12は、対話用語分析システム10を実現するコンピュータ500の構成例を示す図である。コンピュータ500では、プロセッサ510、RAM(Random Access Memory)などのメモリ520、SSD(Solid State Drive)やHDD(Hard Disk Drive)などのストレージ530、及びネットワークI/F(Inter/Face)540が、バスを介して接続されている。
コンピュータ500において、対話用語分析システム10を実現するためのプログラムがストレージ530から読み出されプロセッサ510及びメモリ520の協働により実行されることで対話用語分析システム10が実現される。または、対話用語分析システム10を実現するためのプログラムは、ネットワークI/F540を介した通信により非一時的な記憶装置を備えた外部のコンピュータから取得されてもよい。あるいは対話用語分析システム10を実現するためのプログラムは、非一時的記録媒体に記録され、媒体読み取り装置によって読み出されることで取得されてもよい。
本発明は上述の実施形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また、実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、または入れ替えることが可能である。
10:対話用語分析システム、11:対話記録、12:業務マニュアル、13:対話記録サブコーパス、14:固有表現リスト、15:固有表現対応関係リスト、16:対話用語対応関係情報、17:応対者・相談者発話頻度分布、18:サブコーパス、21:サブコーパス推定部、22:統計情報計算部、23:固有表現抽出部、24:固有表現対応関係推定部、25:根拠情報生成部
Claims (18)
- 第1の話者及び第2の話者による対話で用いられた表現の対応関係を分析する対話表現分析システムが実行する対話表現分析方法であって、
前記対話の対話記録における前記第1の話者及び前記第2の話者の発話に基づいて前記対話記録のサブコーパスを推定し、
前記サブコーパス毎に前記対話記録から前記第1の話者が用いた第1の固有表現及び前記第2の話者が用いた第2の固有表現を抽出し、
前記第1の固有表現及び前記第2の固有表現が所定条件を充足するか否かを判定し、前記所定条件を充足する場合に、前記第1の固有表現と前記第2の固有表現とが対応関係を有すると推定する、
各処理を有することを特徴とする対話表現分析方法。 - 請求項1に記載の対話表現分析方法であって、
前記所定条件は、
前記第1の固有表現及び前記第2の固有表現が共起性を有すること、前記対話記録に前記第1の固有表現及び前記第2の固有表現の時間的近接性を示す特定表現が含まれること、及び、前記第1の固有表現及び前記第2の固有表現の統計情報が特定条件を充足すること、の少なくとも何れかである
ことを特徴とする対話表現分析方法。 - 請求項2に記載の対話表現分析方法であって、
前記第1の固有表現及び前記第2の固有表現の共起性は、発話順序の差で表される距離が閾値以下であることによって表される
ことを特徴とする対話表現分析方法。 - 請求項2に記載の対話表現分析方法であって、
前記特定表現は、前記第1の固有表現及び前記第2の固有表現のうちの何れか一方に関する問い返し表現である
ことを特徴とする対話表現分析方法。 - 請求項2に記載の対話表現分析方法であって、
前記第1の話者が前記対話において用いた前記第1の固有表現と、前記第2の話者が前記対話において用いた前記第2の固有表現との間に、表現の一貫性の差異がある
ことを特徴とする対話表現分析方法。 - 請求項5に記載の対話表現分析方法であって、
前記特定条件は、
前記一貫性が相対的に高い前記第1の話者の前記第1の固有表現の頻度分布と、前記一貫性が相対的に低い前記第2の話者の前記第2の固有表現の第1の頻度分布とに基づく条件である
ことを特徴とする対話表現分析方法。 - 請求項1に記載の対話表現分析方法であって、
対話の対象領域毎に前記対話記録のサブコーパスを推定する
ことを特徴とする対話表現分析方法。 - 請求項7に記載の対話表現分析方法であって、
前記対象領域を、前記対話の特徴量に基づいて判断する
ことを特徴とする対話表現分析方法。 - 請求項5に記載の対話表現分析方法であって、
前記第1の話者及び前記第2の話者のうちの前記表現の一貫性が高い方の話者の発話に対して、類似性を有する対話を同一クラスタに分類するクラスタリングを行って前記対話記録のサブコーパスを推定する
ことを特徴とする対話表現分析方法。 - 請求項1に記載の対話表現分析方法であって、
前記所定条件を充足して対応関係を有すると判定された前記第1の固有表現と前記第2の固有表現との対応関係と共に、該対応関係を有すると判定された際の根拠情報として前記所定条件を表示装置に表示する
ことを特徴とする対話表現分析方法。 - 第1の話者及び第2の話者による対話で用いられた表現の対応関係を分析する対話表現分析システムであって、
前記対話の対話記録における前記第1の話者及び前記第2の話者の発話に基づいて前記対話記録のサブコーパスを推定するサブコーパス推定部と、
前記サブコーパス毎に前記対話記録から前記第1の話者が用いた第1の固有表現及び前記第2の話者が用いた第2の固有表現を抽出する固有表現抽出部と、
前記第1の固有表現及び前記第2の固有表現が所定条件を充足するか否かを判定し、前記所定条件を充足する場合に、前記第1の固有表現と前記第2の固有表現とが対応関係を有すると推定する対応関係推定部と、
を有することを特徴とする対話表現分析システム。 - 請求項11に記載の対話表現分析システムであって、
前記所定条件は、
前記第1の固有表現及び前記第2の固有表現が共起性を有すること、前記対話記録に前記第1の固有表現及び前記第2の固有表現の時間的近接性を示す特定表現が含まれること、及び、前記第1の固有表現及び前記第2の固有表現の統計情報が特定条件を充足すること、の少なくとも何れかである
ことを特徴とする対話表現分析システム。 - 請求項12に記載の対話表現分析システムであって、
前記第1の話者が前記対話において用いた前記第1の固有表現と、前記第2の話者が前記対話において用いた前記第2の固有表現との間に、表現の一貫性の差異がある
ことを特徴とする対話表現分析システム。 - 請求項13に記載の対話表現分析システムであって、
前記特定条件は、
前記一貫性が相対的に高い前記第1の話者の前記第1の固有表現の頻度分布と、前記一貫性が相対的に低い前記第2の話者の前記第2の固有表現の第1の頻度分布とに基づく条件である
ことを特徴とする対話表現分析システム。 - 請求項11に記載の対話表現分析システムであって、
前記サブコーパス推定部は、
対話の対象領域毎に前記対話記録のサブコーパスを推定する
ことを特徴とする対話表現分析システム。 - 請求項13に記載の対話表現分析システムであって、
前記サブコーパス推定部は、
前記第1の話者及び前記第2の話者のうちの前記表現の一貫性が高い方の話者の発話に対して、類似性を有する対話を同一クラスタに分類するクラスタリングを行って前記対話記録のサブコーパスを推定する
ことを特徴とする対話表現分析システム。 - 請求項11に記載の対話表現分析システムであって、
前記所定条件を充足して対応関係を有すると判定された前記第1の固有表現と前記第2の固有表現との対応関係と共に、該対応関係を有すると判定された際の根拠情報として前記所定条件を表示装置に表示する
ことを特徴とする対話表現分析システム。 - コンピュータを請求項11~17の何れか1項に記載の対話表現分析システムとして機能させるための対話表現分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021116172A JP2023012634A (ja) | 2021-07-14 | 2021-07-14 | 対話表現分析方法、対話表現分析システム、及び対話表現分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021116172A JP2023012634A (ja) | 2021-07-14 | 2021-07-14 | 対話表現分析方法、対話表現分析システム、及び対話表現分析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023012634A true JP2023012634A (ja) | 2023-01-26 |
Family
ID=85128871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021116172A Pending JP2023012634A (ja) | 2021-07-14 | 2021-07-14 | 対話表現分析方法、対話表現分析システム、及び対話表現分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023012634A (ja) |
-
2021
- 2021-07-14 JP JP2021116172A patent/JP2023012634A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767787B (zh) | 情绪识别方法、设备及可读存储介质 | |
US10616414B2 (en) | Classification of transcripts by sentiment | |
WO2020228173A1 (zh) | 违规话术检测方法、装置、设备及计算机可读存储介质 | |
US9477752B1 (en) | Ontology administration and application to enhance communication data analytics | |
US9817813B2 (en) | Generalized phrases in automatic speech recognition systems | |
CN109151218A (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
US10860566B1 (en) | Themes surfacing for communication data analysis | |
EP3446267A1 (en) | Quality monitoring automation in contact centers | |
JP6865653B2 (ja) | 対話分析システムおよび対話分析プログラム | |
KR101615848B1 (ko) | 유사상황 검색을 통한 대화 스티커 추천방법 및 컴퓨터 프로그램 | |
JP2015125499A (ja) | 音声通訳装置、音声通訳方法及び音声通訳プログラム | |
Lee et al. | On natural language call routing | |
CN111783424B (zh) | 一种文本分句方法和装置 | |
JP2024518458A (ja) | テキスト内の自動トピック検出のシステム及び方法 | |
JP7126865B2 (ja) | 対話型業務支援システム | |
US11989514B2 (en) | Identifying high effort statements for call center summaries | |
JP2023012634A (ja) | 対話表現分析方法、対話表現分析システム、及び対話表現分析プログラム | |
Pallotta et al. | Interaction Mining: the new Frontier of Call Center Analytics. | |
Chandramouli et al. | Unsupervised paradigm for information extraction from transcripts using BERT | |
Lackovic et al. | Healthcall Corpus and Transformer Embeddings from Healthcare Customer-Agent Conversations | |
US11943392B2 (en) | System and method for providing personalized customer experience in interactive communications | |
US20240126991A1 (en) | Automated interaction processing systems | |
JP7334293B1 (ja) | 情報処理システム、情報処理方法及びプログラム | |
Martinez et al. | Generating Meaningful Topic Descriptions with Sentence Embeddings and LDA | |
Nambiar et al. | Discovering customer intent in real-time for streamlining service desk conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240207 |