JP6873935B2

JP6873935B2 - テキスト分析装置、テキスト分析方法及びテキスト分析プログラム

Info

Publication number: JP6873935B2
Application number: JP2018018897A
Authority: JP
Inventors: 晃浩新藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2021-05-19
Anticipated expiration: 2038-02-06
Also published as: JP2019139280A

Description

本発明は、電話応対の音声情報に関連するテキスト分析装置、テキスト分析方法、及びテキスト分析装置としてコンピュータを機能させるためのテキスト分析プログラムに関する。

コールセンタでは、オペレータは、顧客からの問い合わせ等の電話応対の終了後に、電話応対の履歴を記録する。この履歴の記録作業によるオペレータの負担を軽減したいという需要がある。電話応対を録音した録音情報を音声認識技術によりテキスト情報に変換することが行われている（例えば、特許文献１を参照）。

特開２００１−２１１２４５号公報

電話応対の内容をリスト化したり第三者が確認したりしやすくするために、テキスト化された電話応対内容を自動要約することが行われている。この電話応対内容のテキストにおいて顧客がサービスの契約者本人か否かをオペレータが確認する電話応対に対応するテキスト部分を本人確認部分とすれば、本人確認部分では、ユーザの氏名等の本人確認情報に関連する語句が登場する頻度が多くなる。多くの自動要約はテキスト中に登場する頻度が多い語句を優先的に拾うアルゴリズムを採用しているため、本人確認部分についても要約の対象としてしまうと、本人確認情報に関連する語句のように顧客からの問い合わせ内容自体ではない内容が優先的に拾われることになり、要約の精度が落ちるという問題があった。

本発明は、上記の事情に鑑みてなされたものであり、電話応対の音声情報を変換したテキスト情報の自動要約の精度を高めることができるテキスト分析装置、テキスト分析方法及びテキスト分析プログラムを提供することを目的とする。

本発明の第１の態様のテキスト分析装置は、ユーザとオペレータとの間の電話応対の音声情報がテキストに変換された応対テキスト情報を取得するテキスト取得部と、前記応対テキスト情報においてオペレータがユーザの本人確認情報を確認する応対の開始又は終了を示す文字列を識別する識別部と、前記応対テキスト情報において前記識別部が識別した前記文字列よりも前の前側テキスト部分又は前記識別部が識別した前記文字列よりも後の後側テキスト部分を特定する特定部と、を備える。

前記テキスト分析装置は、前記前側テキスト部分又は前記後側テキスト部分を機械学習モデルに入力し、当該機械学習モデルから出力された要約データを出力する要約部をさらに有してもよい。

前記識別部は、前記本人確認情報を確認する応対の開始を示す開始文字列と、前記本人確認情報を確認する応対の終了を示す終了文字列とを識別し、前記識別部は、識別した前記開始文字列よりも後のテキスト部分から前記終了文字列を識別してもよい。

前記特定部は、前記識別部が識別した前記開始文字列よりも前の前側テキスト部分と、前記識別部が識別した前記終了文字列よりも後の後側テキスト部分とを特定し、前記要約部は、前記後側テキスト部分と前記前側テキスト部分とを前記機械学習モデルに入力し、前記後側テキスト部分の要約データと、前記前側テキスト部分の要約データとを関連付けて出力してもよい。前記特定部は、前記識別部が前記開始文字列を識別できない場合に、前記応対テキスト情報の初めから所定の割合までのテキスト部分を前側テキスト部分として特定してもよい。

前記特定部は、前記識別部が前記開始文字列を識別できない場合に、電話応対全体において音声を発する話者が切り替わった回数に対する電話応対の開始時から音声を発する話者が切り替わった回数の割合が所定値に達するまでのテキスト部分を前側テキスト部分として特定してもよい。前記特定部は、前記識別部が前記開始文字列を識別できない場合に、電話応対の開始から所定の文章数に達するまでに対応するテキスト部分を前側テキスト部分として特定してもよい。前記特定部は、前記識別部が前記開始文字列を識別できない場合に、電話応対の開始から所定時間に達するまでに対応するテキスト部分を前側テキスト部分として特定してもよい。

前記テキスト分析装置は、前記開始文字列と前記終了文字列とに挟まれたテキスト部分からユーザ情報を抽出する抽出部をさらに備え、前記要約部は、前記抽出部が抽出したユーザ情報に関連付けて、前記要約データを出力してもよい。

前記要約部は、前記識別部が前記終了文字列を識別できない場合に、前記終了文字列を識別できていないことを示す識別子に関連付けて前記要約データを出力してもよい。ユーザとオペレータとの間の電話応対の音声情報を前記応対テキスト情報に変換する変換部と、前記識別部は、前記応対テキスト情報のうち、オペレータが発した音声を前記変換部が変換した応対テキスト情報に基づいて前記終了文字列を識別してもよい。

オペレータの音声の特徴情報を記憶している記憶部をさらに備え、前記変換部は、前記記憶部が記憶しているオペレータの音声の特徴情報に基づいて、前記音声情報を前記応対テキスト情報に変換してもよい。

本発明の第２の態様のテキスト分析方法は、ユーザとオペレータとの間の電話応対の音声情報がテキストに変換された応対テキスト情報を取得するステップと、前記応対テキスト情報においてオペレータがユーザの本人確認情報を確認する応対の開始又は終了を示す文字列を識別するステップと、前記応対テキスト情報において識別した前記文字列よりも前の前側テキスト部分又は識別した前記文字列よりも後の後側テキスト部分を特定するステップと、を備える。

本発明の第３の態様のテキスト分析プログラムは、コンピュータを、ユーザとオペレータとの間の電話応対の音声情報がテキストに変換された応対テキスト情報を取得するテキスト取得部、前記応対テキスト情報においてオペレータがユーザの本人確認情報を確認する応対の開始又は終了を示す文字列を識別する識別部、及び前記応対テキスト情報において前記識別部が識別した前記文字列よりも前の前側テキスト部分又は前記識別部が識別した前記文字列よりも後の後側テキスト部分を特定する特定部、として機能させる。

本発明によれば、電話応対の音声情報を変換したテキスト情報の自動要約の精度を高めることができる。

本発明の実施形態に係るテキスト分析システムＳの概要について説明するための図である。テキスト分析装置の構成を示す図である。応対テキスト情報を示す図である。要約部が出力する要約データの一例を示す図である。テキスト分析装置の動作を示すフローチャートである。

［テキスト分析システムＳの概要］
図１は、本発明の実施形態に係るテキスト分析システムＳの概要について説明するための図である。テキスト分析システムＳは、コールセンタにおいてユーザの問い合わせ記録を作成する作業を支援するために、ユーザの問い合わせ内容を自動要約する。

テキスト分析システムＳは、通信端末１００、電話機２００、録音装置３００及びテキスト分析装置４００を備える。通信端末１００は、例えば、ユーザの携帯電話機であり、ネットワークＮを介してコールセンタの電話機２００との間で音声通信を行う。

電話機２００は、コールセンタに設置された通話用のオペレータ端末である。録音装置３００は、電話機２００の電話回線に接続されており、通信端末１００と電話機２００との間の音声通信が行われている間、ユーザ及びオペレータの音声を録音した音声情報を生成する。このとき、録音装置３００は、電話機２００の電話出力から取得したユーザの音声情報を通信端末１００の識別情報に関連付けて記憶し、電話機２００のマイク入力から取得したオペレータの音声情報を電話機２００に割り当てられた識別情報に関連付けて記憶する。通信端末１００の識別情報は、例えば、携帯電話番号である。電話機２００の識別情報は、例えば、コールセンタ内での電話機２００の内線番号である。

テキスト分析装置４００は、ユーザ及びオペレータの音声情報をこれらの音声情報に割り当てられた識別情報とともに録音装置３００から取得し、取得した音声情報を応対テキスト情報に変換する。テキスト分析装置４００は、変換した応対テキスト情報の要約データを生成する。テキスト分析装置４００は、生成した要約データを管理装置（不図示）へ送信する。

テキスト分析装置４００は、応対テキスト情報において繰り返し言及されている語句を重要な情報であると判定し、この語句を要約データに含める。従来のテキスト分析装置では、ユーザの氏名等の本人確認情報に関連する語句が応対テキスト情報において繰り返し言及されているために、本人確認情報に関連する語句を重要な情報と判定して要約データに含めていた。その結果、従来のテキスト分析装置では、本人確認情報に関連する語句を重要な情報と判定するため、本人確認情報以外の情報が重要な情報と判定されにくくなり、要約の精度が低くなっていた。

これに対し、テキスト分析装置４００は、オペレータがユーザの本人確認を行う応対テキスト情報である本人確認部分を特定し、この本人確認部分を要約データから除外する。このため、テキスト分析装置４００は、本人確認情報に関連する語句を要約データに含まれにくくすることにより、要約の精度を向上させることができる。

［テキスト分析装置４００の構成］
図２は、テキスト分析装置４００の構成を示す図である。テキスト分析装置４００は、通信部４１、記憶部４２及び制御部４３により構成される。通信部４１は、録音装置３００及び管理装置（不図示）と通信するための通信インターフェースである。記憶部４２は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等の記憶媒体である。記憶部４２は、制御部４３が実行するプログラムを記憶している。制御部４３は、例えばＣＰＵ（Central Processing Unit）である。制御部４３は、記憶部４２に記憶されたプログラムを実行することにより、取得部４３１、変換部４３２、識別部４３３、特定部４３４、抽出部４３５、要約部４３６及び機械学習モデル４３７として機能する。

取得部４３１は、通信部４１を介して、ユーザとオペレータとの間の電話応対の音声情報を録音装置３００から取得する。取得部４３１は、取得した音声情報を変換部４３２に出力する。取得部４３１は、出力した音声情報がテキストに変換された応対テキスト情報を変換部４３２から取得するテキスト取得部として機能する。取得部４３１は、取得した応対テキスト情報を識別部４３３へ出力する。

変換部４３２は、音声認識技術により、取得部４３１が取得した音声情報を応対テキスト情報に変換する。このとき、変換部４３２は、ユーザの音声情報とオペレータの音声情報とをそれぞれ個別に応対テキスト情報に変換する。変換部４３２は、ユーザの音声情報に対応する応対テキスト情報と、オペレータの音声情報に対応する応対テキスト情報とを時系列に沿ってまとめた応対テキスト情報を生成する。

変換部４３２は、例えば、記憶部４２が記憶しているオペレータの音声の特徴情報に基づいて、音声情報を応対テキスト情報に変換する。変換部４３２は、オペレータが発した音声情報について音声情報の変換のトレーニングを事前に行うことにより、オペレータの音声の特徴を記憶部４２に記憶させる。変換部４３２は、オペレータの音声情報を応対テキスト情報に変換する場合に、オペレータの音声の特徴情報を記憶部４２から読み出し、この特徴情報を音声情報の変換に反映させる。このような構成により、変換部４３２は、音声情報の変換の誤りを生じやすい発音等について事前にトレーニングするので、音声情報の変換の精度を向上させることができる。

識別部４３３は、オペレータがユーザの本人確認情報を確認する応対の終了を示す終了文字列を応対テキスト情報から識別する。識別部４３３は、応対テキスト情報のうち、オペレータが発した音声を変換部４３２が変換した応対テキスト情報に基づいて終了文字列を識別する。本人確認情報は、ユーザがサービス等の契約者本人であることを確認するための情報であり、例えば、ユーザの氏名、住所、生年月日、携帯電話番号、ユーザＩＤ又は暗証番号である。オペレータは、ユーザに本人確認情報を確認することにより、ユーザが契約者本人であることを確認する。

オペレータは、ユーザの本人確認の完了後に本人確認が完了したことをユーザに通知し、識別部４３３は、例えば、オペレータが本人確認の完了をユーザに通知するメッセージの一部を終了文字列として識別する。オペレータの応対の手順や問いかけ等のフレーズは一定の規則性があるため、識別部４３３は、オペレータの発した音声の応対テキスト情報に基づいて終了文字列を識別することにより、終了文字列の識別の精度を向上させることができる。

終了文字列は、本人確認が完了したことをオペレータがユーザに通知するメッセージを識別するための複数の文字列の組み合わせであってもよい。一例としては、第１グループが「暗証」及び「契約」を要素として含み、第２グループが「番号」、「内容」及び「情報」を要素として含み、第３グループが「確認」、「調べ」、「取れ」及び「照会」を要素として含むものとする。識別部４３３は、第１グループのいずれかの要素と、第２グループのいずれかの要素と、第３グループのいずれかの要素とをいずれも識別したことを条件として、終了文字列を識別したと判定する。

例えば、識別部４３３は、変換部４３２が「契約内容の照会が取れました」というメッセージを応対テキスト情報に変換した場合、第１グループとして要素「契約」を識別し、第２グループとして要素「内容」を識別し、第３グループとして要素「照会」又は「取れ」を識別する。この場合、識別部４３３は、第１グループ、第２グループ及び第３グループの要素をいずれも識別したため、終了文字列を識別したと判定する。

これらのグループの要素は、同じ語句に含まれていてもよい。例えば、識別部４３３は、応対テキスト情報の語句「暗証番号」から第１グループの要素「暗証」と第２グループの要素「番号」とを識別してもよい。

また、識別部４３３は、第１〜第３グループのうち、２つのグループの要素を識別したことを条件として、終了文字列を識別したと判定してもよい。例えば、識別部４３３は、第１〜第３グループのうち、第１グループの要素「暗証」と、第２グループの要素「内容」とを識別した場合に、終了文字列を識別したと判定してもよい。

また、識別部４３３は、本人確認情報を確認する応対の開始を示す開始文字列を識別する。オペレータは、本人確認を開始する前に、本人確認を行うことをユーザに通知するので、識別部４３３は、例えば、オペレータが本人確認を行うことをユーザに通知するメッセージの一部を開始文字列として識別する。

開始文字列は、オペレータが本人確認を行うことをユーザに通知するメッセージを識別するための複数の文字列の組み合わせであってもよい。例えば、第１グループが「名前」、「契約内容」及び「ＩＤ」を要素として含み、第２グループが「フルネーム」を要素として含み、第３グループが「教えて」、「確認」及び「調べる」を要素として含む場合に、識別部４３３は、第１グループのいずれかの要素と、第２グループのいずれかの要素と、第３グループのいずれかの要素とをいずれも識別したことを条件として、開始文字列を識別したものと判定する。

識別部４３３は、終了文字列を誤って識別することを抑制するために、識別した開始文字列よりも後のテキスト部分から終了文字列を識別してもよい。識別部４３３は、識別した終了文字列及び開始文字列を特定部４３４に通知する。また、識別部４３３は、開始文字列を識別できない場合に、開始文字列を識別できない旨を特定部４３４に通知する。同様に、識別部４３３は、終了文字列を識別できない場合に、終了文字列を識別できない旨を特定部４３４に通知する。

なお、識別部４３３は、応対テキスト情報のうち、ユーザが発した音声を変換部４３２が変換した応対テキスト情報に基づいて開始文字列又は終了文字列を識別してもよい。例えば、識別部４３３は、ユーザの発した音声を変換した応対テキスト情報がオペレータの発した音声を変換した応対テキスト情報に比べて多い場合には、ユーザの発した音声を変換した応対テキスト情報に基づいて、開始文字列又は終了文字列を識別してもよい。

特定部４３４は、識別部４３３が識別した開始文字列よりも前の応対テキスト情報である前側テキスト部分を特定する。特定部４３４は、開始文字列が複数の文字列の組み合わせである場合は、識別部４３３が識別した複数の文字列のうち、最も前方の位置よりも前の応対テキスト情報を前側テキスト情報として特定する。

また、特定部４３４は、識別部４３３が識別した終了文字列よりも後の応対テキスト情報である後側テキスト部分を特定する。特定部４３４は、終了文字列が複数の文字列の組み合わせである場合は、識別部４３３が識別した複数の文字列のうち、最も後方の文字列よりも後の応対テキスト情報を後側テキスト情報として特定する。特定部４３４は、識別部４３３が終了文字列を識別できない場合（すなわち、終了文字列を識別できない旨の通知を識別部４３３から受けた場合）、後側テキスト部分を特定しない。

図３は、応対テキスト情報を示す図である。記憶部４２は、応対テキスト情報を話者に関連付けて記憶している。例えば、１行目は、オペレータが発したメッセージ「○○でございます。」を示し、２行目は、ユーザが発したメッセージ「△△の件で聞きたいことがあるんですけど。」を示す。

図３の例では、特定部４３４は、最初のメッセージ「○○でございます。」からオペレータが発したメッセージ「要件を承りました。」までを前側テキスト部分として特定する。前側テキスト部分では、例えば、オペレータがユーザの問い合わせの要件をユーザから聞き出す。

本人確認部分は、開始文字列と終了文字列とに挟まれた応対テキスト情報であり、オペレータは、ユーザの本人確認情報を確認する。特定部４３４は、オペレータが発したメッセージ「お手数ですが、ご本人様確認をさせていただきます。」からオペレータが発したメッセージ「ご本人様確認が完了致しました。ありがとうございました。」までを本人確認部分として特定する。

特定部４３４は、オペレータが発したメッセージ「□□の件ですが、料金プランはいかが致しましょうか？」から最後のメッセージ「ご利用ありがとうございました。」までを後側テキスト部分として特定する。後側テキスト部分では、例えば、オペレータがユーザの要件に合った具体的な提案又は回答をする。以上のように、図３の例では、オペレータが、ユーザの問い合わせの要件を聞き出した後にユーザの本人確認情報を確認し、本人確認の終了後にユーザの要件に合った提案又は回答をする。このため、前側テキスト部分、本人確認部分及び後側テキスト部分の応対の内容は、それぞれ異なっている。

特定部４３４は、識別部４３３が応対テキスト情報の開始文字列を識別できない場合、開始文字列を用いて前側テキスト部分を特定することができない。そこで、特定部４３４は、識別部４３３が応対テキスト情報の開始文字列を識別できない場合（すなわち、開始文字列を識別できない旨の通知を識別部４３３から受けた場合）、応対テキスト情報の初めから所定の割合までのテキスト部分を前側テキスト部分として特定する。割合は、例えば、応対テキスト情報の全体の文字数に対する初めからの文字数の割合、全体の時間に対する初めからの時間の割合、あるいは全体の文章数に対する始めからの文章数の割合である。文章数は、応対テキスト情報の句点で区切られた数である。

一例としては、特定部４３４は、応対テキスト情報の全体の文字数に対する初めからの文字数の割合が、過去に取得された応対テキスト情報の全体の文字数に対する前側テキスト部分の長さの割合に基づいて算出された割合（例えば３割）となるまでのテキスト部分を前側テキスト部分として特定する。このようにすることで、例えば、特定部４３４は、変換部４３２による音声情報の変換の誤り等に起因して識別部４３３が開始文字列を識別できなかった場合であっても、前側テキスト部分を特定することができる。

なお、特定部４３４は、識別部４３３が開始文字列を識別できない場合に、電話応対の開始から所定時間に達するまでに対応するテキスト部分を前側テキスト部分として特定してもよい。所定時間は、過去の複数の問い合わせにおける前側テキスト部分の時間の統計量として求めることができる。このような構成により、特定部４３４は、前側テキスト部分以外の応対テキスト部分の長さの影響を受けずに、所定時間に対応するテキスト部分を前側テキスト部分として特定することができる。

また、特定部４３４は、応対テキスト情報の全体の文章数に対する初めからの文章数の割合が、過去に取得された応対テキスト情報の全体の文章数に対する前側テキスト部分の長さの割合に基づいて算出された割合（例えば３割）となるまでのテキスト部分を前側テキスト部分として特定してもよい。また、特定部４３４は、識別部４３３が開始文字列を識別できない場合に、電話応対の開始から所定の文章数に達するまでに対応するテキスト部分を前側テキスト部分として特定してもよい。所定の文章数は、例えば、過去の前側テキスト部分の文章数の統計量である。

特定部４３４は、識別部４３３が開始文字列を識別できない場合に、電話応対全体において音声を発する話者が切り替わった回数に対する電話応対の開始時から音声を発する話者が切り替わった回数の割合が所定値に達するまでのテキスト部分を前側テキスト部分として特定してもよい。図３に示すように、記憶部４２は、応対テキスト情報を話者に関連付けて記憶している。特定部４３４は、応対テキスト情報において話者が切り替わった回数を数える。例えば、特定部４３４は、オペレータが音声を発した後、ユーザが音声を発したときに話者が１回切り替わったと数え、ユーザが音声を発した後、オペレータが音声を発したときにも話者が１回切り替わったと数える。

特定部４３４は、電話応対の開始時から終了時までの電話応対全体において話者が切り替わった回数を求める。特定部４３４は、電話応対の開始時から話者が切り替わった回数の電話応対全体の回数に対する割合が所定値に達するまでの応対テキスト部分を前側テキスト部分として特定する。一例としては、特定部４３４は、話者が切り替わった回数の電話応対全体の回数に対する割合が、３割に達するまでのテキスト部分を前側テキスト部分として特定する。特定部４３４は、電話応対全体において話者が切り替わった回数が１００回であるとすれば、電話応対の開始時から話者が３０回切り替わるまでの応対テキスト情報を前側テキスト部分として特定する。

話者が２回切り替わるごとにオペレータが１回音声を発したということができる。オペレータの電話応対の手順は予め定められているため、電話応対全体に対する前側テキスト部分の話者が切り替わった回数の割合は、前側テキスト部分の文字数の割合又は前側テキスト部分の時間の割合と比較すれば、話の長さ等のユーザの個人差の影響を受けにくい。このため、特定部４３４は、話者が切り替わった回数の割合によって前側テキスト部分を特定することにより、識別部４３３が開始文字列を識別できない場合に前側テキスト部分を特定する精度の低下を抑制することができる。

抽出部４３５は、開始文字列と終了文字列とに挟まれたテキスト部分である本人確認部分からユーザ情報を抽出する。抽出部４３５は、ユーザ情報として、ユーザの氏名、住所、生年月日等を抽出する。例えば、抽出部４３５は、ユーザの氏名等を聞き出すためにオペレータが発した問いかけを認識して、この問いかけの次にユーザが発した語句をユーザの氏名等として抽出する。抽出部４３５は、抽出したユーザ情報を要約部４３６に通知する。

要約部４３６は、応対テキストの要約データを生成する。本明細書の例では、要約部４３６は、応対テキスト情報を学習済みの機械学習モデル４３７に入力し、機械学習モデル４３７が出力した応対テキスト情報の要約データを取得する。例えば、制御部４３は、オープンソースの要約作成ＡＰＩであるＳｕｍｍｐｙ等のライブラリを記憶部４２から読み出して実行することにより、機械学習モデル４３７として機能する。なお、図示しない外部サーバが機械学習モデル４３７を有する構成であってもよい。

機械学習モデル４３７は、前側テキスト部分又は後側テキスト部分のビッグデータを入力として学習することにより予め生成された学習済みのモデルである。機械学習モデル４３７は、繰り返し頻度の高い語句を重要度が高いと評価し、繰り返し頻度の低い語句を重要度が低いと評価する。機械学習モデル４３７は、関連する語句の繰り返しも繰り返し頻度に含める。例えば、機械学習モデル４３７は、語句「なくした」と語句「紛失した」とは関連する語句と判定する。一方、機械学習モデル４３７は、どのような問い合わせにも含まれる語句は重要度が低いと評価する。例えば、語句「ありがとうございました」は、どのような問い合わせにも含まれることが多いので、機械学習モデル４３７は、語句「ありがとうございました」を重要度が低いと評価する。

要約部４３６は、前側テキスト部分又は後側テキスト部分を機械学習モデル４３７に入力し、機械学習モデル４３７が出力した要約データを出力する。要約部４３６は、例えば、通信部４１を介して、要約データを解析する管理者が使用するコンピュータ（不図示）へ出力する。要約部４３６は、本人確認部分の要約データを出力しない。

ところで、前側テキスト部分と後側テキスト部分とでは、内容が異なるため、前側テキスト部分と後側テキスト部分との要約データをまとめて作成すると、一方の要点が要約データに十分に反映されないことが想定される。そこで、要約部４３６は、前側テキスト部分と後側テキスト部分とを個別に機械学習モデル４３７に入力し、機械学習モデルが出力した前側テキスト部分及び後側テキスト部分の要約データをそれぞれ取得してもよい。要約部４３６は、前側テキスト部分の要約データと、後側テキスト部分の要約データとを関連付けて出力する。

図４は、要約部４３６が出力する要約データの一例を示す図である。図４は、前側テキスト部分の要約データと、後側テキスト部分の要約データとを示す。前側テキスト部分の要約データには、ユーザの問い合わせの要件の要約として「料金プランの詳細が知りたい。」が表示され、後側テキスト部分の要約データには、オペレータが問い合わせに応対した結果の要約として「割引サービスは△△が利用可能であることを伝えた。」等が表示される。機械学習モデルは、応対テキスト情報の「もしもし」等の間投詞を削除するので、要約データには、間投詞は含まれない。

要約部４３６は、抽出部４３５が抽出したユーザ情報に関連付けて、要約データを出力する。例えば、要約部４３６は、ユーザの氏名と、前側テキスト部分の要約データと、後側テキスト部分の要約データとを関連付けて出力する。このような構成により、管理者は、要約データをユーザごとに管理することができるので、同一のユーザから複数の問い合わせがあった場合に、このユーザのユーザ情報に関連付けられた複数の要約データをそれぞれ確認することができる。

要約部４３６は、前側テキスト部分の種別を示す種別情報と、対応する後側テキスト部分の要約データとを関連付けて出力してもよい。種別は、複数の問い合わせの前側テキスト部分をグループ分けするための分類である。例えば、要約部４３６は、料金プランの詳細を確認するための問い合わせの種別「料金プラン確認」と、この問い合わせに対応する後側テキスト部分の要約データとを関連付けて出力してもよい。また、要約部４３６は、サービスの解約の問い合わせの種別「サービス解約」と、この問い合わせに対応する後側テキスト部分の要約データとを関連付けて出力してもよい。

要約部４３６は、識別部４３３が終了文字列を識別できない場合には、終了文字列を識別できていないことを示す識別子に関連付けて要約データを出力する。特定部４３４は、識別部４３３が終了文字列を識別できない場合には、後側テキスト部分を特定しない。この場合、要約部４３６は、特定部４３４が特定した前側テキスト部分と、前側テキスト部分以外の応対テキスト情報とを機械学習モデル４３７に入力して、機械学習モデル４３７が出力した前側テキスト部分及び前側テキスト部分以外の要約データを取得する。要約部４３６は、後側テキスト部分が特定されていないことを管理者が把握できるように、機械学習モデル４３７が出力した各要約データと終了文字列が識別できなかったことを示す識別子とを関連付けて管理者が使用するコンピュータに出力する。

［テキスト分析装置４００の動作］
図５は、テキスト分析装置４００の動作を示すフローチャートである。この処理手順は、録音装置３００が、ユーザ及びオペレータの音声を録音した音声情報を生成したときに開始する。

まず、取得部４３１は、通信部４１を介して、ユーザとオペレータとの間の電話応対の音声情報を録音装置３００から取得する（ステップＳ１０１）。次に、変換部４３２は、取得部４３１が取得した音声情報を応対テキスト情報に変換する（ステップＳ１０２）。識別部４３３は、応対テキスト情報において開始文字列が識別できたか否かを判定する（ステップＳ１０３）。特定部４３４は、識別部４３３が応対テキスト情報において開始文字列を識別できた場合には（Ｓ１０３のＹＥＳ）、識別した開始文字列より前の応対テキスト情報を前側テキスト部分として特定する（ステップＳ１０４）。

識別部４３３は、応対テキスト情報において終了文字列が識別できたか否かを判定する（ステップＳ１０５）。特定部４３４は、識別部４３３が応対テキスト情報において終了文字列を識別できた場合には（Ｓ１０５のＹＥＳ）、識別した終了文字列より後の応対テキスト情報を後側テキスト部分として特定する（ステップＳ１０６）。要約部４３６は、前側テキスト部分及び後側テキスト部分を学習済みの機械学習モデル４３７に入力し、機械学習モデル４３７が出力した前側テキスト部分及び後側テキスト部分の要約データをそれぞれ取得する。要約部４３６は、通信部４１を介して、取得した前側テキスト部分の要約データと後側テキスト部分の要約データとを関連付けて出力し（Ｓ１０７）、処理を終了する。

特定部４３４は、ステップＳ１０３の判定において識別部４３３が応対テキスト情報の開始文字列を識別できていない場合（Ｓ１０３のＮＯ）、応対テキスト情報の初めから所定の割合までのテキスト部分を前側テキスト部分として特定し（Ｓ１０８）、ステップＳ１０５の処理に移る。要約部４３６は、ステップＳ１０５の判定において識別部４３３が応対テキスト情報の終了文字列を識別できていない場合（Ｓ１０５のＮＯ）、特定部４３４が特定した前側テキスト部分と、前側テキスト部分以外の応対テキスト情報とを機械学習モデル４３７に入力して、機械学習モデル４３７が出力した前側テキスト部分の要約データ及び前側テキスト部分以外の要約データを取得する。要約部４３６は、機械学習モデル４３７が出力した各要約データと終了文字列が識別できなかったことを示す識別子とを関連付けて管理者が使用するコンピュータに出力し、処理を終了する（ステップＳ１０９）。

［機械学習のための前処理］
本実施の形態では、要約部４３６が、前側テキスト部分又は後側テキスト部分を学習済みの機械学習モデル４３７に入力し、機械学習モデル４３７が出力した要約データを取得する場合の例について説明した。しかしながら、本発明は、学習済みの機械学習モデルに応対テキスト情報を入力する例に限定されない。例えば、テキスト分析装置４００は、機械学習モデルを生成するための学習部を備えてもよい。

学習部は、特定部４３４が特定した複数の後側テキスト部分を学習することにより、後側テキスト部分を入力とし、後側テキスト部分の要約データを出力とする機械学習モデルを生成する。このような構成により、学習部が複数の応対テキスト情報について応対テキスト情報全体を学習することにより機械学習モデルを生成する場合に比べて、後側テキスト部分の要約の精度をより向上させた機械学習モデルを生成することができる。

［テキスト分析装置４００による効果］
機械学習モデルを用いて自動要約を行う場合に、本人確認部分を含む応対テキスト情報を機械学習モデルに入力すると、本人確認部分において繰り返し言及される本人確認情報が要約に含まれやすい。これに対して、本実施の形態に係るテキスト分析装置４００は、応対テキスト情報において識別部４３３が識別した終了文字列よりも後の後側テキスト部分を特定する。このため、テキスト分析装置４００は、機械学習モデルを用いて自動要約した場合の要約内容の精度を向上させることができる。

［変形例］
本実施の形態では、テキスト分析装置４００が、音声情報を応対テキスト情報に変換する変換部４３２を備える場合の例について説明した。しかしながら、本発明はこれに限定されない。例えば、変換部４３２は、テキスト分析装置４００と別体に設けられても良い。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

４１通信部
４２記憶部
４３制御部
１００通信端末
２００電話機
３００録音装置
４００テキスト分析装置
４３１取得部
４３２変換部
４３３識別部
４３４特定部
４３５抽出部
４３６要約部
４３７機械学習モデル

Claims

ユーザとオペレータとの間の電話応対の音声情報がテキストに変換された応対テキスト情報を取得するテキスト取得部と、
前記応対テキスト情報においてオペレータがユーザの本人確認情報を確認する応対の開始又は終了を示す文字列を識別する識別部と、
前記応対テキスト情報において前記識別部が識別した前記文字列よりも前の前側テキスト部分又は前記識別部が識別した前記文字列よりも後の後側テキスト部分を特定する特定部と、を備える、
テキスト分析装置。
前記前側テキスト部分又は前記後側テキスト部分を機械学習モデルに入力し、当該機械学習モデルから出力された要約データを出力する要約部をさらに有する、
請求項１に記載のテキスト分析装置。
前記識別部は、前記本人確認情報を確認する応対の開始を示す開始文字列と、前記本人確認情報を確認する応対の終了を示す終了文字列とを識別し、
前記識別部は、識別した前記開始文字列よりも後のテキスト部分から前記終了文字列を識別する、
請求項２に記載のテキスト分析装置。
前記特定部は、前記識別部が識別した前記開始文字列よりも前の前側テキスト部分と、前記識別部が識別した前記終了文字列よりも後の後側テキスト部分とを特定し、
前記要約部は、前記後側テキスト部分と前記前側テキスト部分とを前記機械学習モデルに入力し、前記後側テキスト部分の要約データと、前記前側テキスト部分の要約データとを関連付けて出力する、
請求項３に記載のテキスト分析装置。
前記特定部は、前記識別部が前記開始文字列を識別できない場合に、前記応対テキスト情報の初めから所定の割合までのテキスト部分を前側テキスト部分として特定する、
請求項３又は４に記載のテキスト分析装置。
前記特定部は、前記識別部が前記開始文字列を識別できない場合に、電話応対全体において音声を発する話者が切り替わった回数に対する電話応対の開始時から音声を発する話者が切り替わった回数の割合が所定値に達するまでのテキスト部分を前側テキスト部分として特定する、
請求項３又は４に記載のテキスト分析装置。
前記特定部は、前記識別部が前記開始文字列を識別できない場合に、電話応対の開始から所定の文章数に達するまでに対応するテキスト部分を前側テキスト部分として特定する、
請求項３又は４に記載のテキスト分析装置。
前記特定部は、前記識別部が前記開始文字列を識別できない場合に、電話応対の開始から所定時間に達するまでに対応するテキスト部分を前側テキスト部分として特定する、
請求項３又は４に記載のテキスト分析装置。
前記開始文字列と前記終了文字列とに挟まれたテキスト部分からユーザ情報を抽出する抽出部をさらに備え、
前記要約部は、前記抽出部が抽出したユーザ情報に関連付けて、前記要約データを出力する、
請求項３から８のいずれか一項に記載のテキスト分析装置。
前記要約部は、前記識別部が前記終了文字列を識別できない場合に、前記終了文字列を識別できていないことを示す識別子に関連付けて前記要約データを出力する、
請求項３から９のいずれか一項に記載のテキスト分析装置。
ユーザとオペレータとの間の電話応対の音声情報を前記応対テキスト情報に変換する変換部と、
前記識別部は、前記応対テキスト情報のうち、オペレータが発した音声を前記変換部が変換した応対テキスト情報に基づいて前記終了文字列を識別する、
請求項３から１０のいずれか一項に記載のテキスト分析装置。
オペレータの音声の特徴情報を記憶している記憶部をさらに備え、
前記変換部は、前記記憶部が記憶しているオペレータの音声の特徴情報に基づいて、前記音声情報を前記応対テキスト情報に変換する、
請求項１１に記載のテキスト分析装置。
コンピュータが実行する、
ユーザとオペレータとの間の電話応対の音声情報がテキストに変換された応対テキスト情報を取得するステップと、
前記応対テキスト情報においてオペレータがユーザの本人確認情報を確認する応対の開始又は終了を示す文字列を識別するステップと、
前記応対テキスト情報において識別した前記文字列よりも前の前側テキスト部分又は識別した前記文字列よりも後の後側テキスト部分を特定するステップと、
を備えるテキスト分析方法。
コンピュータを、
ユーザとオペレータとの間の電話応対の音声情報がテキストに変換された応対テキスト情報を取得するテキスト取得部、
前記応対テキスト情報においてオペレータがユーザの本人確認情報を確認する応対の開始又は終了を示す文字列を識別する識別部、及び
前記応対テキスト情報において前記識別部が識別した前記文字列よりも前の前側テキスト部分又は前記識別部が識別した前記文字列よりも後の後側テキスト部分を特定する特定部、
として機能させるためのテキスト分析プログラム。