JP7370521B2 - 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム - Google Patents

音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム Download PDF

Info

Publication number
JP7370521B2
JP7370521B2 JP2020012609A JP2020012609A JP7370521B2 JP 7370521 B2 JP7370521 B2 JP 7370521B2 JP 2020012609 A JP2020012609 A JP 2020012609A JP 2020012609 A JP2020012609 A JP 2020012609A JP 7370521 B2 JP7370521 B2 JP 7370521B2
Authority
JP
Japan
Prior art keywords
sentence
question
text
speaker
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020012609A
Other languages
English (en)
Other versions
JP2021117444A (ja
JP2021117444A5 (ja
Inventor
幸地 乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bellface Inc
Original Assignee
Bellface Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bellface Inc filed Critical Bellface Inc
Priority to JP2020012609A priority Critical patent/JP7370521B2/ja
Publication of JP2021117444A publication Critical patent/JP2021117444A/ja
Publication of JP2021117444A5 publication Critical patent/JP2021117444A5/ja
Application granted granted Critical
Publication of JP7370521B2 publication Critical patent/JP7370521B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の話者による音声から質問文を判別する技術に関する。
音声データから発話の意図を推定する技術が種々提案されている。例えば、複数人で会話をする際に発話意図を推定することで会話における満足度を推定する技術が存在する。特許文献1は、会話における満足度を、簡易な構成によって精度よく推定するものであり、発話意図と音響特徴量の時間変化から満足度を推定することを開示する。
特許文献1では、複数人が会話を行う時、ユーザの発話意図を推定する際に、コーパス辞書を参照している。しかし、より精度よく発話意図を推定するために質問文の特定精度を向上させることが重要である。
特開2018-169506
上述のように、従来技術に係る質問文の特定は、あらかじめ用意した辞書を参照して行うものであり、精度が低いという問題があった。
そこで本発明は、複数人による会話において質問文を精度よく特定できる技術を提供することを目的の一つとする。
上記目的を達成するため、本発明の一の観点に係る音声分析装置は、マイクロフォンを通して入力された音声から、質問文を判別するための装置であって、複数の話者による音声を取得する音声取得手段と、音声をテキスト化するテキスト化手段と、テキスト化された音声から質問文と推定される文を特定する特定手段と、話者の切り替わりを検知する検知手段と、質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別する判別手段と、を有する。
また、前記特定手段は、質問文において使用される表現を記憶した辞書に基づき、テキスト化された音声から質問文と推定される文を特定するものとしてもよい。
また、前記特定手段は、文の語尾のイントネーションに基づき、テキスト化された音声から質問文と推定される文を特定するものとしてもよい。
また、質問文をカテゴライズする分類手段をさらに有するものとしてもよい。
また、所定の識別効果を質問文に設定する識別効果設定手段をさらに有するものとしてもよい。
また、前記識別効果設定手段はさらに、話者の切り替わり部分に所定の識別効果を設定するものとしてもよい。
また、音声の話者を識別する識別手段をさらに有するものとしてもよい。
また、前記識別効果設定手段はさらに、前記識別手段により識別された各ユーザの発話部分に対して発話者を識別可能な識別効果を設定するものとしてもよい。
また、本発明の別の観点に係るオンラインコミュニケーションシステムは、前述した音声分析装置を備えたものとしてもよい。
また、本発明の別の観点に係る音声分析方法は、マイクロフォンを通して入力された音声から、質問文を判別するコンピュータが、複数の話者による音声を取得する音声取得ステップと、音声をテキスト化するテキスト化ステップと、テキスト化された音声から質問文と推定される文を特定する特定ステップと、話者の切り替わりを検知する検知ステップと、質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別する判別ステップと、を実行するものとしてもよい。
また、本発明の別の観点に係るコンピュータプログラムは、マイクロフォンを通して入力された音声から、質問文を判別するコンピュータに対して、複数の話者による音声を取得する音声取得処理と、音声をテキスト化するテキスト化処理と、テキスト化された音声から質問文と推定される文を特定する特定処理と、話者の切り替わりを検知する検知処理と、質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別する判別処理と、を実行させるものとしてもよい。
なお、コンピュータプログラムは、インターネット等のネットワークを介したダウンロードによって提供したり、コンピュータ読み取り可能な各種の記録媒体に記録して提供したりすることができる。
本発明によれば、複数人による会話において質問文を精度よく特定できる。
本発明の実施形態に係る音声分析装置の実施形態を示す機能ブロック図である。 本発明の実施形態に係る音声分析装置が使用する辞書の例を示す図である。 本発明の実施形態に係る音声分析装置を説明するための会話文の例である。 本発明の実施例1に係る音声分析装置の実施形態を示すフローチャートである。 本発明の実施例2に係る音声分析装置の実施形態を示すフローチャートである。 本発明をオンラインコミュニケーションシステムに適用した場合の実施形態を示す機能ブロック図である。
本発明に係るーの実施形態について、図1及び図2を参照して説明する。
図1に示されている、音声分析装置100は、複数人の会話をテキスト化して、データベースを参照してテキスト化された文の中から質問文を推定すると共に、話者の切り替わりを検知することで質問文と推定された文を質問文と判断する装置である。
音声分析装置100は、メモリなどの記憶媒体、プロセッサ、通信モジュール、及び入力/出力インターフェース等で構成され、プロセッサが記憶媒体に記録されたコンピュータプログラムを実行することで、図1に示した機能ブロックを実現するようになっている。記憶媒体は、コンピュータ読み取り可能記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)のような記憶装置等を含んでよい。ここで、ROMやディスクドライブ、SSD、フラッシュメモリのような非一時的、記憶装置は、メモリとは区分される別の格納装置として音声分析装置100に含まれてもよい。
本実施形態では、前提として、音声分析装置100を具備するクライアント端末が複数存在してもよく、それらが離れた場所又は近い場所に存在して、それぞれのクライアント端末のユーザが会話をしてもよい。また、音声分析装置100を具備するクライアント端末が一つ存在し、同じ場所で複数人が会話をしてもよい。さらに、音声分析装置100を具備するサーバ端末が存在し複数人又は一人のユーザがサーバ端末にアクセスすることによって音声分析装置100を使用してもよい。
●機能構成
音声分析装置100は、上記したハードウェア構成により、音声取得部101、テキスト化部102、特定部103、識別部104、検知部105、判別部106、分類部107、識別効果設定部108を具備する。
音声取得部101は、複数の話者が会話をしている際に、当該複数の話者による音声を取得する。音声の取得方法は例えば、マイクロフォンによる入力である。当該マイクロフォンは、複数の話者に対して一つ備えるものであってもよく、複数の話者それぞれに対して一つずつ備えるものであってもよい。
音声取得部101は、マイクロフォンによって入力された音声が複数存在する場合は、音声が取得できる状態になるまで音声取得を保留してもよい。また、複数の話者による音声を同時に取得してもよい。
音声取得部101による音声取得は、ユーザにより音声取得を開始するアイコンやボタン等を押下することで開始してもよく、音声取得を終了するアイコンやボタン等を押下することで終了してもよい。
音声取得部101が取得する音声は、人に限らず機械のマイクロフォンを通して出力される音声でもよい。
テキスト化部102は、音声取得部101が取得した音声をテキスト化する。テキスト化部102がテキスト化した音声は、画面上に表示してもよい。
なお、テキスト化部102がテキスト化したテキストデータの形式は問わない。
特定部103は、テキスト化された音声から質問文と推定される文を特定する。特定部103は、質問文の表現がデータとして格納されている辞書(参照用テーブル又は参照用データベース)にアクセスし、テキスト化されたデータの中から質問文を推定する。図2は、辞書に格納されている質問文において使用される表現の一例である。例えば、会話の中で、「体調はどうですか。」と発話された際に、語尾に図2の1である「~どうですか」が含まれるため、「体調はどうですか。」は質問文と推定する。つまり、質問文において使用される表現を記憶した辞書に基づき、テキスト化された音声から質問文と推定される文を特定する。
なお、テキスト化された全文を構成する個々の文は、句点によって区切られた文を一つの意味のある文とみなし、当該一つの意味のある文ごとに質問文であるかどうかを推定する。
また、特定部103は、文の語尾のイントネーションに基づき、テキスト化された音声から質問文と推定される文を特定する。例えば、会話の中で、「ゴルフをしません。」と発話された際に、図2の辞書には「~しません。」という項目があるため、質問文と推定される。しかし、当該「ゴルフをしません。」が否定文であった場合は質問文と誤って特定される。ここで、文の語尾のイントネーションに基づき質問文であるかを推定する。これにより、例えば、前記「ゴルフをしません。」の語尾が上がっていたら質問文と推定することができる。一方で、前記「ゴルフをしません。」の語尾が下がっていたら質問文と推定しない。
なお、特定部103は、質問文の表現が格納されている辞書に基づいて質問文を特定する方法と、文の語尾のイントネーションに基づいて質問文を特定する方法を択一的あるいは両方の実行が可能である。
また、イントネーションに基づき質問文であるかを推定する際に使用する技術は、語尾のイントネーションが疑問形なのかそれ以外なのかを推定できるものであればよい。例えば、音声分析技術であるピッチ抽出等を使用してもよい。
識別部104は、音声の話者を識別することができる。複数の話者が発話している際には、それぞれの話者を識別することができる。例えば、Aさん、Bさん、Cさんが会話をしている時に、Aさんが発話すると話者がAさんであることを識別し、Bさんが発話すると話者がBさんであることを識別し、Cさんが発話すると話者がCさんであることを識別できる。またここで、識別部104は、AさんとBさんが同時に発話した時には、発話した内容それぞれに対してAさんであるかBさんであるかを識別できるものであってもよい。例えば、AさんとBさんが「こんにちは。」と同時に発話した時には、一方の「こんにちは。」はAさんが発話したものであることを識別し、もう一方の「こんにちは。」はBさんが発話したものであることを識別できる。
識別部104で使用する音声認識技術は、複数の話者が発話している際に、それぞれの話者を識別することができるものであればよい。例えば、発話によって新たな話者を識別するごとに、当該話者の声のデータを保持したり、当該話者の声のデータを予め保持しておくことにより、話者を識別する。
検知部105は、話者の切り替わりを検知することができる。検知部105は、複数人が発話をしている場合も話者の切り替わりを検知することができる。例えば、図3のように、Aさんが「明日のご予定はいかがでしょうか。」と発話した後に、Bさんが「明日の午前11時からでよろしいでしょうか。」と発話したときに、検知部105は話者が切り替わったことを検知することができる。
検知部105で話者の切り替わりを検知するための技術は例えば、複数の不特定話者モデルとの類似度を算出して話者を識別する技術等を使用することができる。つまり、複数人で発話している時に、各話者を識別できなくとも、話者の切り替わりが検知できるものであればよい。また、識別部104による話者を識別した結果を利用してもよい。
判別部106は、質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別することができる。例えば、図3で、Aさんが「明日のご予定はいかがでしょうか。」と発話した時に、特定部103は、図2の辞書を参照して、6行目の「~でしょうか」に該当するため質問文と推定する。そして、検知部105は、Aさんが「明日のご予定はいかがでしょうか。」と発話した直後に、Bさんが「明日の午前11時からでよろしいでしょうか。」と発話しているため、話者の切り替わりを検知する。したがって、判別部106は、特定部103により質問文と推定され、検知部105により直後との文の話者の切り替わりが検知されたため、質問文と推定された「明日のご予定はいかがでしょうか。」という文を質問文と判別する。
分類部107は、質問文をカテゴライズすることができる。質問文に含まれる単語の意味内容に即して質問文を分類することで、会話後にユーザが質問文や当該質問文を含む会話の内容を分類ごとに確認することができる。分類は任意に設定が可能であって、例えば、オンラインセールスにおけるオペレータと顧客の会話であれば、費用、クレーム、特定の商品などの分類を設けることで、着目した情報に焦点を当てて、会話をレビューすることができる。
なお、分類部107は、複数人が会話をしている時に、リアルタイムに質問文をカテゴライズしてもよい。
識別効果設定部108は、テキスト化部102によってテキスト化されたテキストデータについて、所定の文に他と識別可能な効果を設定することができる。
例えば、発話したユーザを識別可能とする識別効果を設定する。具体例では、AさんとBさんが会話をしている時に、識別部104がAさんの音声とBさんの音声を識別し、テキストデータ中のAさんの音声部分に赤色の文字を設定し、Bさんの音声部分に青色の文字を設定する。このような色分けの例に限らず、識別効果設定部108による識別効果は、所定の文と他の文を識別できるようになっていればよい。
また、他の例では、識別効果設定部108は、検知部105により話者の切り替わりが検知された部分について、識別効果を設定することができる。例えば、図3のように、Aさんが「明日のご予定はいかがでしょうか。」と発話した後に、Bさんが「明日の午前11時からでよろしいでしょうか。」と発話するように、話者が切り替わっている部分について、「明日のご予定はいかがでしょうか。」と「明日の午前11からでよろしいでしょうか。」の間に改行を挿入する。
また、他の例では、識別効果設定部108は、判別部106により質問文と判別された文を他の質問文以外の文と識別可能なように識別効果を設定することができる。例えば、質問文と判断された文にのみ、太字や特定の色といった編集を施す。
<実施例1>
本実施形態に係る音声分析装置100の処理方法について、図4のフローチャートを用いて説明する。
(ステップS101)音声取得部101は、複数人が会話をしている時に、当該複数人のそれぞれの音声を取得する。音声取得部101が使用する機器は、マイクロフォン等の音声入力をするため機器である。音声取得部101が音声を取得する時は、発話者が一人である場合でも複数人の発話者が同時に発話している場合でも良い。音声取得部101が取得した音声データの形式は問わない。
(ステップS102)テキスト化部102は、ステップS101で音声取得部101が取得した音声をテキスト化する。テキスト化部102は、音声分析装置100を具備しているコンピュータ等を利用しているユーザ毎にテキストを出力しユーザは当該テキストをリアルタイムで確認することもできる。また、テキスト化部102は、音声分析装置100を具備しているコンピュータ等を複数人で使用している場合は、複数人が一つの画面を通して出力されたテキストをリアルタイムで確認することもできる。
テキスト化部102は、テキスト化した複数人の話者による音声のテキストデータを音声分析装置100が具備する記憶領域に保存する。後述する特定部103、識別部104、検知部105、判別部106、分類部107、識別効果設定部108は、テキスト化部102が保存したテキストデータを使用することができる。なお、テキスト化部102が音声分析装置100に保存するテキストデータのファイル形式は問わない。
識別部104は、テキスト化されている複数人の話者の音声がどの話者であるかを識別する。識別部104は、音声取得部101が取得した、複数人の話者による音声データを使用して話者を識別するが、この処理は、テキスト化部102によるテキスト化と同時並行的に実行されるものであってもよいし、テキストデータととともに記録された音声データに基づいて実行されるものであてもよい。識別部104は、音声取得部101が取得した音声のそれぞれの文について、話者を識別する。
なお、識別部104による話者の識別は少なくとも、特定部103により質問文を特定してから、当該質問文とその直後の文について、検知部105が話者の切り替わりを検知するまでに実行されていれば、検知部105による話者の切り替わりの検知の処理に利用することができる。
(ステップS103)特定部103は、テキスト化部102によってテキスト化された音声のテキストデータの中から質問文と推定される文を特定する。特定部103は、質問文を特定するために必要な語尾が種々格納されている辞書を参照し、テキスト化部102がテキスト化した会話の中から、辞書に格納されている語尾が使用されている文を探す。また、特定部103は、テキスト化した会話の中から、文の語尾のイントネーションに基づいて質問文を特定することもできる。そして、特定部103は、テキスト化した会話の中から質問文と推定される文を特定する。
特定部103は、複数人の話者による会話の中からリアルタイムで質問文を特定することができる。また、複数人の話者による会話が終了した後でも、記録しておいたテキストデータや音声データに基づいて質問文を特定することができる。
(ステップS104)検知部105は、ステップS103で特定部103が質問文と特定した文とその直後で異なる話者である時に、話者が切り替わったことを検知する。
例えば、図3のAさんの「明日のご予定はいかがでしょうか。」という文が、特定部103によって質問文と推定される文として特定された時に、識別部104は、この文とその直後の「明日の午前11時からでよろしいでしょうか。」という文の話者を識別できる。そして、検知部105が話者の切り替わりを検知することで、前記「明日のご予定はいかがでしょうか。」という文が質問文と判別される。
なお、このステップS104で検知部105が話者の切り替えを検知する処理では、識別部104がそれぞれの文の話者を識別できるため、その識別結果を利用して検知部105が話者の切り替わりを検知しているが、これに限らず、話者を特定することなく、話者の切り替わり検知できれば、最終的に質問文を判別する精度は担保される。
(ステップS105)判別部106は、特定部103がステップS103で質問文と推定される文であると特定した文であって、その直後に話者の切り替わる文を質問文であると判別する。
(ステップS106)識別効果設定部108は、判別部106によって質問文と判別された文に識別効果を設定する。なお、識別効果設定部108はこのほか、テキストデータに対し、識別部104により識別された各ユーザの音声部分を識別可能な識別効果や、検知部105により話者の切り替わりが検知された部分を識別可能な識別効果を設定することができる。
分類部107は、上記実施例の一連の処理が終了し、複数人の話者の音声から質問文を判別したテキストデータ中の質問文を所定のカテゴリに分類する。例えば、金額についての質問と場所についての質問が会話の中に存在した時に、それらをテキストデータの中から検索可能に分類することができる。つまり、分類部107は、複数人の話者の音声をテキスト化した文章の中に存在する質問文をカテゴライズすることで、話者が後にどのような会話をしたのかを容易に確認することができれる。また、所望の観点の質問文の前後の文章を容易に探し出し、内容を確認することができる。
なお実施例1は、質問文を特定するために会話の終了時までにステップS101からステップS106までの処理を一度又は複数回行うこととする。つまり、複数の話者が会話している時に、リアルタイムで質問文を判別する、若しくは複数の話者が会話をした後に会話の内容全体から質問文を判別することができる。
<実施例2>
実施例2では、図5に示す通り、実施例1のステップS103の質問文と推定される文を特定する処理と、ステップS104の話者の切り替えを検知する処理を逆の順番で実行する例を説明する。なお、ステップS201、ステップS202、ステップS206は、実施例1のステップS101、ステップS102、ステップS106と同一の処理を行うため、説明を省略する。
(ステップS203)検知部105は、テキスト化部102が複数人の話者による音声をテキスト化したテキストデータについて、話者が切り替わった部分を検知する。検知部105は、話者が切り替わったとされる文の直前の文を質問文の候補とし、後述するステップS204で当該質問文の候補について処理をする。
(ステップS204)特定部103は、前述したステップS203で、検知部105が検知した質問文の候補から、質問文と推定される文を特定する処理を行う。特定部103は、質問文を特定するために必要な語尾が種々格納されている辞書を参照する。特定部103は、検知部105が話者の切り替わりにより検知した質問文の候補に対して、辞書に格納されている語尾が使用されている文を探し当該文を質問文と推定される文として特定する。また、検知部105は、質問文の候補に対して、文の語尾のイントネーションに基づいて質問文と推定される文と特定することもできる。
(ステップS205)判別部106は、検知部105がステップS203において直後に話者が切り替わったことを検知した部分の直前の文であって、特定部103がステップS204で質問文と推定される文であると特定した文を質問文であると判別する。
なお、本例においても、分類部107については、実施例1と同様の処理を行うことができる。
なお実施例2は、質問文を特定するために会話の終了時までにステップS201からステップS206までの処理を一度又は複数回行うこととする。つまり、複数の話者が会話している時に、リアルタイムで質問文を判別する、若しくは複数の話者が会話をした後に会話の内容全体から質問文を判別することができる。
なお、本発明に係るすべての実施形態について、音声分析装置100が対象とする音声の言語はいかなるものについても適用可能である。
<本実施形態の効果>
本実施形態によれば、複数人での会話において、入力された音声をテキスト化し、質問文を精度よく特定することで、テキスト化された会話の中から所望の話題等を探すことが容易になる。特に、商談等では、質問文が商談の成否に重要なことが多いため、質問文に着目して会話内容をレビューできて便利である。
<本実施形態についての補足>
以上、実施形態に基づいて本発明を説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。
図6を参照して、本実施形態に係る発明をオンラインコミュニケーションシステム1に適用した場合の機能について詳述する。
オンラインコミュニケーションシステム1とは、インターネットを利用したユーザ間で音声通話やビデオ通話、チャット等、又はそれらを組み合わせてコミュニケーションをとるシステムである。近年は、オンラインコミュニケーションシステム1によって、遠隔地に所在している人と会議などを行うことがある。
オンラインコミュニケーションシステム1は、ユーザが利用するユーザ端末3と当該ユーザの顧客が利用する顧客端末4とを関連付け、ウェブページを共有したコミュニケーションを行うための装置であって、当該ユーザ端末3及び顧客端末4と、インターネット等のネットワークNWを介して通信可能に構成されている。
このオンラインコミュニケーションシステム1は、CPU(Central Processing Unit)などの演算装置、CPUによって実行されるコンピュータプログラム、RAM(Random Access Memory)やROM(Read Only Memory)等の内部メモリ等を備え、ID発行部11、顧客情報取得部12、設定処理部14、検索処理部13、同期処理部15、ID削除部16、通信処理部17、ユーザ情報記憶部1A、コミュニケーション情報記憶部1Bからなる機能ブロックを構成する。
ID発行部11は、コミュニケーションごとに固有なコミュニケーションIDを発行する処理部である。このコミュニケーションIDは、ユーザと顧客の間で展開されるコミュニケーションを個別に識別するために発行され、ユーザ端末3を介してユーザに通知される。
本実施形態の補足では、このコミュニケーションIDは四桁の数字によって構成されている。このように桁数が抑えられた数字のみによって構成されていることで、ユーザや顧客が容易に覚えることができると共に、顧客がユーザにコミュニケーションIDを伝える際に、間違いにくくなっている。
顧客情報取得部12は、顧客端末4から、コミュニケーションごとに固有なコミュニケーションIDの発行要求を受信した際、顧客端末4を識別可能な顧客識別情報として、顧客アドレスを取得する処理を実行する。
ここで、顧客アドレスは、顧客端末4をネットワークNW上で識別可能な情報であって、例えばIPアドレスとして構成される。
また、顧客情報取得部12はこのほか、顧客端末4の利用環境に係る情報として、顧客端末4のOS(Operating System)に係る情報や、ウェブカメラ等のデバイスを顧客端末4が備えているか否かといった情報なども取得する。
検索処理部13は、ユーザ端末3から、所定のコミュニケーションIDの検索要求を受信した際、コミュニケーション情報記憶部1Bを参照して、当該所定のコミュニケーションIDと関連付けられた顧客アドレスによって識別される顧客端末4を検索する処理を実行する。
検索の結果はユーザ端末3に対して提供され、これによりユーザは、オンラインコミュニケーションシステム1に対し、検索結果において示された顧客端末4とのコミュニケーションの開始を要求する。
設定処理部14は、ID発行部11においてコミュニケーションIDが発行された際、コミュニケーション情報記憶部1Bを参照して、当該発行されたコミュニケーションIDと、当該コミュニケーションIDの発行を要求した顧客端末4との関連付けを設定する。
また、設定処理部14は、ユーザ端末3から、所定のコミュニケーションIDと関連付けられた顧客アドレスによって識別される顧客端末4とのコミュニケーションの開始要求を受信した際、コミュニケーション情報記憶部1Bを参照して、当該ユーザ端末3と、当該所定のコミュニケーションIDと関連付けられた顧客アドレスによって識別される顧客端末4との関連付けを設定する。
同期処理部15は、設定処理部14により、コミュニケーション情報記憶部1Bにおいて互いに関連付けられたユーザ端末3及び顧客端末4について、両端末とセッションを確立すると共に、両端末上で展開される画面の同期処理を実行する。
この同期処理においては、オンラインコミュニケーションシステム1と、互いに関連付けられているユーザ端末3及び顧客端末4との間にセッションが確立された上、各端末におけるウェブページの参照履歴や、ユーザ又は顧客による端末操作に応じたマウス座標やスクロール位置等の操作情報が定期的なポーリングによって収集される。そして、一方の端末において何らかのアクションあるいは変化が検知された場合に、他方端末に対して当該検知されたアクションあるいは変化を同期させる。
これにより、ユーザ端末3と顧客端末4が同じウェブページを共有することができると共に、当該ウェブページ上で行われたユーザあるいは顧客による端末操作が各端末の画面上に反映される。その結果、常に同じウェブページを参照すると共に、相手の端末操作を把握しながら、コミュニケーションを図ることができる。
ID削除部16は、互いに関連付けられたユーザ端末3と顧客端末4によるウェブページを共有したコミュニケーションの終了に応じて、コミュニケーション情報記憶部1Bを参照して、当該ユーザ端末3と顧客端末4のコミュニケーションに対して発行されていたコミュニケーションIDを削除する処理を実行する。
ここで、コミュニケーションは例えば、互いに関連付けられたユーザ端末3と顧客端末4とを同期させるために両端末と確立していたセッションについて、少なくともいずれかの端末とのセッションが終了したことをもって、終了とみなすことができる。また、コミュニケーションの終了をユーザ端末3あるいは顧客端末4から通知する情報の受信に応じて、コミュニケーションが終了したものとみなすこともできる。
これにより、削除されたコミュニケーションIDはその後に発生したコミュニケーションに対して発行可能となるため、コミュニケーションの増加に伴うコミュニケーションIDの増加を抑制することができる。
通信処理部17は、ユーザ端末3や顧客端末4との間で、インターネット等のネットワークNWを介したデータの送受信処理を実行する。
この通信処理部17により、顧客端末4に対してコミュニケーションIDを送信したり、ユーザ端末3から顧客端末4とのコミュニケーションの開始要求を受信したりすることができる。また、ユーザ端末3及び顧客端末4との間でセッションを確立し、両端末との同期をとるのに必要なデータの送受信が可能となっている。
ユーザ情報記憶部1Aは、本実施形態に係るオンラインコミュニケーションシステム1によって提供されるサービスのユーザに関する情報を記憶した記憶部である。
このユーザ情報記憶部1Aには例えば、ユーザを識別するためのユーザIDに関連付けて、ユーザを認証するための認証情報、ユーザの名称や連絡先等に関するその他の詳細情報、ユーザが顧客とのコミュニケーションにおいて利用する文書データ等が記憶されている。
なお、文書データは、PDFやパワーポイント等の形式からなるデータであった場合、ウェブページを共有する本システムの利用時において、ウェブページに変換されて、ユーザと顧客によって共有される。ウェブページへの変換は、共有の都度、行われるものであってもよいし、予め行われていてもよい。
コミュニケーション情報記憶部1Bは、ユーザと顧客によるコミュニケーションごとに、当該コミュニケーションを図るユーザと顧客を把握可能な情報を記憶した記憶部である。
このコミュニケーション情報記憶部1Bには例えば、コミュニケーションごとに固有なコミュニケーションIDに関連付けて、顧客アドレスとユーザIDとが記憶されている。
コミュニケーション情報記憶部1Bにおいては、ID発行部11においてコミュニケーションIDが発行された際、設定処理部14により、当該発行されたコミュニケーションIDと、当該コミュニケーションIDの発行を要求した顧客端末4とが関連付けて記憶される。そして、ユーザ端末3からコミュニケーションの開始要求を受信した際、当該ユーザ端末3のユーザIDがさらに当該コミュニケーションIDに関連付けられる。さらに、ユーザ端末3又は顧客端末4によるコミュニケーションの終了操作、あるいはユーザ端末3及び顧客端末4を同期させるべく両端末と確立していたセッションの終了により、所定のコミュニケーションIDに係るコミュニケーションが終了すると、当該所定のコミュニケーションIDに関連付けられた情報が削除される。
なお、本実施形態ではさらに、顧客情報取得部12によって取得された顧客アドレスと共に、顧客端末4の利用環境に係る情報が記憶されている。
ユーザ端末3は、本実施形態の補足に係るオンラインコミュニケーションシステム1によって提供されるサービスのユーザが利用する端末であって、当該ユーザが顧客とコミュニケーションを図るための端末である。
このユーザ端末3は、所謂パーソナルコンピュータやタブレット端末などによって構成され、ディスプレイ、スピーカ、キーボード、タッチパネル、ポインティングデバイス、ヘッドセット等によって実現される入出力処理部、データの送受信を行うためのブラウザ等の通信処理部といった機能部を備える。
顧客端末4は、ユーザの顧客が利用する端末である。
この顧客端末4は、所謂パーソナルコンピュータやタブレット端末、データ通信が可能な携帯型電話機端末などによって構成され、ディスプレイ、スピーカ、キーボード、タッチパネル、ポインティングデバイス等によって実現される入出力処理部、データの送受信を行うためのブラウザ等の通信処理部といった機能部を備える。
オンラインコミュニケーションシステム1が備える音声分析システム2について詳述する。
音声取得部21は、コンピュータに接続されているマイクロフォンから入力された音声を取得する。音声取得部21は、異なるコンピュータ間または同一のコンピュータで複数人が音声通話やビデオ通話をしている話者の音声を取得する。
テキスト化部22は、異なるコンピュータまたは同一のコンピュータを通して複数人が音声通話やビデオ通話をしている時に、音声取得部21によって取得した音声をテキスト化する。当該音声をテキスト化したテキストデータは、各ユーザの画面上に表示されてもよい。
特定部23は、質問文の語尾の表現パターンが種々格納されている辞書の中に格納されている表現や、文の語尾のイントネーションに基づき、テキスト化された音声から質問文と推定される文を特定することができる。
識別部24は、音声取得部21によって取得された複数人のそれぞれの話者が特定できるように音声を識別する。識別部24は、オンラインコミュニケーションシステム1において、それぞれの話者をリアルタイムで識別してどの話者が話しているかがすべてのユーザ端末3又は顧客端末4で分かるようにアイコン等を画面に出力してもよい。
検知部25は、識別部24により識別した複数人のそれぞれの話者において、話者が切り替わったことを検知する。
判別部26は、特定部23により質問文と特定した文と、検知部25により話者が切り替わったことを検知した文を利用して質問文と判別する。
分類部27は、判別部26が質問文と判別した文をカテゴライズする。オンラインコミュニケーションシステム1を使用して、ユーザ端末3と顧客端末4間でコミュニケーションを行った後に、分類部27が既に終了した会話の中から質問文をカテゴライズしておくことで、ユーザは所望の話題を検索することができる。例えば、分類部27がオンラインセールスにおけるオペレータと顧客の会話であれば、費用、クレーム、特定の商品などの分類を設けることで、テキスト化部22がテキスト化した音声の中からユーザが着目した情報に焦点を当てて、会話をレビューすることができる。なお、分類部27によるカテゴライズの方法は前述した例に限らず、種々の方法を使用してよい。また、分類部27によってカテゴライズした質問文の表示方法は問わない。
識別効果設定部28は、コミュニケーションを行った会話の中で、判別部26が質問文と判別した文を、コミュニケーションを行ったユーザ端末3又は顧客端末4上に識別可能に表示することができる。なお、識別効果設定部28は、実施例1と同様に、質問文、各ユーザの音声、話者の切り替わり部分に識別効果を設定できる。
本実施形態をオンラインコミュニケーションシステム1に適用した場合、ビジネスでの会議や営業等において、膨大な会話の内容から、会議での決定事項や取引の内容等の重要事項を容易に確認することができる。これにより、ビジネス等を円滑に進めることができる。また、重要事項を容易に確認できるので、膨大な会話の中から営業等の取引における重要事項を見失わず、顧客との信頼関係を構築することができる。
1 オンラインコミュニケーションシステム
2 音声分析システム
3 ユーザ端末
4 顧客端末
11 ID発行部
12 顧客情報取得部
13 検索処理部
14 設定処理部
15 同期処理部
16 ID削除部
17 通信処理部
1A ユーザ情報記憶部
1B コミュニケーション情報記憶部
21 音声取得部
22 テキスト化部
23 特定部
24 識別部
25 検知部
26 判別部
27 分類部
28 識別効果設定部
100 音声分析装置
101 音声取得部
102 テキスト化部
103 特定部
104 識別部
105 検知部
106 判別部
107 分類部
108 識別効果設定部

Claims (11)

  1. マイクロフォンを通して入力された音声から、質問文を判別するための装置であって、
    複数の話者による音声をテキスト化するテキスト化手段と、
    テキスト化された音声から質問文と推定される文を特定する特定手段と、
    話者の切り替わりを検知する検知手段と、
    質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別する判別手段と、を有する、
    音声分析装置。
  2. 前記特定手段は、質問文において使用される表現を記憶した辞書に基づき、テキスト化された音声から質問文と推定される文を特定する、
    請求項1記載の音声分析装置。
  3. 前記特定手段は、文の語尾のイントネーションに基づき、テキスト化された音声から質問文と推定される文を特定する、
    請求項1又は2記載の音声分析装置。
  4. 質問文をカテゴライズする分類手段、をさらに有する、
    請求項1乃至3いずれかの項に記載の音声分析装置。
  5. 所定の識別効果を質問文に設定する識別効果設定手段、をさらに有する、
    請求項1乃至4いずれかの項に記載の音声分析装置。
  6. 前記識別効果設定手段はさらに、話者の切り替わり部分に所定の識別効果を設定する、
    請求項5記載の音声分析装置。
  7. 音声の話者を識別する識別手段、をさらに有する、
    請求項5又は6記載の音声分析装置。
  8. 前記識別効果設定手段はさらに、前記識別手段により識別された各ユーザの発話部分に対して発話者を識別可能な識別効果を設定する、
    請求項7記載の音声分析装置。
  9. 前記請求項1乃至8いずれかの項に記載の音声分析装置、を備えた、
    オンラインコミュニケーションシステム。
  10. マイクロフォンを通して入力された音声から、質問文を判別するコンピュータが、
    複数の話者による音声をテキスト化するテキスト化ステップと、
    テキスト化された音声から質問文と推定される文を特定する特定ステップと、
    話者の切り替わりを検知する検知ステップと、
    質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別する判別ステップと、を実行する、
    ことを特徴とする音声分析方法。
  11. マイクロフォンを通して入力された音声から、質問文を判別するコンピュータに対して、
    複数の話者による音声をテキスト化するテキスト化処理と、
    テキスト化された音声から質問文と推定される文を特定する特定処理と、
    話者の切り替わりを検知する検知処理と、
    質問文と推定されると共に、直後に話者が切り替わる文を質問文と判別する判別処理と、を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2020012609A 2020-01-29 2020-01-29 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム Active JP7370521B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020012609A JP7370521B2 (ja) 2020-01-29 2020-01-29 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020012609A JP7370521B2 (ja) 2020-01-29 2020-01-29 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2021117444A JP2021117444A (ja) 2021-08-10
JP2021117444A5 JP2021117444A5 (ja) 2022-12-28
JP7370521B2 true JP7370521B2 (ja) 2023-10-30

Family

ID=77174753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020012609A Active JP7370521B2 (ja) 2020-01-29 2020-01-29 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP7370521B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123565A (ja) 2009-12-08 2011-06-23 Nomura Research Institute Ltd Faq候補抽出システムおよびfaq候補抽出プログラム
JP2018169506A (ja) 2017-03-30 2018-11-01 トヨタ自動車株式会社 会話満足度推定装置、音声処理装置および会話満足度推定方法
WO2019003395A1 (ja) 2017-06-29 2019-01-03 株式会社オプティム コールセンター会話内容表示システム、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123565A (ja) 2009-12-08 2011-06-23 Nomura Research Institute Ltd Faq候補抽出システムおよびfaq候補抽出プログラム
JP2018169506A (ja) 2017-03-30 2018-11-01 トヨタ自動車株式会社 会話満足度推定装置、音声処理装置および会話満足度推定方法
WO2019003395A1 (ja) 2017-06-29 2019-01-03 株式会社オプティム コールセンター会話内容表示システム、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
福岡知隆, 白井清昭,対話行為に固有の特徴を考慮した自由対話システムにおける対話行為推定,自然言語処理,第24巻, 第4号,2017年09月15日,pp.523-546

Also Published As

Publication number Publication date
JP2021117444A (ja) 2021-08-10

Similar Documents

Publication Publication Date Title
US10586541B2 (en) Communicating metadata that identifies a current speaker
KR102151681B1 (ko) 언어 모델용 대화 상태들 결정
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
US9483582B2 (en) Identification and verification of factual assertions in natural language
CN109361825A (zh) 会议纪要记录方法、终端及计算机存储介质
KR102548365B1 (ko) 회의 기록 자동 생성 방법 및 그 장치
US20200004878A1 (en) System and method for generating dialogue graphs
KR20180123150A (ko) 정보 처리 시스템, 접수 서버, 정보 처리 방법 및 프로그램
JP2017152948A (ja) 情報提供方法、情報提供プログラム、および情報提供システム
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN112468665A (zh) 一种会议纪要的生成方法、装置、设备及存储介质
CN111063355A (zh) 会议记录的生成方法及记录终端
KR102198424B1 (ko) 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
CN111626061A (zh) 会议记录生成方法、装置、设备及可读存储介质
CN113064983A (zh) 语义检测方法、装置、计算机设备及存储介质
JP2020064493A (ja) オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム
US20090007148A1 (en) Search tool that aggregates disparate tools unifying communication
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
JP2010002973A (ja) 音声データ主題推定装置およびこれを用いたコールセンタ
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
CN113327129A (zh) 客服任务处理方法及装置
KR102284912B1 (ko) 상담 서비스 제공 방법 및 장치
JP7370521B2 (ja) 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム
JPWO2014069121A1 (ja) 会話分析装置及び会話分析方法
US20220207066A1 (en) System and method for self-generated entity-specific bot

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231006

R150 Certificate of patent or registration of utility model

Ref document number: 7370521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150