JP6606697B1 - 通話システム、及び通話プログラム - Google Patents

通話システム、及び通話プログラム Download PDF

Info

Publication number
JP6606697B1
JP6606697B1 JP2019097622A JP2019097622A JP6606697B1 JP 6606697 B1 JP6606697 B1 JP 6606697B1 JP 2019097622 A JP2019097622 A JP 2019097622A JP 2019097622 A JP2019097622 A JP 2019097622A JP 6606697 B1 JP6606697 B1 JP 6606697B1
Authority
JP
Japan
Prior art keywords
text
voice data
call
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019097622A
Other languages
English (en)
Other versions
JP2020193994A (ja
Inventor
良生 林
良生 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowledge Flow Co Ltd
Original Assignee
Knowledge Flow Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowledge Flow Co Ltd filed Critical Knowledge Flow Co Ltd
Priority to JP2019097622A priority Critical patent/JP6606697B1/ja
Application granted granted Critical
Publication of JP6606697B1 publication Critical patent/JP6606697B1/ja
Publication of JP2020193994A publication Critical patent/JP2020193994A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】外部の音声認識システムを使用し、音声認識システムの利用料を抑えながらも高精度での通話内容のテキスト化を行うことができる通話システムを提供する。【解決手段】通話システム1において、音声データ抽出部22が音声通話から抽出した音声データ及びその他録音したデータに関する情報から構成され、録音データ保存部303に保存された録音データと、通話情報保存部301に保存された情報の内容に基づき、テキスト化を行う時間区間を判断する区間判断部304がテキスト化を行うと判断した区間について、音声データ切出部305が切り出した音声データを音声データ送信部306が外部音声認識装置5に送信し、外部音声認識装置5からテキスト受信部307が受信したテキストデータをテキスト保存部308が保存し、音声データのテキスト化された時間区間をテキスト化済区間保存部309が保存する。【選択図】図1

Description

本発明は、通話システム、及び通話プログラムに関する。
従来、音声通話中の内容をテキストに変換、記録する技術が知られている。
特許文献1には、録音された通話音声をテキストに変換し、記録する技術が開示されている。
また、特許文献2には、音声認識の精度を向上させる技術が開示されている。
特開2005―210497号公報 特開2014―119536号公報
特許文献1に開示された技術によれば、通話中にユーザが録音ボタンを押すことで録音された通話音声は、テキストに変換された後に記録される。
また、特許文献2に開示された技術によれば、音声認識エンジンの処理によって音声認識の精度を向上させることができる。
近年、いくつかの企業が、高精度な音声認識サービスをクラウドサービスとして提供するようになっている。
そのような音声認識サービスの特徴として、AI技術により利用者に使われれば使われるほど高精度になっていくということが挙げられる。
上記文献に開示された技術では、クラウドの音声認識サービスを使うことが想定されておらず、それを使う場合の特有の問題を解決する方法については何ら言及されていない。
クラウド型の音声認識サービスの多くは、音声認識を行う音声の量に応じて課金される従量課金制の料金体系が採用されている。
したがって、従来のシステムで行われているように録音した音声のすべてについてテキスト化を行うと、費用対効果が悪くなるという問題があった。
本発明の通話システムは、
音声通話を録音し、録音した音声の特定時間区間を自動でテキスト化する通話システムであって、
前記通話システム外に設けられ、音声データを受信し該音声データをテキスト化し出力する機能を備えた外部音声認識装置を利用することを特徴とし、
通話に関する情報を保存する通話情報保存部と、
音声通話から音声データを抽出する音声データ抽出部と、
前記音声データ抽出部によって抽出された音声データ及びその他録音したデータに関する情報から構成される録音データを保存する録音データ保存部と、
前記録音データと前記通話情報保存部に保存された情報の内容に基づき、前記音声データのテキスト化を行う時間区間を判断する区間判断部と、
前記区間判断部の判断に基づき、前記音声データ抽出部により取得された音声データの該時間区間の音声データを切り出す音声データ切出部と、
前記音声データ切出部によって切り出された音声データを外部音声認識装置に送信する音声データ送信部と、
前記外部音声認識装置によってテキスト化されたデータを受信するテキスト受信部と、
前記テキスト受信部が受信したテキストデータを保存するテキスト保存部と、
該音声データについて前記外部音声認識装置がテキスト化した時間区間を保存するテキスト化済区間保存部を備え、
前記区間判断部は、少なくとも1つの録音された音声データのテキスト化を行う時間区間の判断について、0より大きく該音声データの全時間区間より小さくなることを満たすことを特徴とする。
この特徴によれば、通話システムは、外部音声認識装置を用いて、録音した通話音声の一部区間を自動的にテキスト化することができる。
通話の一部区間の音声のみをテキスト化することは、コールセンターの管理者などの通話を行わない第三者が通話の要点を効率的に把握することに加え、従量課金制の音声認識サービスを利用するにあたって課金量を抑えるために非常に重要である。
本発明の通話システムは、
前記通話情報保存部に保存された通話に関する情報を表示する通話情報表示部と、
前記テキスト保存部に保存されたテキストデータを表示するテキスト表示部と、
ユーザーからの音声テキスト化の要求を受信するテキスト化要求受信部を備え、
前記通話情報表示部はそれぞれの通話について、音声データが存在し且つテキスト化が行われていない時間区間があるかどうかがユーザにわかるようになっており、
前記音声データ切出部は前記テキスト化要求受信部が受信した要求内で指定されている音声データの時間区間の音声データを切り出し、
前記音声データ送信部は前記音声データ切出部が切り出した音声データを前記外部音声認識装置に送信し、
前記テキスト受信部は前記外部音声認識装置からテキストデータを受信し、
前記テキスト保存部は前記テキスト受信部が受信したテキストデータを保存し、
前記テキスト化済区間保存部は該音声データにおけるテキスト化が行われた時間区間を保存することを特徴とする。
この特徴によれば、通話システムは、通話音声内において通話システムによって自動的にテキスト化されなかった部分について、ユーザが時間区間を選択し、手動でテキスト化を行うことができる。
通話音声のうち、通話システムによる通話音声自動テキスト化の時間区間の範囲外にあって、ユーザが重要とする部分について個別でテキスト化を行うことができる。
本発明の通話システムは、
前記音声データ抽出部によって抽出された音声データは、前記外部音声認識装置によってテキスト化された区間からの相対時間をユーザが指定して再生できることを特徴とする。
この特徴によれば、通話システムは、通話音声内において通話システムによって自動的にテキスト化されなかった部分について、ユーザがテキスト化済の範囲からの時間区間を選択し、その音声を再生することができる。
例えば、音声データ内の未テキスト化部分を確認するためにテキスト化済区間の先頭部分から遡って60秒の区間を再生するなど、音声データの絶対時間を指定せずに音声の再生を行うことができる。
本発明の通話システムは、
前記通話システムによる通話の音声データの自動テキスト化が行われた後に、該音声データのテキスト化の結果によって、該音声データ内のテキスト化が行われていない時間区間についてテキスト化を行うか否とテキスト化を行う該音声データの時間区間を判断する続テキスト化区間判断部を備え、
前記音声データ切出部は前記続テキスト化区間判断部が判断した音声データの該時間区間の音声データを切り出し、
前記音声データ送信部は前記音声データ切出部が切り出した音声データを前記外部音声認識装置に送信し、
前記テキスト受信部は前記外部音声認識装置からテキストデータを受信し
前記テキスト保存部は前記テキスト受信部が受信したテキストデータを保存し、
前記テキスト化済区間保存部は該音声データにおけるテキスト化が行われた時間区間を保存し、
前記続テキスト化区間判断部によるテキスト化の条件と時間区間は、該通話に係る前記テキスト保存部に保存されたテキストデータと前記テキスト化済区間保存部に保存されたテキスト化済の時間区間と前記録音データ保存部に保存された録音データと前記通話情報保存部に保存された情報の内容に基づくことを特徴とする。
この特徴によれば、通話システムは、通話システムによる通話音声のこれまでのテキスト化の結果によって、テキスト化が行われなかった他の部分についてテキスト化することができる。
顧客との通話内において顧客への請求金額などユーザが通話内で最重要とする部分について、通話システムによる一回目の自動テキスト化の時間区間の範囲外で発話された場合でも自動でテキスト化を行うことができる。
本発明の通話システムは、
前記外部音声認識装置によってテキスト化された音声データの通話に関する情報を表示する通話情報表示部と、
前記外部音声認識装置によってテキスト化された音声データのテキストの一部または全てを表示する閲覧テキスト表示部を備え、
前記閲覧テキスト表示部は、表示するテキストについて、前記続テキスト化区間判断部がテキスト化を行うと判断する条件のうちいずれか1つまたは複数がキーワードのマッチに関する条件で、それらのうち1つまたは複数が満たされるとき、テキスト内の満たされた条件に関連するキーワードにマッチした部分を強調して表示することを特徴とする。
この特徴によれば、通話システムは、通話音声がテキスト化されたテキストに指定の語句が存在する場合、その範囲を強調して表示することができる。
通話中に発話された金額など、テキスト内においてユーザが求める情報をわかりやすく表示することができる。
本発明の通話プログラムは、
音声通話を録音し、録音した音声の特定時間区間を自動でテキスト化する通話プログラムであって、
前記通話プログラム外に設けられ、音声データを受信し該音声データをテキスト化し出力する機能を備えた外部音声認識装置を利用することを特徴とし、
通話に関する情報を保存する通話情報保存処理と、
音声通話から音声データを抽出する音声データ抽出処理と、
前記音声データ抽出処理によって抽出された音声データ及びその他録音したデータに関する情報から構成される録音データを保存する録音データ保存処理と、
前記録音データと前記通話情報保存処理によって保存された情報の内容に基づき、前記音声データのテキスト化を行う時間区間を判断する区間判断処理と、
前記区間判断処理の判断に基づき、前記音声データ抽出処理により取得された音声データの該時間区間の音声データを切り出す音声データ切出処理と、
前記音声データ切出処理によって切り出された音声データを外部音声認識装置に送信する音声データ送信処理と、
前記外部音声認識装置によってテキスト化されたデータを受信するテキスト受信処理と、
前記テキスト受信処理が受信したテキストデータを保存するテキスト保存処理と、
該音声データについて前記外部音声認識装置がテキスト化した時間区間を保存するテキスト化済区間保存処理を備え、
前記区間判断処理は、少なくとも1つの録音された音声データのテキスト化を行う時間区間の判断について、0より大きく該音声データの全時間区間より小さくなることを満たすことを特徴とする。
本発明の通話プログラムは、
前記通話情報保存処理によって保存された通話に関する情報を表示する通話情報表示処理と、
前記テキスト保存処理によって保存されたテキストデータを表示するテキスト表示処理と、
ユーザーからの音声テキスト化の要求を受信するテキスト化要求受信処理を備え、
前記通話情報表示処理はそれぞれの通話について、音声データが存在し且つテキスト化が行われていない時間区間があるかどうかがユーザにわかるようになっており、
前記音声データ切出処理は前記テキスト化要求受信処理が受信した要求内で指定されている音声データの時間区間の音声データを切り出し、
前記音声データ送信処理は前記音声データ切出処理が切り出した音声データを前記外部音声認識装置に送信し、
前記テキスト受信処理は前記外部音声認識装置からテキストデータを受信し、
前記テキスト保存処理は前記テキスト受信処理が受信したテキストデータを保存し、
前記テキスト化済区間保存処理は該音声データにおけるテキスト化が行われた時間区間を保存することを特徴とする。
本発明の通話プログラムは、
前記音声データ抽出処理によって抽出された音声データは、前記外部音声認識装置によってテキスト化された区間からの相対時間をユーザが指定して再生できることを特徴とする。
本発明の通話プログラムは、
前記通話プログラムによる通話の音声データの自動テキスト化が行われた後に、該音声データのテキスト化の結果によって、該音声データ内のテキスト化が行われていない時間区間についてテキスト化を行うか否とテキスト化を行う該音声データの時間区間を判断する続テキスト化区間判断処理を備え、
前記音声データ切出処理は前記続テキスト化区間判断処理が判断した音声データの該時間区間の音声データを切り出し、
前記音声データ送信処理は前記音声データ切出処理が切り出した音声データを前記外部音声認識装置に送信し、
前記テキスト受信処理は前記外部音声認識装置からテキストデータを受信し、
前記テキスト保存処理は前記テキスト受信部が受信したテキストデータを保存し、
前記テキスト化済区間保存処理は該音声データにおけるテキスト化が行われた時間区間を保存し、
前記続テキスト化区間判断処理によるテキスト化の条件と時間区間は、該通話に係る前記テキスト保存処理によって保存されたテキストデータと前記テキスト化済区間保存処理によって保存されたテキスト化済の時間区間と前記録音データ保存処理によって保存された録音データと前記通話情報保存処理によって保存された情報の内容に基づくことを特徴とする。
本発明の通話プログラムは、
前記外部音声認識装置によってテキスト化された音声データの通話に関する情報を表示する通話情報表示処理と、
前記外部音声認識装置によってテキスト化された音声データのテキストの一部または全てを表示する閲覧テキスト表示処理を備え、
前記閲覧テキスト表示処理は、表示するテキストについて、前記続テキスト化区間判断処理がテキスト化を行うと判断する条件のうちいずれか1つまたは複数がキーワードのマッチに関する条件で、それらのうち1つまたは複数が満たされるとき、テキスト内の満たされた条件に関連するキーワードにマッチした部分を強調して表示することを特徴とする。
これらの特徴によれば、本発明の通話システムを機能させる通話プログラムが提供される。
本発明によれば、外部音声認識サービスの課金量を抑えながら通話音声の効果的なテキスト化を行う通話システム、及び通話プログラムが提供される。
通話システムの構成を示す図である。 通話音声の1回目の自動テキスト化が条件を満たさなかった場合に行われる処理を示すフローチャートである。 ユーザに表示される通話閲覧機器の画面を示す図である。
以下、本発明の実施例について説明する。
図1は通話システムの構成を示す図である。通話システム1は、電話システム2、通話テキスト化システム3及び通話閲覧機器4から構成される。
電話システム2は、電話機器21、音声データ抽出部22及び通話録音データ送信部23を備えている。
ユーザは、電話機器21により通話を行う。ここで電話機器21として用いられる機器は、家庭用電話機、オフィス用電話機、コールセンターシステム用のIP電話機、スマートフォン等の携帯通信端末などがあり、そのいずれでもよい。
また、前記にあげた機器以外の機器でもよい。
電話機器21による通話中に、音声データ抽出部22が通話音声の音声データを抽出する。通話から音声データを抽出する方法は、電話機器の種類に応じて様々な方法が考えられる。
例えば、電話機器21がアナログ電話機の場合は、電話機に録音アダプタを接続することにより通話音声のアナログデータを音声データに変換することができる。
電話機器21がIP電話機の場合は、ネットワークを流れるデータをキャプチャする、もしくは電話システムの各メーカーが定めた独自の方法により音声データを取得することができる。
電話機器21がスマートフォンの場合は、スマートフォンにアプリをインストールすることで音声データを取得することができる。
通話が行われると、自動的に音声データ抽出部22が通話音声の音声データを抽出することが望まれる。
ただし、ユーザーが何らかの操作を行ったタイミングで音声データの抽出の開始/終了が行われるとしてもよい。
通話終了後、通話録音データ送信部23は、通話に関する情報、音声データ抽出部22が取得した音声データ、録音に関する情報を通話テキスト化システム3に送信する。
通話テキスト化システム3は、通話情報保存部301、通話録音データ受信部302、録音データ保存部303、区間判断部304、音声データ切出部305、音声データ送信部306、テキスト受信部307、テキスト保存部308、テキスト化済区間保存部309、続テキスト化区間判断部310、通話情報一覧取得要求受信部311、通話情報一覧取得部312、通話情報一覧送信部313、テキスト化要求受信部314及びテキスト送信部315を備えている。
通話テキスト化システム3は、通話録音データ受信部302が通話録音データ送信部23から受信した通話に関する情報に基づき、通話情報保存部301を更新する。
通話情報保存部301が保存するデータは、通話開始時刻、通話終了時刻、通話種別(発信または着信のいずれか)、相手電話番号、自分電話番号から構成される。
通話情報保存部301が保存するデータは上記に限定されるものではない。例えば、電話対応を行ったオペレーターの情報(IDや名前)を含めてもよい。
通話テキスト化システム3は、通話録音データ受信部302が受信した音声データと録音に関する情報に基づき、録音データ保存部303を更新する。
録音データ保存部303が保存するデータは、通話ID、録音開始時刻、録音終了時刻、音声データ、音声データの中の無音時間区間から構成される。
録音データ保存部303が保存するデータは上記に限定されるものではない。例えば、録音が自動的に行われたか、それともユーザーの操作によって行われたかという情報が含まれていてもよい。
区間判断部304は、通話情報保存部301、録音データ保存部303に保存された内容に基づいて、テキスト化を行う時間区間を判断する。
具体的には、録音開始時刻と録音終了時刻から計算される音声のデータの長さが2分未満の場合はすべてをテキスト化し、2分以上の場合は音声データの最初の30秒及び最後の60秒のテキスト化を行うと判断する。
本実施例では区間判断部304が音声データのテキスト化を行うとする範囲について最初の30秒及び最後の60秒としているが、区間判断部304がテキスト化を行うと判断する時間区間はこれに限らない。
例えば、最後の60秒のみをテキスト化するとしてもよい。また、音声データの最後に無音区間が存在する場合、該無音区間をテキスト化の範囲から除いた上で最後の60秒をテキスト化の範囲とするとしてもよい。
時間区間の値は通話システムの製品出荷時に固定してもよいし、ユーザが個別に設定できるようにしてもよい。
区間判断部304は、相手電話番号から電話の相手が従業員など通話音声のテキスト化が不要の人物であることを判定し、その場合は音声データの自動テキスト化を行わないとしてもよい。
また、通話種別と自分電話番号から、業務連絡用電話番号など通話音声のテキスト化が不要の電話番号にかかってきた電話であることを判定し、その場合は音声データの自動テキスト化を行わないとしてもよい。
音声データ切出部305は、区間判断部304の判断に基づき、テキスト化を行う時間区間の音声データを切り出す。
音声データ送信部306は、音声データ切出部305が切り出した音声データを音声認識装置5に送信する。
テキスト受信部307は、音声認識装置5から通話音声をテキスト化したテキストを受信し、テキスト保存部308とテキスト化済区間保存部309を更新する。
通話音声のテキスト化にあたっては、条件を設定することができる。以上の処理で通話音声テキスト化の結果が設定された条件を満たさなかった場合は、続いて以下の処理を行う。
図2は、通話音声の1回目の自動テキスト化が条件を満たさなかった場合に行われる処理を示すフローチャートである。
通話テキスト化システム3による通話音声の1回目の自動テキスト化処理が完了した後、続テキスト化区間判断部310は、音声データの最後の60秒をテキスト化したテキストの中に、指定の語句A(例えば「ご注文ありがとうございました」という文章)が含まれているか否かを検索する。
検索の結果、指定の語句が検出されなかった場合は、処理を終了する。指定の語句が検出された場合は、検索を行ったテキストの元となった音声データのうち未テキスト化部分の最後の60秒の区間について、新たにテキスト化するものと判断する。
音声データ切出部305は、続テキスト化区間判断部310がテキスト化するものと判断した時間区間について切り出しを行う。
音声データ送信部306は、音声データ切出部305が切り出した音声データを音声認識装置5に送信する。
テキスト受信部307は、音声認識装置5から通話音声をテキスト化したテキストを受信し、テキスト保存部308とテキスト化済区間保存部309を更新する。
続テキスト化区間判断部310は、さらに、テキスト化を行うと判断した時間区間をテキスト化したテキストの中に指定の語句B(例えば「○○円です」という文章)が検出されるまで、繰り返し音声のテキスト化を行うものと判断する。
上記を行うことで、例えば、通話内で注文があったときの金額をテキスト化することができ、金額の集計やチェックが容易になる。
なお、テキスト内から指定の語句A、語句Bを検出する方法は文章の完全一致とは限らない。例えば、指定の語句Bが「○○円です」というものだった場合、テキスト内から、数字に続いて「円です」という文章を検出する。
この指定により、例えば「10000円です」「20000円です」などが検出されることになる。
指定の語句を検出できない場合に、想定外に音声認識サービスの利用料がかかってしまうことを避けるため、指定の語句の検出を行う時間範囲を音声データの最後から10分までに設定してもよい。
その場合、テキスト化済の区間が、音声データの最後から10分に到達した場合は繰り返しのテキスト化を終了する。
追加でテキスト化を行う条件は、上記に限定されない。実際に利用される状況に応じて、様々な条件が考えられる。この時、検索及び検出を行う語句の指定や語句の検出を行う時間範囲など、追加でテキスト化を行う条件に関する設定をユーザが行えるようにしてもよい。
通話テキスト化システム3は、物理的に離れた複数のハードウェアで構成されていてもよい。また、録音データ保存部303の中身が物理的にわかれていてもよい。
例えば、録音データ保存部303に保存されるデータのうち、音声データのみを外部のクラウドストレージに保存するとしてもよい。
次に、通話閲覧機器4の構成と処理について説明する。
通話閲覧機器4は、通話情報一覧取得要求部41、通話情報一覧受信部42、通話情報一覧表示部43、通話情報表示部43a、テキスト表示部43b、テキスト化要求送信部44及び閲覧テキスト受信部45を備えている。
ここで通話閲覧機器4として用いられる機器は、パーソナルコンピュータやタブレット端末などがあり、そのいずれでもよい。また、前記にあげた機器以外の機器でもよい。
ユーザは、通話閲覧機器4で通話情報一覧の画面を開く。その際に画面に表示する対象の日を指定する。この時、画面に表示する対象として日ではなく期間を指定できるようにしてもよい。
また、例えば、本日や過去30日の通話一覧が表示されるなど、ユーザが日を指定せずともあらかじめ決められた期間の表示がされるとしてもよい。また、日や期間を指定するものではなく、ユーザが何らかの条件で検索し、条件を満たすものの一覧を表示するとしてもよい。
また、ユーザが検索せずとも特定もしくは何らかの条件を満たす1件のみを表示するとしてもよい。
通話情報一覧取得要求部41は、通話テキスト化システム3の通話情報一覧取得要求受信部311に通話情報一覧の取得を要求する。
通話情報一覧取得部312は、通話情報一覧取得要求受信部311が受信した要求に応じて、通話情報保存部301から取得対象の通話情報を、テキスト保存部308から取得対象の通話についてテキスト化されたテキストを、テキスト化済区間保存部309から取得対象の通話についてテキスト化済の時間区間を取得する。
通話情報一覧送信部313は、通話情報一覧取得部312が取得した情報を通話情報一覧受信部42に送信する。通話情報一覧表示部43は、通話情報一覧受信部42が受信した情報を、通話情報の一覧として通話閲覧機器4に表示する。
図3は、ユーザに表示される通話閲覧機器4の画面である。通話情報一覧表示部43には、通話ごとに、通話に関する情報を表示する通話情報表示部43aと、テキスト化されたテキストを表示するテキスト表示部43bがある。
なお、この画面は一例であり、ユーザの利便性を向上させるための様々な改良が施されていてもよい。例えば、多くの通話内容を一瞥して確認できるようにするため、図3の閲覧テキスト表示部43bにはテキストがコンパクトに表示されている。
ユーザが閲覧テキスト表示部43bをクリックもしくはタップすることで、表示領域が拡大され、該当の通話の会話の流れが分かりやすいように表示されるという機能を追加してもよい。
テキスト表示部43bでは、続テキスト化区間判断部310がテキスト化を行うと判断した語句Aにマッチする部分と、テキスト化を終了すると判断した語句Bにマッチする部分が強調表示される。
なお、マッチする部分のすべてが強調表示されるのではなく、一部のみが強調表示されるとしてもよい。
テキスト表示部43bでは、上記に加えて、特定のキーワードにマッチする部分や特定の条件を満たす部分が強調表示されるとしてもよい。
ユーザは、特定の通話の特定の時間区間を指定して、その通話の音声データを聞くことができる。その際、ユーザは、通話がテキスト化済となっている時間区間からの相対時間を指定できる。
これにより、ユーザは、まだテキスト化されていない最後の30秒の音声データを聞くといった操作や、テキスト化されている音声データの内容の確認のためにテキスト化済の時間区間の最初の30秒の音声データを聞くといった操作を容易に行うことができる。
通話ごとに、音声データが存在し且つテキスト化が行われていない時間区間があるかどうかがわかるようになっている。図3にあるように本実施例ではテキスト表示部43bにテキスト化済でない時間の長さを表記するようにしているが、これに限られるものではない。
テキスト化が行われていない時間区間があるかどうかがユーザにわかるようになっていればよい。
ユーザは、音声データのテキスト化済となっていない時間区間を選択して、通話テキスト化システム3にテキスト化を要求することができる。テキスト化要求送信部44は、ユーザの要求に応じて、テキスト化要求受信部314にテキスト化要求を送信する。
テキスト化要求受信部314は、テキスト化要求を受信すると、要求のあった音声データの該時間区間について、音声データ切出部305に音声データの切り出しを指示し、音声データ切出部305は音声データの該時間区間の切り出しを行う。
音声データ送信部306は、音声データ切出部305が切り出した音声データを音声認識装置5に送信する。
テキスト受信部307は、音声認識装置5から音声データをテキスト化したテキストを受信する。テキスト保存部308は、テキスト受信部307が受信したテキストを保存する。
テキスト化済区間保存部309は、テキスト化に使用した音声データについてテキスト化済となった区間の情報を保存する。
テキスト送信部315は、テキスト受信部307が受信したテキストを閲覧テキスト受信部45に送信する。
テキスト表示部43bは、閲覧テキスト受信部45がテキスト送信部315から受信したテキストを、通話閲覧機器4に表示する。
以上詳細に説明したように、本実施例の通話システム1によれば、電話機器21による通話について、従量課金制の外部音声認識装置5を用いて、外部音声認識装置5の利用料を抑えながらも効果的な通話音声のテキスト化を行うことができる。
最後に、電話システム2、音声テキスト化システム3、通話閲覧機器4は、まとめて1つもしくは2つのハードウェアで実現してもよい。また、システム内、機器内の機能の一部の機能のみが、他のシステム、機器と同一のハードウェア上で実現されるという構成をとってもよい。
例えば、IP電話機を利用する場合に、ネットワークを流れるデータから音声データを抽出するハードウェアを設置することがあるが、そのハードウェアの中で音声テキスト化システム3を動作させるという構成をとってもよい。
音声電話による通話について、外部の音声認識システムを用いながら、その利用料を抑えつつ効果的な通話音声のテキスト化を行う通話システム、及び通話システムを機能させる通話プログラムである。
多量の音声通話について内容の概要のテキスト化を行いたい者、例えば、コールセンターやサービス業の電話予約受付、による利用が考えられる。
1 通話システム
2 電話システム
21 電話機器
22 音声データ抽出部
23 通話録音データ送信部
3 通話テキスト化システム
301 通話情報保存部
302 通話録音データ受信部
303 録音データ保存部
304 区間判断部
305 音声データ切出部
306 音声データ送信部
307 テキスト受信部
308 テキスト保存部
309 テキスト化済区間保存部
310 続テキスト化区間判断部
311 通話情報一覧取得要求受信部
312 通話情報一覧取得部
313 通話情報一覧送信部
314 テキスト化要求受信部
315 テキスト送信部
4 通話閲覧機器
41 通話情報一覧取得要求部
42 通話情報一覧受信部
43 通話情報一覧表示部
43a 通話情報表示部
43b テキスト表示部
44 テキスト化要求送信部
45 閲覧テキスト受信部
5 音声認識装置

Claims (4)

  1. 音声通話を録音し、録音した音声の特定時間区間を自動でテキスト化する通話システムであって、
    前記通話システム外に設けられ、音声データを受信し該音声データをテキスト化し出力する機能を備えた外部音声認識装置を利用することを特徴とし、
    通話に関する情報を保存する通話情報保存部と、
    音声通話から音声データを抽出する音声データ抽出部と、
    前記音声データ抽出部によって抽出された音声データ及びその他録音したデータに関する情報から構成される録音データを保存する録音データ保存部と、
    前記録音データと前記通話情報保存部に保存された情報の内容に基づき、前記音声データのテキスト化を行う時間区間を判断する区間判断部と、
    前記区間判断部の判断に基づき、前記音声データ抽出部により取得された音声データの該時間区間の音声データを切り出す音声データ切出部と、
    前記音声データ切出部によって切り出された音声データを外部音声認識装置に送信する音声データ送信部と、
    前記外部音声認識装置によってテキスト化されたデータを受信するテキスト受信部と、
    前記テキスト受信部が受信したテキストデータを保存するテキスト保存部と、
    該音声データについて前記外部音声認識装置がテキスト化した時間区間を保存するテキスト化済区間保存部と、
    前記通話システムによる通話の音声データの自動テキスト化が行われた後に、該音声データのテキスト化の結果と、テキスト化を開始する条件とテキスト化を終了する条件に基づいて、該音声データ内のテキスト化が行われていない時間区間についてテキスト化を行う時間区間を判断する続テキスト化区間判断部を備え、
    前記音声データ切出部は前記続テキスト化区間判断部が判断した音声データの該時間区間の音声データを切り出し、
    前記音声データ送信部は前記音声データ切出部が切り出した音声データを前記外部音声認識装置に送信し、
    前記テキスト受信部は前記外部音声認識装置からテキストデータを受信し
    前記テキスト保存部は前記テキスト受信部が受信したテキストデータを保存し、
    前記テキスト化済区間保存部は該音声データにおけるテキスト化が行われた時間区間を保存し、
    前記続テキスト化区間判断部によるテキスト化を開始する条件もしくはテキスト化を終了する条件もしくはその両方の条件は、該音声データのテキスト化の結果にユーザが予め定めたキーワードまたはキーワードのパターンが含まれるかどうかを条件の一つとすることを特徴とする通話システム。
  2. 前記外部音声認識装置によってテキスト化された音声データの通話に関する情報を表示する通話情報表示部と、
    前記外部音声認識装置によってテキスト化された音声データのテキストの一部または全てを表示する閲覧テキスト表示部を備え、
    前記閲覧テキスト表示部は、表示するテキストについて、前記続テキスト化区間判断部がテキスト化を開始する条件もしくは終了する条件もしくはその両方の条件としてユーザが予め定めたキーワードまたはキーワードのパターンが含まれるという条件が満たされるとき、テキスト内の該キーワードもしくは該キーワードのパターンにマッチした部分を強調して表示することを特徴とする請求項1に記載の通話システム。
  3. 音声通話を録音し、録音した音声の特定時間区間を自動でテキスト化する通話プログラムであって、
    前記通話プログラム外に設けられ、音声データを受信し該音声データをテキスト化し出力する機能を備えた外部音声認識装置を利用することを特徴とし、
    通話に関する情報を保存する通話情報保存処理と、
    音声通話から音声データを抽出する音声データ抽出処理と、
    前記音声データ抽出処理によって抽出された音声データ及びその他録音したデータに関する情報から構成される録音データを保存する録音データ保存処理と、
    前記録音データと前記通話情報保存処理によって保存された情報の内容に基づき、前記音声データのテキスト化を行う時間区間を判断する区間判断処理と、
    前記区間判断処理の判断に基づき、前記音声データ抽出処理により取得された音声データの該時間区間の音声データを切り出す音声データ切出処理と、
    前記音声データ切出処理によって切り出された音声データを外部音声認識装置に送信する音声データ送信処理と、
    前記外部音声認識装置によってテキスト化されたデータを受信するテキスト受信処理と、
    前記テキスト受信処理が受信したテキストデータを保存するテキスト保存処理と、
    該音声データについて前記外部音声認識装置がテキスト化した時間区間を保存するテキスト化済区間保存処理と、
    前記通話プログラムによる通話の音声データの自動テキスト化が行われた後に、該音声データのテキスト化の結果と、テキスト化を開始する条件とテキスト化を終了する条件に基づいて、該音声データ内のテキスト化が行われていない時間区間についてテキスト化を行う時間区間を判断する続テキスト化区間判断処理を備え、
    前記音声データ切出処理は前記続テキスト化区間判断処理が判断した音声データの該時間区間の音声データを切り出し、
    前記音声データ送信処理は前記音声データ切出処理が切り出した音声データを前記外部音声認識装置に送信し、
    前記テキスト受信処理は前記外部音声認識装置からテキストデータを受信し
    前記テキスト保存処理は前記テキスト受信処理が受信したテキストデータを保存し、
    前記テキスト化済区間保存処理は該音声データにおけるテキスト化が行われた時間区間を保存し、
    前記続テキスト化区間判断処理によるテキスト化を開始する条件もしくはテキスト化を終了する条件もしくはその両方の条件は、該音声データのテキスト化の結果にユーザが予め定めたキーワードまたはキーワードのパターンが含まれるかどうかを条件の一つとすることを特徴とする通話プログラム。
  4. 前記外部音声認識装置によってテキスト化された音声データの通話に関する情報を表示する通話情報表示処理と、
    前記外部音声認識装置によってテキスト化された音声データのテキストの一部または全てを表示する閲覧テキスト表示処理を備え、
    前記閲覧テキスト表示処理は、表示するテキストについて、前記続テキスト化区間判断処理がテキスト化を開始する条件もしくは終了する条件もしくはその両方の条件としてユーザが予め定めたキーワードまたはキーワードのパターンが含まれるという条件が満たされるとき、テキスト内の該キーワードもしくは該キーワードのパターンにマッチした部分を強調して表示することを特徴とする請求項3に記載の通話プログラム。
JP2019097622A 2019-05-24 2019-05-24 通話システム、及び通話プログラム Active JP6606697B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019097622A JP6606697B1 (ja) 2019-05-24 2019-05-24 通話システム、及び通話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019097622A JP6606697B1 (ja) 2019-05-24 2019-05-24 通話システム、及び通話プログラム

Publications (2)

Publication Number Publication Date
JP6606697B1 true JP6606697B1 (ja) 2019-11-20
JP2020193994A JP2020193994A (ja) 2020-12-03

Family

ID=68611017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019097622A Active JP6606697B1 (ja) 2019-05-24 2019-05-24 通話システム、及び通話プログラム

Country Status (1)

Country Link
JP (1) JP6606697B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
WO2022145041A1 (ja) * 2020-12-31 2022-07-07 株式会社I’mbesideyou ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7380620B2 (ja) * 2021-03-15 2023-11-15 株式会社ナカヨ 通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022744A (ja) * 1999-07-05 2001-01-26 Olympus Optical Co Ltd 音声処理装置及び音声処理プログラムを記録した記録媒体
JP5685702B2 (ja) * 2009-11-10 2015-03-18 株式会社アドバンスト・メディア 音声認識結果管理装置および音声認識結果表示方法
JP5810946B2 (ja) * 2012-01-31 2015-11-11 富士通株式会社 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
WO2022059446A1 (ja) * 2020-09-17 2022-03-24 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
JP2022049784A (ja) * 2020-09-17 2022-03-30 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
WO2022145041A1 (ja) * 2020-12-31 2022-07-07 株式会社I’mbesideyou ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Also Published As

Publication number Publication date
JP2020193994A (ja) 2020-12-03

Similar Documents

Publication Publication Date Title
JP6606697B1 (ja) 通話システム、及び通話プログラム
US7224792B2 (en) Personalized telephone announcement
US7650168B2 (en) Voice activated dialing for wireless headsets
US8391445B2 (en) Caller identification using voice recognition
US20040203660A1 (en) Method of assisting a user placed on-hold
US8290126B2 (en) System and method for a visual voicemail interface
US20060246891A1 (en) Voice mail with phone number recognition system
WO2009114035A1 (en) Mobile electronic device with active speech recognition
US20080059179A1 (en) Method for centrally storing data
US10257350B2 (en) Playing back portions of a recorded conversation based on keywords
EP1170932A1 (en) Audible identification of caller and callee for mobile communication device
US7319742B2 (en) Voice information storage and retrieval system and method
CN102045454A (zh) 一种座席系统及座席呼叫的实现方法
US9875238B2 (en) Systems and methods for establishing a language translation setting for a telephony communication
US7995716B2 (en) Association of email message with voice message
CN103581857A (zh) 一种语音提示的方法、语音合成服务器及终端
CN101202795A (zh) 一种进行音频内容用户录音的方法和系统
US20040109543A1 (en) Method of accessing an information source
JP2004173124A (ja) 顧客データの管理方法
JP3195769B2 (ja) 国外との音声通信を考慮した音声通信ゲートウエイ選択方法、その装置、及びそのプログラムを記録した記録媒体
US20060148457A1 (en) Method and apparatus for determination of a reply address in a voice signal
JP5007913B2 (ja) メタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末
KR101275385B1 (ko) 인터넷 전화를 이용한 자동 음성 응대서비스 제공방법 및시스템
KR101072659B1 (ko) 전화번호를 이용한 부분 디렉토리정보 제공 장치 및 그 방법
JP2007049257A (ja) 電話端末およびサーバ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190531

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190925

R150 Certificate of patent or registration of utility model

Ref document number: 6606697

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191105

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250