JP6074050B2 - 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 - Google Patents

音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP6074050B2
JP6074050B2 JP2015536346A JP2015536346A JP6074050B2 JP 6074050 B2 JP6074050 B2 JP 6074050B2 JP 2015536346 A JP2015536346 A JP 2015536346A JP 2015536346 A JP2015536346 A JP 2015536346A JP 6074050 B2 JP6074050 B2 JP 6074050B2
Authority
JP
Japan
Prior art keywords
search
keyword
voice
call
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015536346A
Other languages
English (en)
Other versions
JPWO2015037073A1 (ja
Inventor
藤田 雄介
雄介 藤田
龍 武田
龍 武田
直之 神田
直之 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP6074050B2 publication Critical patent/JP6074050B2/ja
Publication of JPWO2015037073A1 publication Critical patent/JPWO2015037073A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/10Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/30Aspects of automatic or semi-automatic exchanges related to audio recordings in general
    • H04M2203/301Management of recordings

Description

本発明は、音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体に関し、例えば、記憶装置に格納される音声データの内容を検索し、検索結果を表示するための技術に関する。
近年、コールセンタを運営し、大量の音声データを抱える企業においては、音声データからの情報抽出作業を自動化することが求められている。特に、コールセンタのオペレータを管理するスーパーバイザは、大量の通話音声データの中から、問題通話(クレーム)を効率的に発見・確認することで、オペレータの教育や、迅速なクレーム対応に活かすことを狙っている。
問題通話を効率的に発見・確認する方法としては、通話内容からクレームを特定する方法と、通話内容の要聴取箇所を特定する方法が挙げられる。
通話内容からクレームを特定する方法としては、例えば、特許文献1に示されるように、利用者とオペレータとの会話が録音された録音音声データにおける音声の抑揚、強弱の変化や間から話し手の感情表現を特徴量とし、音声データ内のキーワードと感情表現による特徴量を用いて音声データをスコアリングし、そのスコア値に基づいて、どの音声通話がクレームとして対処すべきものであるかを判断するものがある。
また、通話内容の要聴取箇所を特定する方法としては、例えば、特許文献2に示されるように、発話時間というパラメータを用いてオペレータ側の発話から顧客側の発話に変わった箇所を要聴取箇所として特定し、その箇所を頭出し点(聞き出し部分)とするものがある。
特開2011−82839号公報 特開2007−184699号公報
しかしながら、特許文献1による方法のみでは、特定されたクレームの通話全体を聴取しなければ、顧客がどこで怒っているか、なぜ顧客が怒っているのかを確認することが出来ない。また、特許文献2の方法を組み合わせたとしても、聞き出し部分が沢山あるような場合に、全ての聞き出し部分を聞かなければ、顧客がどこで怒っているかを確認することが出来ない。すなわち、従来の方法では、問題通話を発見し、通話の一部のみを聞いて問題の内容を効率的に確認する手段はなかった。
本発明はこのような状況に鑑みてなされたものであり、問題通話を効率的に確認・発見することを可能にする音声検索技術を提供するものである。
上記課題を解決するために、本発明による音声検索システムは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースを有し、入力された検索用キーワードに基づいて通話検索データベースを検索し、検索用キーワードを含む音声区間系列を取得する。より詳細には、複数の録音通話音声データのうち、検索用キーワードを含む音声区間系列とその出現時刻がキーワード検索結果として取得される。また、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻が取得され、当該開始時刻が音声再生の頭出し位置として決定される。そして、頭出し位置が音声検索結果として出力される。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、録音された通話における問題通話を効率的に確認・発見することができるようになる。
本発明の実施形態による音声検索システムのハードウェア構成例を示す図である。 本発明の実施形態による音声検索システム内における処理概要を説明するための機能ブロック図である。 本発明の実施形態による通話録音DBの構成例を示す図である。 本発明の実施形態による音声検索システムで実行される通話検索DB作成処理の詳細について説明するためのフローチャートである。 本発明の実施形態による通話検索DBの構成例を示す図である。 本発明の実施形態による音声検索システムで実行される通話検索処理の詳細について説明するためのフローチャートである。 本発明の実施形態による検索画面の構成例を示す図である。 本発明の実施形態によるキーワード検索結果の例を示す図である。 本発明の実施形態による検索結果表示画面の基本的構成例を示す図である。 本発明の実施形態による検索結果表示画面の変形構成例を示す図である。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下では、頭出し決定部等の各処理部を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、各処理部による処理は、プログラム化され、このプログラムをプロセッサによって実行することにより実現されるため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって計算機にインストールされてもよい。
<音声検索システムのハードウェア構成>
図1は、本発明の実施形態による音声検索システムのハードウェア構成例を示す図である。
音声検索システム1は、VoIPゲートウェイ201と、IP交換機202と、複数のIP電話機203と、IPネットワーク中継装置204と、通話録音装置2と、通話検索装置3と、通話検索端末装置4と、を有している。複数のIP電話機203は、コールセンタ内に設置されており、複数のオペレータが、公衆電話回線網200の先の電話機を用いる顧客からの電話に対応できるようになっている。また、通話録音装置2、通話検索装置3、及び通話検索端末装置4はそれぞれ、通常のコンピュータによって実現されるようにしても良い。
通話録音装置2は、CPU205−1と、メモリ206−1と、HDD207−1と、IPネットワーク中継装置204と接続する通信部208−1と、を有している。メモリ206−1は、通話録音部21と、送受信種別取得部22と、通話録音DB管理部24の処理を行うためのプログラムを格納している。また、HDD207−1は、通話録音DB23を含んでいる。
通話検索装置3は、CPU205−2と、メモリ206−2と、HDD207−2と、IPネットワーク中継装置204と接続する通信部208−2と、を有する。メモリ206−2は、通話録音取得部31と、キーワード検出部32と、音声区間検出部33と、感情検出部34と、キーワード受付部36と、キーワード検索部37と、頭出し位置決定部38と、優先順位決定部39と、検索結果送信部40の処理を行うためのプログラムを格納している。また、HDD207−2は、通話検索DB35を含んでいる。
通話検索端末装置4は、CPU205−3と、メモリ206−3と、HDD207−3と、IPネットワーク中継装置204と接続する通信部208−3と、キーボード209と、ディスプレイ210と、マウス211と、スピーカ212と、を有している。メモリ206−3は、キーワード問合せ部41と検索結果表示部42の処理を実現するためのプログラムを格納している。
<音声検索システムの動作(処理概要)>
図2は、音声検索システム1内における処理概要を説明するための機能ブロック図である。
音声検索システム1は、コールセンタにおける顧客とオペレータの間の通話音声を、通話録音装置2により録音し、その通話録音の内容をキーワードにより検索可能とする通話検索装置3、及び通話検索端末装置4を用いて、スーパーバイザが問題発話の検索に利用できるように構成されている。
通話録音装置2において、通話録音部21は、顧客とオペレータの通話をそれぞれ録音する。また、送受信種別取得部22は、通話録音がオペレータの発話(送信)であるか顧客の発話(受信)であるかを決定する。そして、取得した通話録音データは、決定された送受信種別と紐づけけられて通話録音DB23に格納され、管理される。通話録音DB管理部24は、外部(通話録音取得部31)からの要求(例えば、特定時刻における通話データの送信要求)を受け付けて通話録音DB23の情報を要求元に送信する。
通話検索装置3において、通話録音取得部31は、通話録音DB管理部24に対して通話データの送信要求を送信し、通話録音装置2の通話録音DB23に保存された通話録音を取得する。そして、キーワード検出部32は、取得した通話録音中に存在するキーワードを検出する。検出すべきキーワードは例えば、予め決められていたり、外部から入力されたりするものとする。また、音声区間検出部33は、取得した通話録音中の音声区間を検出する。さらに、感情検出部34は、取得した通話録音中の感情を検出する。取得した通話録音からキーワード、音声区間、及び感情が検出されると、それらの各検出結果が、音声中の出現時刻と紐づけられて通話検索DB35に格納され、管理される。一方、キーワード受付部36は、外部(スーパーバイザが操作する通話検索端末装置4)からキーワードを受け付ける。キーワード検索部37は、受け付けたキーワードに基づいて通話検索DB35からキーワードの出現時刻を検索する。そして、頭出し位置決定部38は、キーワード検索結果801から送受信種別(チャンネル)が異なる直前の音声区間の出現時刻を検索する。また、優先順位決定部39は、頭出し位置決定結果802から感情を検索した結果に基づいて、キーワード検索結果(例えば、図8の801参照)の優先順位を決定する。最後に、検索結果送信部40は、優先順位に基づく検索結果を通話検索端末装置4に対して送信する。
通話検索端末装置4において、キーワード問合せ部41は、スーパーバイザの指示に応答して、入力されたキーワードを通話検索装置3へ問い合わせる。また、検索結果表示部42は、通話検索装置3から検索結果を受信し、ディスプレイ210に表示する。
<通話録音DB>
図3は、通話録音DB23の構成例を示す図である。通話録音DB23は、公知のリレーショナルデータベースを用いて構築することができる。
通話録音DB23は、録音された通話を一意に識別・特定するための録音ID301と、当該録音通話において顧客に対応したオペレータを一意に識別・特定するためのオペレータID302と、当該録音通話における顧客の電話番号を示す電話番号303と、当該録音通話を録音した時刻を示す録音時刻304と、当該録音通話におけるオペレータの音声データである送信音声305と、当該録音通話における顧客の音声データである受信音声306と、を構成項目として有する。なお、送信音声305及び受信音声306には、実際の音声ファイルの保存場所を示すファイルパスが保存される。
<音声検索システム1の動作>
音声検索システム1は、通話検索DB作成処理と通話検索DB検索処理を実行する。以下、これらについて詳細に説明する。
(i)通話検索DB作成処理
図4は、音声検索システム1で実行される通話検索DB作成処理の詳細について説明するためのフローチャートである。
まず、通話録音取得部31は、通話録音装置2の通話録音DB管理部24に対して新規の通話録音が存在するか問い合わせる(ステップS01)。このとき、通話録音DB管理部24は、新規の通話録音が存在するかの問い合わせを受け付け、所定の時刻よりあとに録音された通話録音があれば、その録音IDを通話録音取得部31に返す。通話録音がない場合は、通話録音取得部31は、所定の時間待機する(ステップS02)。
通話録音が存在する場合、通話録音取得部31は、通話録音装置2から新規の録音IDに対応する通話録音の送信音声と受信音声を取得する(ステップS03)。
次に、キーワード検出部32は、音声中の所定のキーワードを検出する(ステップS04)。音声中のキーワードを検出する処理としては、いくつかの公知の方法がある。例えば、大語彙連続音声認識技術を用いて音声を文章に変換し、文章を構成する単語(形態素)と出現時刻の組をデータベース化しておく方法である。この方法では、既知の単語で構成されるフレーズを高速に検索できるが、未知の単語は別の単語に誤って認識されるため、未知の単語を含む検索は不可能となる。また、別の方法として、サブワード認識技術を用いて音声を音素系列に変換し、音素と出現時刻の組をデータベース化しておく方法がある。この方法では、検索時にキーワードを音素系列に変換して探索することで、未知の単語も検索できるが、音素の認識誤りを許容するよう検索する必要があるため、検索に多少時間がかかる。さらに別の方法として、音響特徴量をデータベースしておく方法がある。検索時には、キーワードに対応する音響モデルと音響特徴量系列とを照合して、キーワードの出現箇所を検出することで、未知の単語も高精度に検索できるが、音響特徴量を短いフレーム単位で照合する必要から、検索に時間がかかる。ここでは、未知の単語を高速に検索することを想定して、サブワード認識技術を用いた構成を例に説明する。キーワード検出部32は、送信音声と受信音声をそれぞれ音素認識し、音素系列を音素出現時刻とともに通話検索DB35の音素系列テーブル501(図5参照)に保存する。
そして、音声区間検出部33は、通話音声中の音声区間を検出する(ステップS05)。音声区間を検出する処理は公知の技術により実現できる。例えば、音声パワーの閾値に基づく方法や、音響特徴量のパタン識別に基づく方法などである。通話音声中には、人間の発声のほか、無音区間、保留音などがあるが、音声区間検出により、人間の発声部分のみを取り出す。音声区間検出部33は、送信音声と受信音声をそれぞれから検出した音声区間の開始時刻と終了時刻から、音声開始時刻系列、音声終了時刻系列を構成し、音声区間系列テーブル502(図5参照)に追加する。
次に、感情検出部34は、通話音声中の感情を検出する(ステップS06)。音声中の感情を検出する処理は、公知の技術により実現できる。例えば、音声から抽出した、音響特徴量および音声ピッチや発話速度の平均値とその変化量に基づいて、怒りと平静の感情を識別する方法である。事前に怒り音声と平静音声のデータベースから、怒りと平静の識別器をサポートベクターマシン等の技術により学習しておくと、識別境界からの距離に基づいて怒り感情のスコアが計算できる。ここでは、音声区間ごとに、怒りと平静の感情(非言語情報:用いることのできる非言語情報は感情に限られず、発声の滑らかさ、聞きやすさといった別の観点でスコアを計算したものでも良く、または、声の高さ、声の大きさ、発話速度、周囲の無音区間の長さといった非言語情報であっても良い)を識別し、識別境界からの距離を感情スコア(非言語情報スコア)として求める。感情検出部34は、送信音声と受信音声をそれぞれから、感情スコア系列と、対応する音声区間の開始時刻系列を構成し、感情スコア系列テーブル503(図5参照)に追加する。
以上の通話検索DB作成処理により、通話録音をキーワードに基づいて検索し、時刻から音声区間、感情スコアの対応関係を検索することが可能となる。
(ii)通話検索DBの構成例
図5は、通話検索DB35の構成例を示す図である。通話検索DB35は、公知のリレーショナルデータベースを用いて構築することができる。
通話検索DB35は、音素系列テーブル501と、音声区間系列テーブル502と、感情スコア系列テーブル503とによって構成される。
音素系列テーブル501は、録音された通話を一意に識別・特定するための録音ID5011と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別5012、管理すべき少なくとも1つの音素系列を保持する音素系列5013と、通話開始時刻からの各音素が出現する相対時刻(音素時刻系列内では絶対時刻として表現されている)を示す音素時刻系列5014と、を構成項目として有している。各種別5012において、音素系列5013は、複数の音素系列を保持する場合、並列して当該複数の音素系列を管理する。例えば、各音素系列は、(「M O O SH I W A K E G O Z A I M A S E NN(申し訳ございません)」,「K A SH I K O M A R I M A SH I T A(かしこまりました)」,・・・)というように管理される。また、音素系列では各構成音素が空白で区切られている。音素時刻系列5014では、各音素が音声ファイル中の絶対時刻で表現されていることから、例えば、「M O O S H I W A K E G O Z A I M A S E NN(申し訳ございません)」における先頭の音素「M」が発せられている時間は0.02秒(時刻2.13−時刻2.11)となることが分かる。音素時刻系列5014においても、各音素出現時刻は空白で区切られて管理されている。
音声区間系列テーブル502は、録音された通話を一意に識別・特定するための録音ID5021と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別5022と、音素系列テーブルで管理される各音素系列を含む音声区間系列の開始時刻を保持する音声開始時刻系列5023と、音素系列テーブル501で管理される各音素系列を含む音声区間系列の終了時刻を保持する音声終了時刻系列5024と、を構成項目として有している。当該テーブルからは、例えば、録音(通話)ID=1234の送信側(オペレータ)の音素系列「M O O SH I W A K E G O Z A I M A S E NN(申し訳ございません)」を含む音声区間が時刻2.11に開始し、時刻4.50に終了し、同録音IDの受信側(顧客)の音素系列「K O M A R U NN D E S U Y O N E(困るんですよね)」を含む音声区間が時刻0.05に開始し、時刻1.90に終了することが分かる。当該音声区間系列テーブル502を用いれば、録音通話を構成する各音素系列の出現順序を特定することができる。
感情スコア系列テーブル503は、録音された通話を一意に識別・特定するための録音ID5031と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別5032、各音素系列について算出された感情スコア値を保持する感情スコア系列5033と、音素系列テーブル501で管理される各音素系列の開始時刻を保持する音声開始時刻系列5034と、を構成項目として有している。
(iii)通話DB検索処理
図6は、音声検索システム1で実行される通話検索処理の詳細について説明するためのフローチャートである。
まず、キーワード問合せ部41は、利用者が入力したキーワードを取得する(ステップS601)。ここでキーワード問合せ部41は、利用者(スーパーバイザー)にキーワードの入力を促すために、図7のような検索画面701をディスプレイ210に表示してもよい。図7に示されるように、利用者は、ディスプレイ210上に表示される検索キーワード入力ボックス702をマウス211で選択し、キーボード209を用いて検索キーワードを入力する。最後に検索実行ボタン703をマウス211でクリックすると、通話検索装置3に対してキーワードを送信する。
次に、キーワード受付部36は、キーワードを受信する(ステップS602)。
また、キーワード検索部37は、受け付けたキーワードから通話検索DB35の音素系列テーブル501を検索する(ステップS603)。ここで、受け付けたキーワードは、例えば、公知の書記素音素変換技術を用いて音素系列に変換される。キーワードとして、例えば「申し訳ありません」を受け付けた場合、音素系列は「M O O SH I W A K E A R I M A S E NN」となる。そして、キーワード検索部37は、変換された音素系列が、音素系列テーブル501内の音素系列に部分系列として含まれる箇所を検索する。このとき編集距離が所定の値未満のものを検索するようにすれば、音素認識の誤りを許容する検索が可能となる。また、キーワード検索部37は、検索された音素系列の開始点と終了点にそれぞれ対応する時刻を音素時刻系列から求める。図8は、キーワード検索結果801の例を示している。キーワード検索結果801は、キーワード検索によって得られた結果のスコア順位を示す順位8011と、キーワード検索によって得られた結果のそれぞれのスコア値を示すスコア8012と、録音された通話を一意に識別・特定するための録音ID8013と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別8014と、当該キーワード検索結果を含む音素系列の開始時刻8015及び終了時刻8016と、を構成項目として含んでいる。なお、順位8011は、キーワード検索によって得られた結果をスコア順にソートすることによって決定される。ここで、スコアには編集距離を用いることができる。
続いて、頭出し位置決定部38は、キーワード検索結果801に対応して音声再生の開始時刻を決定する(ステップS604)。つまり、頭出し位置決定部38は、通話検索DB35を参照し、キーワード検索結果801の各レコードに対して録音IDが同一で種別が異なる音声区間系列テーブル502中の複数のレコード(キーワード検索結果の種別が「送信」であれば「受信」の音素系列、逆に「受信」であれば「送信」の音素系列)を頭出し候補として選択する。また、頭出し位置決定部38は、選択したレコードの音声開始時刻系列を参照し、キーワード検索結果801における開始時刻の直前の音声開始時刻を特定し、対応する音声終了時刻とともに、頭出し位置決定結果802とする。これにより、キーワード検索結果801の音声開始時刻に対して、直前の相手方通話の開始時刻に頭出しすることができる。こうして、「申し訳ありません」のような謝罪表現をキーワードとして検索する際に、謝罪を行う理由となる相手方の通話から聞き始めることができる。このようにして得られたのが、図8に示される頭出し位置決定結果802である。頭出し位置決定結果802は、キーワード検索結果の順位8011に対応する順位が記入される順位8021と、録音された通話を一意に識別・特定するための録音ID8022と、該当する頭出し位置の音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別8023と、キーワード検索結果801に基づいて求めた、頭出しすべき音素系列の開始時刻8024及び終了時刻8025と、を構成項目として含んでいる。
次に、優先順位決定部39は、頭出し位置決定結果802に対応する感情スコアを検索し、その結果に応じて検索結果を並べ替える(ステップS605)。つまり、優先順位決定部39は、通話検索DB35を参照し、頭出し位置検索結果802の各レコードに対して、録音ID8022と種別8023が同一の感情スコア系列テーブル503中のレコードを選択する。また、優先順位決定部39は、選択したレコードの音声開始時刻系列から、頭出し位置決定結果802における音声開始時刻と一致する箇所を検索し、対応する感情スコアを感情スコア列から取得する。さらに、優先順位決定部39は、検索結果を感情スコアに基づいて並べ換える。このようにすると、「申し訳ありません」のような謝罪表現をキーワードとして検索する際に、編集距離に基づいて並べ替えを行っていた場合は、単純にキーワードの確からしさしか考慮されなかったが、直前の相手方発話の怒りの程度に応じた並べ替えが可能となり、問題(クレーム)の大きさに基づいた並べ替えが可能となる。以上のようにして得られたのが、図8に示される優先順位決定結果803である。優先順位決定結果803は、キーワード検索結果の順位8011に対応する順位が記入される順位8031と、録音された通話を一意に識別・特定するための録音ID8032と、該当する頭出し位置の音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別8033と、頭出しすべき音素系列の感情スコア値を示すスコア8034と、キーワード検索結果801に基づいて求めた、頭出しすべき音素系列の開始時刻8035及び終了時刻8036と、を構成項目として含んでいる。
検索結果送信部40は、優先順位決定結果803を通話検索端末装置4に送信する(ステップS606)。
最後に、検索結果表示部42は、受信した優先順位決定結果803に基づいて、検索結果をディスプレイ210に表示する(ステップS607)。検索結果表示画面例については図9を参照して後述する。
<検索結果表示画面の構成例>
図9は、検索結果表示画面901の基本的構成例を示す図である。
検索結果表示部42は、通話録音DB23への問合せによりオペレータ・電話番号・録音日時を検索した結果を同時に検索結果表示画面901表示する。図9に示されるように、検索結果は、優先順位決定結果803に基づいて順番に表示される。
例えば利用者(スーパーバイザー)が頭出しキーワードボタン902をマウス211でクリックすると、通話検索装置3の通話録音取得部31は、通話録音DB23へ問合せを行うことにより通話録音を取得し、優先順位決定結果803に基づく開始時刻から再生する。これにより、利用者は、キーワード検索の結果、問題(クレーム)のあった箇所に遡って音声(この場合、キーワードを含むチャンネルの音声(オペレータの音声)に対応する別のチャンネルの音声(顧客の音声))を頭から聞くことができる。また、問題(クレーム)の大きさに応じて優先度を決めて並べ換えているため、効率的に問題の把握が可能となる。
<変形例>
上述の実施形態では、頭出し位置を、キーワード検索によって特定された音声区間系列(例えば、オペレータの音声区間)の直前の相手方(例えば、顧客)の音声区間系列の開始時刻にしているが、利用者が複数の頭出し位置候補から選択できるようにしても良い。
ここでは、感情スコアを利用して頭出し位置を決定する例(変形例)について説明する。頭出し位置決定部38は、通話検索DB35を参照し、キーワード検索結果801の各レコードに対して録音IDが同一で種別が異なる音声区間系列テーブル502中のレコードを選択する。
また、頭出し位置決定部38は、選択したレコードの音声開始時刻系列を参照し、キーワード検索結果801における開始時刻の前の音声開始時刻を複数件(例えば3件)抽出し、頭出し位置候補として選択する。
次に、頭出し位置決定部38は、録音IDと種別が同一の感情スコア系列テーブル503中のレコードを選択する。
続いて、頭出し位置決定部38は、選択したレコードの音声開始時刻系列から、頭出し位置候補の音声開始時刻と一致する箇所を検索し、対応する感情スコアを感情スコア列から検索する。その結果得られる複数件の感情スコアから最大のものを選択し、対応する音声開始時刻を頭出し位置決定結果802とする。このようにすると、謝罪を行う理由となる相手方の通話において、直前に怒り感情が大きくなった発話までさかのぼることができる。なお、感情スコアから最大のものを選択するだけでなく、キーワード検索結果801の音声開始時刻と頭出し位置候補の音声開始時刻の差を考慮して計算してもよい。このようにすることにより、できるだけキーワードに近い範囲で怒り感情が大きくなった発話までさかのぼることができる。
以上のような利用者による頭出し位置の選択を可能にするための検索結果表示画面1001の構成例を図10に示す。
検索結果表示画面1001は、少なくとも1つの検索結果のそれぞれについて、頭出しキーワードボタン1002と、当該先頭頭出しボタン1003と、相手方先頭頭出しボタン1004と、相手方後方頭出しボタン1005と、を頭出し位置選択用のボタンとして有している。頭出しキーワードボタン1002は、キーワード検索によって特定された音素系列の先頭音素の開始時刻を頭出し位置とするためのボタンである。当該先頭頭出しボタン1003は、キーワード検索によって特定された音声区間系列の開始時刻を頭出し位置とするためのボタンである。相手方先頭頭出しボタン1004は、図9の頭出しキーワードボタン902と同様に、キーワード検索によって特定された音声区間系列(例えば、オペレータの音声区間)の直前の相手方(例えば、顧客)の音声区間系列の開始時刻を頭出し位置とするためのボタンである。相手方後方頭出しボタン1005は、キーワード検索によって特定された音声区間系列(例えば、オペレータの音声区間)の直後の相手方(例えば、顧客)の音声区間系列の開始時刻を頭出し位置とするためのボタンである。
<まとめ>
(1)本発明の実施形態では、通話検索装置は、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースから、検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得する。また、通話検索装置は、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定し、この頭出し位置を音声検索結果として出力する。このように、キーワード検索結果に対し、問題位置に遡って頭出しすることで、利用者は、問題通話の内容を効率的に確認できるようになる。なお、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の頭出しを行う以外に、キーワード検索結果として取得した音声区間系列そのものの開始位置を頭出し位置としても良いし、その直後の別チャンネルの音声区間系列の開始位置を頭出し位置としても良い。また、これら複数の頭出し位置を利用者が選択できるようにしても良い。
さらに、本実施形態では、通話検索データベースが、音声区間系列のそれぞれの非言語情報スコア(感情スコア:問題の大きさに相当)を記憶し、非言語情報スコア(感情スコア)に基づいて、頭出し位置が決定された音声検索結果の優先順位を決定するようにしても良い。検索結果表示画面(GUI)では、複数の音声検索結果がこの優先順位順に表示される。このように、キーワード検索結果を問題の大きさに応じて並べ替えるようにしているので、問題通話を効率的に発見できるようになる。
(2)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
また、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施例では、コールセンタにおける通話録音装置と連携した問題発話検索システムを想定したが、例えば、多拠点ビデオ会議における議事録検索システムや、放送録画における番組検索システムなど、様々なシステムに適用することが出来る。
1・・・音声検索システム、2・・・通話録音装置、3・・・通話検索装置、4・・・通話検索端末装置、205−1〜205−3・・・CPU、206−1〜206−3・・・メモリ、207−1〜207−3・・・HDD、208−1〜208−3・・・通信部、209・・・キーボード、210・・・ディスプレイ、211・・・マウス、212・・・スピーカ

Claims (11)

  1. 複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースと、
    入力された検索用キーワードに基づいて前記通話検索データベースを検索し、前記検索用キーワードを含む音声区間系列を取得するプロセッサと、を有し、
    前記プロセッサは、
    前記複数の録音通話音声データのうち、前記検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得し、
    前記キーワード検索結果における出現時刻に基づいて、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定し、
    前記頭出し位置を音声検索結果として出力する、
    ことを特徴とする音声検索システム。
  2. 請求項1において、
    前記通話検索データベースは、さらに、前記音声区間系列のそれぞれの非言語情報スコアを記憶し、
    前記プロセッサは、前記非言語情報スコアに基づいて、前記頭出し位置が決定された前記音声検索結果の優先順位を決定することを特徴とする音声検索システム。
  3. 請求項2において、
    前記プロセッサは、前記音声検索結果を前記優先順位順に並べて利用者に提示するための検索結果表示画面を生成し、表示デバイスに表示することを特徴とする音声検索システム。
  4. 請求項3において、
    前記プロセッサは、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻の他に、前記キーワード検索結果として取得した音声区間系列及び前記キーワード検索結果として取得した音声区間系列の直後の別のチャンネルの音声区間系列の開始時刻を音声再生の頭出し位置として選択可能とするように前記検索結果表示画面を生成し、前記表示デバイスに表示することを特徴とする音声検索システム。
  5. 請求項2において、
    前記非言語情報スコアは前記音声区間系列中の感情を判定して得られる感情スコアであり、当該感情スコアは前記音声区間系列の開始時刻と関連付けられていることを特徴とする音声検索システム。
  6. 入力された検索用キーワードに基づいて通話検索データベースを検索し、前記検索用キーワードを含む音声区間系列を取得する音声検索方法であって、
    前記通話検索データベースは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶しており、
    プロセッサが、前記複数の録音通話音声データのうち、前記検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得するステップと、
    前記プロセッサが、前記キーワード検索結果における出現時刻に基づいて、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定するステップと、
    前記プロセッサが、前記頭出し位置を音声検索結果として出力するステップと、
    を有することを特徴とする音声検索方法。
  7. 請求項6において、
    前記通話検索データベースは、さらに、前記音声区間系列のそれぞれの非言語情報スコアを記憶し、
    さらに、前記プロセッサが、前記非言語情報スコアに基づいて、前記頭出し位置が決定された前記音声検索結果の優先順位を決定するステップを有することを特徴とする音声検索方法。
  8. 請求項7において、
    さらに、前記プロセッサが、前記音声検索結果を前記優先順位順に並べて利用者に提示するための検索結果表示画面を生成し、表示デバイスに表示するステップを有することを特徴とする音声検索方法。
  9. 請求項8において、
    前記表示するステップにおいて、前記プロセッサは、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻の他に、前記キーワード検索結果として取得した音声区間系列及び前記キーワード検索結果として取得した音声区間系列の直後の別のチャンネルの音声区間系列の開始時刻を音声再生の頭出し位置として選択可能とするように前記検索結果表示画面を生成し、前記表示デバイスに表示することを特徴とする音声検索方法。
  10. 請求項7において、
    前記非言語情報スコアは前記音声区間系列中の感情を判定して得られる感情スコアであり、当該感情スコアは前記音声区間系列の開始時刻と関連付けられていることを特徴とする音声検索方法。
  11. コンピュータに請求項6に記載の音声検索方法を実行させるためのプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
JP2015536346A 2013-09-11 2013-09-11 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 Active JP6074050B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/074495 WO2015037073A1 (ja) 2013-09-11 2013-09-11 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP6074050B2 true JP6074050B2 (ja) 2017-02-01
JPWO2015037073A1 JPWO2015037073A1 (ja) 2017-03-02

Family

ID=52665215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015536346A Active JP6074050B2 (ja) 2013-09-11 2013-09-11 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
US (1) US10489451B2 (ja)
JP (1) JP6074050B2 (ja)
WO (1) WO2015037073A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
EP3254454B1 (en) * 2015-02-03 2020-12-30 Dolby Laboratories Licensing Corporation Conference searching and playback of search results
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
WO2021030578A1 (en) * 2019-08-14 2021-02-18 Sundel Michael B Cloud-based system and method to track and manage objects
US20230267391A1 (en) * 2016-04-19 2023-08-24 Worldpak Inc. Cloud-based system and method to track and manage objects
WO2018174397A1 (ko) 2017-03-20 2018-09-27 삼성전자 주식회사 전자 장치 및 제어 방법
US10389879B2 (en) 2017-05-19 2019-08-20 Avaya Inc. Real-time speech feed to agent greeting
JP7103769B2 (ja) 2017-09-05 2022-07-20 京セラ株式会社 電子機器、携帯端末、コミュニケーションシステム、見守り方法、およびプログラム
CN107622766B (zh) * 2017-09-28 2021-01-05 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置
US11399096B2 (en) 2017-11-29 2022-07-26 Afiniti, Ltd. Techniques for data matching in a contact center system
US20200401794A1 (en) 2018-02-16 2020-12-24 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP7001126B2 (ja) * 2020-06-17 2022-01-19 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
US11954443B1 (en) 2021-06-03 2024-04-09 Wells Fargo Bank, N.A. Complaint prioritization using deep learning model
US11704319B1 (en) * 2021-10-14 2023-07-18 Tableau Software, LLC Table calculations for visual analytics using concise level of detail semantics
US11770268B2 (en) * 2022-02-14 2023-09-26 Intel Corporation Enhanced notifications for online collaboration applications

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022556A (ja) * 1999-07-08 2001-01-26 Fuji Xerox Co Ltd 対話記録装置および記録媒体
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
JP2009170953A (ja) * 2008-01-10 2009-07-30 Oki Electric Ind Co Ltd コールセンタ装置
JP2010041286A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 話者判別プログラム、話者判別装置、および話者判別方法
JP2010055259A (ja) * 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc 画像処理装置、画像処理プログラム及び画像処理方法
JP2011102862A (ja) * 2009-11-10 2011-05-26 Advanced Media Inc 音声認識結果管理装置および音声認識結果表示方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
JP4567606B2 (ja) 2006-01-05 2010-10-20 富士通株式会社 音声データの聞き出し部分特定処理プログラムおよび処理装置
JP2011082839A (ja) 2009-10-08 2011-04-21 Mitsubishi Electric Building Techno Service Co Ltd コールセンタシステム
US8964946B1 (en) * 2012-09-27 2015-02-24 West Corporation Identifying recorded call data segments of interest
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US9596349B1 (en) * 2015-06-29 2017-03-14 State Farm Mutual Automobile Insurance Company Voice and speech recognition for call center feedback and quality assurance

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022556A (ja) * 1999-07-08 2001-01-26 Fuji Xerox Co Ltd 対話記録装置および記録媒体
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
JP2009170953A (ja) * 2008-01-10 2009-07-30 Oki Electric Ind Co Ltd コールセンタ装置
JP2010041286A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 話者判別プログラム、話者判別装置、および話者判別方法
JP2010055259A (ja) * 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc 画像処理装置、画像処理プログラム及び画像処理方法
JP2011102862A (ja) * 2009-11-10 2011-05-26 Advanced Media Inc 音声認識結果管理装置および音声認識結果表示方法

Also Published As

Publication number Publication date
JPWO2015037073A1 (ja) 2017-03-02
US10489451B2 (en) 2019-11-26
US20160171100A1 (en) 2016-06-16
WO2015037073A1 (ja) 2015-03-19

Similar Documents

Publication Publication Date Title
JP6074050B2 (ja) 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US8972261B2 (en) Computer-implemented system and method for voice transcription error reduction
US8050923B2 (en) Automated utterance search
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
US20150046164A1 (en) Method, apparatus, and recording medium for text-to-speech conversion
US20150310877A1 (en) Conversation analysis device and conversation analysis method
TW201214413A (en) Modification of speech quality in conversations over voice channels
US20210232776A1 (en) Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor
JP6430137B2 (ja) 音声書起支援システム、サーバ、装置、方法及びプログラム
JP2013195823A (ja) 対話支援装置、対話支援方法および対話支援プログラム
GB2516942A (en) Text to Speech Conversion
US20210193148A1 (en) Transcript correction through programmatic comparison of independently generated transcripts
US20220093103A1 (en) Method, system, and computer-readable recording medium for managing text transcript and memo for audio file
WO2018135303A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20080316888A1 (en) Device Method and System for Communication Session Storage
JP6254504B2 (ja) 検索サーバ、及び検索方法
JPH0749695A (ja) 時系列データ記録再生装置
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2020188622A1 (ja) 編集支援プログラム、編集支援方法、及び編集支援装置
US11632345B1 (en) Message management for communal account
WO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP6389348B1 (ja) 音声データ最適化システム
JP6386690B1 (ja) 音声データ最適化システム
CN113936664A (zh) 声纹注册方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170105

R151 Written notification of patent or utility model registration

Ref document number: 6074050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151