JP4747573B2

JP4747573B2 - 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム

Info

Publication number: JP4747573B2
Application number: JP2004371605A
Authority: JP
Inventors: 香一郎畑崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-12-22
Filing date: 2004-12-22
Publication date: 2011-08-17
Anticipated expiration: 2024-12-22
Also published as: JP2006178203A

Description

本発明は、音声情報を加工する音声情報加工システム、音声情報加工方法及び音声情報加工プログラムに関し、特に顧客の個人情報等の秘密情報の漏洩を防止できる音声情報加工システム、音声情報加工方法及び音声情報加工プログラムに関する。また、本発明は、音声情報加工システムを用いた情報処理システム及び音声情報蓄積方法に関する。

コールセンタやコンタクトセンタで受け付けた顧客からの問い合わせ内容には、顧客の要望や苦情等の情報が含まれ、商品やサービスを改善したり顧客満足度を向上させたりするためのヒントとなる多種多様の有用な情報が含まれている。そのため、コールセンタやコンタクトセンタへの顧客からの問い合わせ内容の会話を、音声データや、音声内容を書き起こしたテキストデータの形でデータベース化し、関係部署でデータベースを共有できるようにすることが考えられる。問い合わせ内容をデータベース化し業務や顧客対応の改善を支援できるシステムとして、例えば、非特許文献１には、顧客とオペレータとの通話の音声を記録する通話録音システムが記載されている。

Agent Stage 、［online］、西日本電信電話株式会社、［平成１６年９月２７日検索］、インターネット＜ URL : http://www.ntt-west.co.jp/kiki/business/crm/agentstage/detail_3.html ＞

非特許文献１に記載された通話録音システムによれば、顧客とオペレータとの通話の音声を記録してデータベース化することができる。しかし、顧客とオペレータとの会話内容には顧客の個人情報等の秘密情報が含まれていることが多い。そのため、顧客とオペレータとの会話の音声や、顧客とオペレータとの会話音声の内容を書き起こしたテキストが関係部門でそのまま共有されると、顧客の秘密情報が漏洩してしまう可能性がある。

そこで、本発明は、会話の音声を記録する場合に顧客の個人情報等の秘密情報の漏洩を防止することができる音声情報加工システム、情報処理システム、音声情報加工方法、音声情報蓄積方法及び音声情報加工プログラムを提供することを目的とする。

本発明による音声情報加工システムは、処理対象の音声データを入力し、入力した処理対象の音声データを音声認識してテキストデータに変換する音声認識手段（例えば、音声認識装置３０１によって実現される）と、音声認識手段が変換したテキストデータ中の文字列位置と処理対象の音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する対応テーブル生成手段と、テキストに含まれる秘密情報の箇所を特定するための秘密箇所特定情報（例えば、所定のキーワードや出現パターン情報）を記憶する特定情報記憶手段（例えば、キーワード記憶装置３０２によって実現される）と、特定情報記憶手段が記憶する秘密箇所特定情報、及び音声認識手段が変換したテキストデータに基づいて、処理対象の音声データに含まれる秘密情報の出現位置を検出する検出手段（例えば、検出装置３０３によって実現される）と、検出手段が検出した処理対象の音声データ中の秘密情報の箇所の先頭部分に対応する時間を時間対応テーブルから開始時間として抽出するとともに、検出手段が検出した処理対象の音声データ中の秘密情報の箇所の末尾部分に対応する時間を時間対応テーブルから終了時間として抽出する時間抽出手段と、処理対象の音声データ中の開始時間から終了時間までの音声を加工する音声加工手段（例えば、置換装置３０４によって実現される）と、音声加工手段による加工後の音声データを記憶する音声データ記憶手段とを備えたことを特徴とする。

また、特定情報記憶手段は、秘密箇所特定情報として、所定のキーワード（例えば、顧客名や顧客住所、顧客の電話番号）又はテキスト中におけるキーワードの出現パターン（例えば、顧客名や顧客住所、顧客の電話番号の出現パターン）を示す出現パターン情報を記憶し、検出手段は、特定情報記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、音声認識手段が変換したテキストデータに含まれるか否かを判断することによって、処理対象の音声データに含まれる秘密情報の出現位置を検出するものであってもよい。そのような構成によれば、テキスト中に顧客名や顧客住所、顧客の電話番号等の秘密情報が出現したか否かを容易に判定することができる。

また、検出手段は、処理対象の音声データに含まれる秘密情報の出現位置を検出すると、検出した秘密情報の箇所の位置を示す秘密箇所位置情報を生成し、音声加工手段は、検出手段が生成した秘密箇所位置情報に基づいて、処理対象の音声データに含まれる秘密情報の箇所を特定し、特定した秘密情報の箇所の音声を加工するものであってもよい。そのような構成によれば、秘密箇所位置情報に基づいて、音声データ中の秘密情報の箇所を容易に特定することができる。

また、音声情報加工システムは、検出手段は、秘密箇所位置情報として、検出した秘密情報の文字列のテキスト中での位置を示す位置情報（例えば、テキスト中の行や列）を生成し、音声加工手段は、対応テーブル生成手段が生成した時間対応テーブルに基づいて、検出手段が生成した秘密箇所位置情報に示される秘密情報の位置を対応する時間に変換することによって、処理対象の音声データにおける秘密情報の箇所を特定するものであってもよい。そのような構成によれば、秘密情報の箇所の開始時間と終了時間とを特定し、特定した開始時間から終了時間までの音声を加工することによって、音声データ中の秘密情報の箇所を容易に加工することができる。

また、音声情報加工システムは、検出手段は、秘密箇所位置情報として、対応テーブル生成手段が生成した時間対応テーブルに基づいて、検出した秘密情報の位置を対応する時間に変換した時間情報を生成するものであってもよい。そのような構成によれば、秘密情報の箇所の開始時間と終了時間とを特定し、特定した開始時間から終了時間までの音声を加工することによって、音声データ中の秘密情報の箇所を容易に加工することができる。

また、音声加工手段は、検出手段の検出結果に基づいて、処理対象の音声データ中の秘密情報の出現位置に対応する部分の音声を削除又は別の音声に置換するものであってもよい。そのような構成によれば、秘密情報の箇所の音声を削除又は別の音声に置換することによって、音声データ中の秘密情報を秘匿することができる。

また、音声情報加工システムは、顧客とオペレータとの会話の音声を含む音声データを入力し、入力した音声データを音声認識してテキストデータに変換する音声認識手段と、音声認識手段が変換したテキストデータ中の文字列位置と音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する対応テーブル生成手段と、所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するキーワード記憶手段（例えば、キーワード記憶装置３０２によって実現される）と、音声認識手段の音声認識結果に基づいて、キーワード記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、音声データ中に出現する出現位置を検出する検出手段と、検出手段が検出した音声データ中の出現位置の箇所の先頭部分に対応する時間を時間対応テーブルから開始時間として抽出するとともに、検出手段が検出した音声データ中の出現位置の箇所の末尾部分に対応する時間を時間対応テーブルから終了時間として抽出する時間抽出手段と、音声データ中の開始時間から終了時間までの音声を削除又は別の音声に置換する置換手段（例えば、置換装置３０４によって実現される）と、置換手段による削除又は置換後の音声データを記憶する音声データ記憶手段とを備えたものであってもよい。

また、音声情報加工システムは、顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する範囲指定手段（例えば、位置指定装置３０６によって実現される）を備え、音声認識手段は、入力した音声データのうち、範囲指定手段が指定した範囲の音声を音声認識するものであってもよい。そのような構成によれば、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。従って、音声を検索し再生したときであっても秘密情報を秘匿することができ、秘密情報の漏洩をより高精度に防止することができる。

また、範囲指定手段は、オペレータと顧客との通話中に、ユーザ（例えば、オペレータ等の操作者）の操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定するものであってもよい。そのような構成によれば、オペレータが顧客との会話中に顧客の個人情報等の秘密情報が出現したことを指示することによって、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。

また、音声認識手段は、顧客とオペレータとの通話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識するものであってもよい。

また、音声情報加工システムは、顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録する書起テキスト記録手段（例えば、書起テキスト記録装置２０４によって実現される）と、書き起こしテキスト中の検出手段が検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するテキスト置換手段（例えば、テキスト置換装置３０５によって実現される）とを備えたものであってもよい。そのような構成によれば、書き起こしテキストを検索した場合であっても、秘密情報の漏洩を防止することができる。

本発明による情報処理システムは、音声データを加工し、加工した音声データを処理する情報処理システム（例えば、コールセンタシステム）であって、音声データを加工する音声情報加工システムを備え、音声情報加工システムは、処理対象の音声データを入力し、入力した音声データを音声認識してテキストデータに変換する音声認識手段と、音声認識手段が変換したテキストデータ中の文字列位置と音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する対応テーブル生成手段と、所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するキーワード記憶手段と、音声認識手段の音声認識結果に基づいて、キーワード記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、音声データ中に出現する出現位置を検出する検出手段と、検出手段が検出した音声データ中の出現位置の箇所の先頭部分に対応する時間を時間対応テーブルから開始時間として抽出するとともに、検出手段が検出した音声データ中の出現位置の箇所の末尾部分に対応する時間を時間対応テーブルから終了時間として抽出する時間抽出手段と、音声データ中の開始時間から終了時間までの音声を削除又は別の音声に置換する置換手段と、置換手段による削除又は置換後の音声データを記憶する音声データ記憶手段とを含むことを特徴とする。

また、情報処理システムは、オペレータ端末と、顧客端末とオペレータ端末との通信回線を接続する回線接続手段（例えば、回線接続装置１０３によって実現される）と、顧客とオペレータとの通話の音声を録音する通話録音手段（例えば、通話録音装置２０２によって実現される）と、通話録音手段が記録する音声データを検索し、音声データを再生する検索手段（例えば、検索端末２０３によって実現される）とを備え、通話録音手段は、置換手段の指示に従って、記録する音声データを加工後の音声データに更新し、検索手段は、通話録音装置が記録する加工後の音声データを抽出し、抽出した音声データに基づいて加工後の音声を再生するものであってもよい。そのような構成によれば、検索手段から通話録音手段が記録する音声データを検索し再生した場合であっても、秘密情報の漏洩を防止することができる。

また、情報処理システムにおいて、音声情報加工システムは、顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する範囲指定手段を含み、音声認識手段は、入力した音声データのうち、範囲指定手段が指定した範囲の音声を音声認識するものであってもよい。そのような構成によれば、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。従って、音声を検索し再生したときであっても秘密情報を秘匿することができ、秘密情報の漏洩をより高精度に防止することができる。

また、情報処理システムにおいて、範囲指定手段は、オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定するものであってもよい。そのような構成によれば、オペレータが顧客との会話中に顧客の個人情報等の秘密情報が出現したことを指示することによって、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。

また、情報処理システムにおいて、音声認識手段は、顧客とオペレータとの通話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識するものであってもよい。

また、情報処理システムにおいて、音声情報加工システムは、顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録する書起テキスト記録手段と、書き起こしテキスト中の検出手段が検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するテキスト置換手段とを含むものであってもよい。そのような構成によれば、検索手段から書き起こしテキストを検索した場合であっても、秘密情報の漏洩を防止することができる。

本発明による音声情報加工方法は、顧客とオペレータとの会話の音声を含む音声データを入力し、入力した音声データを音声認識してテキストデータに変換するステップと、変換したテキストデータ中の文字列位置と音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成するステップと、所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するステップと、音声認識結果に基づいて、記憶したキーワード又は出現パターン情報に示される出現パターンが、音声データ中に出現する出現位置を検出するステップと、検出した音声データ中の出現位置の箇所の先頭部分に対応する時間を時間対応テーブルから開始時間として抽出するとともに、検出した音声データ中の出現位置の箇所の末尾部分に対応する時間を時間対応テーブルから終了時間として抽出するステップと、音声データ中の開始時間から終了時間までの音声を削除又は別の音声に置換するステップと、削除又は置換後の音声データを音声データ記憶手段に記憶させるステップとを含むことを特徴とする。

また、音声情報加工方法は、顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定するステップと、入力した音声データのうち、指定した範囲の音声を音声認識するステップとを含むものであってもよい。そのような構成によれば、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。従って、音声を検索し再生したときであっても秘密情報を秘匿することができ、秘密情報の漏洩をより高精度に防止することができる。

また、音声情報加工方法は、オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定するものであってもよい。そのような構成によれば、オペレータが顧客との会話中に顧客の個人情報等の秘密情報が出現したことを指示することによって、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。

また、音声情報加工方法は、顧客とオペレータとの会話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識するものであってもよい。

また、音声情報加工方法は、顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録するステップと、書き起こしテキスト中の検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するステップとを含むものであってもよい。そのような構成によれば、書き起こしテキストを検索した場合であっても、秘密情報の漏洩を防止することができる。

本発明による音声情報蓄積方法は、音声データを加工し、加工した音声データを蓄積する音声情報蓄積方法であって、処理対象の音声データを入力し、入力した音声データを音声認識してテキストデータに変換するステップと、変換したテキストデータ中の文字列位置と音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成するステップと、所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するステップと、音声認識結果に基づいて、記憶したキーワード又は出現パターン情報に示される出現パターンが、音声データ中に出現する出現位置を検出するステップと、検出した音声データ中の出現位置の箇所の先頭部分に対応する時間を時間対応テーブルから開始時間として抽出するとともに、検出した音声データ中の出現位置の箇所の末尾部分に対応する時間を時間対応テーブルから終了時間として抽出するステップと、音声データ中の開始時間から終了時間までの音声を削除又は別の音声に置換するステップと、削除又は置換後の音声データを音声データ記憶手段に記憶させるステップとを含むことを特徴とする。

また、音声情報蓄積方法は、蓄積する音声データを検索し、加工後の音声データを抽出するステップと、抽出した音声データに基づいて、加工後の音声を再生するステップとを含むものであってもよい。そのような構成によれば、記録する音声データを検索し再生した場合であっても、秘密情報の漏洩を防止することができる。

また、音声情報蓄積方法は、顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定するステップと、入力した音声データのうち、指定した範囲の音声を認識するステップとを含むものであってもよい。そのような構成によれば、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。従って、音声を検索し再生したときであっても秘密情報を秘匿することができ、秘密情報の漏洩をより高精度に防止することができる。

また、音声情報蓄積方法は、オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定するものであってもよい。そのような構成によれば、オペレータが顧客との会話中に顧客の個人情報等の秘密情報が出現したことを指示することによって、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。

また、音声情報蓄積方法は、顧客とオペレータとの通話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識するものであってもよい。

また、音声情報蓄積方法は、顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録するステップと、書き起こしテキスト中の検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するステップとを含むものであってもよい。そのような構成によれば、書き起こしテキストを検索した場合であっても、秘密情報の漏洩を防止することができる。

本発明による音声情報加工プログラムは、所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶する記憶手段（例えば、キーワード記憶装置３０２によって実現される）を備えたコンピュータに、顧客とオペレータとの会話の音声を含む音声データを入力し、入力した音声データを音声認識してテキストデータに変換する処理と、変換したテキストデータ中の文字列位置と音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する処理と、音声認識結果に基づいて、記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、音声データ中に出現する出現位置を検出する処理と、検出した音声データ中の出現位置の箇所の先頭部分に対応する時間を時間対応テーブルから開始時間として抽出するとともに、検出した音声データ中の出現位置の箇所の末尾部分に対応する時間を時間対応テーブルから終了時間として抽出する処理と、音声データ中の開始時間から終了時間までの音声を削除又は別の音声に置換する処理と、削除又は置換後の音声データを音声データ記憶手段に記憶させる処理とを実行させるためのものである。

また、音声情報加工プログラムは、コンピュータに、顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する処理と、入力した音声データのうち、指定した範囲の音声を音声認識する処理とを実行させるものであってもよい。そのような構成によれば、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。従って、音声を検索し再生したときであっても秘密情報を秘匿することができ、秘密情報の漏洩をより高精度に防止することができる。

また、音声情報加工プログラムは、コンピュータに、オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定する処理、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定する処理を実行させるものであってもよい。そのような構成によれば、オペレータが顧客との会話中に顧客の個人情報等の秘密情報が出現したことを指示することによって、音声データ中の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。

また、音声情報加工プログラムは、コンピュータに、顧客とオペレータとの会話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識する処理、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識する処理を実行させるものであってもよい。

また、音声情報加工プログラムは、コンピュータに、顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録する処理と、書き起こしテキスト中の検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換する処理とを実行させるものであってもよい。そのような構成によれば、書き起こしテキストを検索した場合であっても、秘密情報の漏洩を防止することができる。

本発明によれば、処理対象の音声データ中の秘密情報に該当する箇所を特定する。そして、特定した秘密情報に該当する部分の音声を加工する。処理対象の音声データの秘密情報の箇所を自動的に加工できるので、会話音声を記録する場合に、顧客の個人情報等の秘密情報の漏洩を防止することができる。

実施の形態１．
以下、本発明の第１の形態を図面を参照して説明する。図１は、本発明による音声情報加工システムを適用したシステムの構成の一例を示すブロック図である。音声情報加工システムは、例えば、音声情報を関係部門で共有するための情報共有システムや、音声情報を蓄積する音声情報蓄積システム等の各種情報処理システムに適用される。本実施の形態では、一例として、顧客からの電話を受け付け顧客とオペレータとの通話の音声を記録し蓄積するコールセンタシステムに、音声情報加工システムを適用する場合を説明する。なお、音声情報加工システムは、コールセンタシステムに限らず、例えば、顧客からの電話やファクシミリ、電子メール等を受け付けるコンタクトセンタシステムに適用することも可能である。

図１に示すように、コールセンタシステムは、回線接続装置１０３、オペレータ端末２０１、通話録音装置２０２、検索端末２０３及び音声情報加工システム３００を含む。また、音声情報加工システム３００は、音声認識装置３０１、キーワード記憶装置３０２、位置検出装置３０３及び置換装置３０４を含む。また、コールセンタシステムは、図１に示すように、顧客端末１０１とネットワーク１０２を介して接続される。

顧客端末１０１は、顧客が使用する端末であり、具体的には、電話機や携帯電話機等の端末である。顧客端末１０１は、送話部から顧客の音声を入力し、音声データを電話網等のネットワーク１０２を介してコールセンタシステムに送信する機能を備える。また、顧客端末１０１は、コールセンタシステムからネットワーク１０２を介して音声データを受信し、音声を受話部から出力する機能を備える。

なお、顧客端末１０１は、電話機や携帯電話機に限らず、例えば、ＩＰ電話サービスを利用する場合、ＩＰ電話機やパーソナルコンピュータ等の端末であってもよい。この場合、顧客端末１０１は、例えば、インターネット等のネットワーク１０２を介して、音声データを送受信する。また、図１では、１つの顧客端末１０１を示しているが、コールセンタシステムは、複数の顧客端末１０１とネットワーク１０２を介して接続される。

回線接続装置１０３は、顧客からの電話の受付業務を行うコールセンタに設置され、具体的には、構内交換機（ＰＢＸ）等の装置である。また、例えば、ＩＰ電話サービスを利用する場合、回線接続装置１０３は、ＶｏＩＰに対応したルータやＩＰ−ＰＢＸ等の装置であってもよい。

回線接続装置１０３は、ネットワーク１０２を介して顧客端末１０１からの着信を受けると、顧客端末１０１とコールセンタシステムのいずれかのオペレータ端末２０１との回線を接続する機能を備える。また、回線接続装置１０３は、顧客端末１０１からネットワーク１０２を介して音声データ（顧客の音声）を受信し、受信した音声データをオペレータ端末２０１に出力する機能を備える。また、回線接続装置１０３は、オペレータ端末２０１から入力した音声データ（オペレータの音声）を、ネットワーク１０２を介して顧客端末１０１に送信する機能を備える。

また、回線接続装置１０３は、顧客とオペレータとの通話の音声を通話録音装置２０２に出力する機能を備える。この場合、回線接続装置１０３は、例えば、通話の音声データとともに、顧客とオペレータとの通話時刻や、顧客を識別するためのユーザＩＤ、オペレータを識別するためのオペレータＩＤを通話録音装置２０２に出力する。

オペレータ端末２０１は、コールセンタのオペレータが使用する端末であり、具体的には、電話機等の端末である。また、オペレータ端末２０１は、電話機に限らず、例えば、ＩＰ電話サービスを利用する場合、ＩＰ電話機やパーソナルコンピュータ等の端末であってもよい。また、図１では、１つのオペレータ端末２０１を示しているが、コールセンタシステムは、複数のオペレータ端末２０１を含む。

オペレータ端末２０１は、オペレータが顧客と会話するためのマイクロフォンとスピーカとを備える。例えば、オペレータ端末２０１は、マイクロフォンとスピーカとを有するヘッドセット等を備える。オペレータ端末２０１は、回線接続装置１０３から入力した音声データに基づいて、スピーカから音声を出力する機能を備える。また、オペレータ端末２０１は、マイクロフォンから音声を入力し、入力した音声データを回線接続装置１０３に出力する機能を備える。

通話録音装置２０２は、顧客とオペレータとの通話の音声データを蓄積するデータベースを備える。通話録音装置２０２は、回線接続装置１０３から顧客とオペレータとの通話の会話内容の音声データを入力し、入力した音声データをデータベースに蓄積する機能を備える。この場合、通話録音装置２０２は、例えば、音声データとともに、顧客とオペレータとの通話時刻や顧客のユーザＩＤ、オペレータＩＤを回線接続装置１０３から入力する。そして、通話録音装置２０２は、音声データに、通話時刻、ユーザＩＤ及びオペレータＩＤを対応付けてデータベースに蓄積する。

また、通話録音装置２０２は、検索端末２０３からの要求に従ってデータベースから音声データを抽出し、検索端末２０３に出力する機能を備える。この場合、通話録音装置２０２は、検索端末２０３から所定の検索条件を入力し、入力した検索条件に合致する音声データをデータベースから抽出する。例えば、通話録音装置２０２は、検索条件として通話時刻やユーザＩＤ、オペレータＩＤを入力し、入力した検索条件に対応する音声データをデータベースから抽出する。

なお、ＩＰ電話サービスを利用する場合、通話録音装置２０２は、例えば、データベースを備えたワークステーションやパーソナルコンピュータ等の情報処理装置であってもよい。この場合、例えば、コールセンタシステムにおいて、回線接続装置１０３、オペレータ端末２０１、通話録音装置２０２及び検索端末２０３が、ＬＡＮ等の社内ネットワークを介して接続されていてもよい。そして、通話録音装置２０２は、顧客とオペレータとの通話の音声データをＬＡＮを介してオペレータ端末２０１や回線接続装置１０３から受信し、受信した音声データをデータベースに蓄積するようにしてもよい。

検索端末２０３は、具体的には、パーソナルコンピュータ等の情報処理端末である。検索装置２０３は、与えられた所定の検索条件に従って、通話録音装置２０２が蓄積する音声データを検索し抽出する機能を備える。この場合、例えば、検索端末２０３は、オペレータの入力操作に従って、所定の検索条件を入力する。また、検索端末２０３は、入力した検索条件を通話録音装置２０２に出力し、音声データの検索を要求する。通話録音装置２０２が音声データを検索すると、検索端末２０３は、通話録音装置２０２から検索結果として音声データを入力する。

また、検索端末２０３は、抽出した音声データに基づいて、顧客とオペレータとの会話の音声を再生する機能を備える。例えば、検索端末２０３は、オペレータの入力指示に従って、指示された音声データを通話録音装置２０２から抽出し再生する。

なお、検索端末２０３は、パーソナルコンピュータに限らず、携帯電話機等の移動端末（例えば、外出中の営業員が使用する端末）であってもよい。例えば、携帯電話機である検索端末２０３は、営業員の操作に従って所定の検索条件を入力し、検索条件をネットワーク１０２及び回線接続装置１０３を介して通話録音装置２０２に送信して、音声データの検索を要求する。そして、検索端末２０３は、音声データをネットワーク１０２及び回線接続装置１０３を介して通話録音装置２０２から受信し、受信した音声データに基づいて音声を再生する。

また、図１では、１つの検索端末２０３を示しているが、コールセンタシステムは、複数の検索端末２０３を含んでいてもよい。例えば、コールセンタシステムは、オペレータ毎に検索端末２０３を含んでいてもよい。

音声認識装置３０１は、具体的には、プログラムに従って動作するサーバのＣＰＵ及び入出力インタフェース部によって実現される。音声認識装置３０１は、通話録音装置２０２から入力した音声データを音声認識し、音声データをテキストデータに変換する機能を備える。また、音声認識装置３０１は、音声認識の結果として、変換したテキストデータを検出装置３０３に出力する機能を備える。

また、音声認識装置３０１は、変換したテキストデータ中の各文字列位置と、音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する機能を備える。すなわち、音声認識装置３０１は、テキストデータ中の各文字列位置が音声データ中のどの箇所に対応するかを示す時間対応テーブルを生成する。また、音声認識装置３０１は、生成した時間対応テーブルを、検出装置３０３又は置換装置３０４に出力する機能を備える。

キーワード記憶装置３０２は、具体的には、磁気ディスク装置等の記憶装置によって実現される。キーワード記憶装置３０２は、テキストに含まれる秘密情報の箇所を特定するための秘密箇所特定情報を予め記憶する。本実施の形態では、キーワード記憶装置３０２は、秘密箇所特定情報として、秘密情報に該当するキーワードや、テキスト中における秘密情報の出現パターンを示す出現パターン情報を予め記憶している。

例えば、キーワード記憶装置３０２は、コールセンタにユーザ登録されている顧客名や顧客住所、顧客の電話番号を、キーワードとして予め記憶している。また、例えば、キーワード記憶装置３０２は、テキスト中における顧客名の出現パターンとして「名前は＜単語列＞」や、顧客の住所の出現パターンとして「住所は＜単語列＞」、顧客の電話番号の出現パターンとして「電話番号は＜数字列＞」を予め記憶している。

検出装置３０３は、具体的には、プログラムに従って動作するサーバのＣＰＵによって実現される。検出装置３０３は、音声認識装置３０１から入力したテキストデータ、及びキーワード記憶装置３０２が記憶する秘密箇所特定情報に基づいて、顧客とオペレータとの会話中の秘密情報の箇所の出現位置を検出する機能を備える。また、検出装置３０３は、検出した秘密情報の箇所の位置を示す秘密箇所位置情報を生成し、生成した秘密箇所位置情報を置換装置３０４に出力する機能を備える。

本実施の形態では、検出装置３０３は、キーワード記憶装置３０２からキーワードや出現パターン情報を受け取り、キーワードや出現パターンが音声認識装置３０１から入力した認識結果のテキスト中に出現する位置を検出する。この場合、検出装置３０３は、キーワード及び出現パターン情報に基づいて、テキストに含まれる秘密情報の箇所を検出する。そして、検出装置３０３は、秘密箇所位置情報として、検出した秘密情報の文字列のテキスト中での位置を示す位置情報（例えば、テキスト中での行や列を示す情報）を生成し、生成した秘密箇所位置情報を置換装置３０４に出力する。

また、検出装置３０３は、検出した秘密情報の文字列の位置を、その秘密情報が出現する音声データ中における時間に変換した秘密箇所位置情報を生成するようにしてもよい。この場合、検出装置３０３は、音声認識装置３０１から、テキストデータとともに時間対応テーブルを入力する。また、検出装置３０３は、キーワード記憶装置３０２が記憶するキーワードや出現パターン情報に基づいて、テキストに含まれる秘密情報の箇所を検出する。また、検出装置３０３は、時間対応テーブルに基づいて、検出した秘密情報の箇所の先頭部分及び末尾部分をそれぞれ対応する時間に変換する。そして、検出装置３０３は、秘密箇所位置情報として、秘密情報の箇所の先頭部分に対応する時間を秘密情報の開始時間、及び末尾部分に対応する時間を秘密情報の終了時間として含む時間情報を生成する。

置換装置３０４は、具体的には、プログラムに従って動作するサーバのＣＰＵ及び入出力インタフェース部によって実現される。置換装置３０４は、検出装置３０３から入力した秘密箇所位置情報に基づいて、通話録音装置２０２が記憶する音声データ中の秘密情報の箇所の音声を加工する機能を備える。また、置換装置３０４は、通話録音装置２０２に、記憶する音声データを加工後の音声データに更新させる機能を備える。

本実施の形態では、置換装置３０４は、検出装置３０３から受け取った秘密箇所位置情報を用いて、通話録音装置２０２が記録する音声データ中の秘密情報の部分を特定する。そして、置換装置３０４は、特定した箇所の音声を削除したり別の音声に置換したりすることによって音声データを加工する。

例えば、置換装置３０４は、秘密情報の箇所の開始時間及び終了時間を含む秘密箇所位置情報を、検出装置３０３から入力する。そして、置換装置３０４は、通話録音装置２０２が記録する音声データのうち、秘密箇所位置情報に示される開始時間から終了時間までの音声を削除又は別の音声に置換する。

また、例えば、置換装置３０４は、テキスト中での秘密情報の文字列の位置情報を含む秘密箇所位置情報を入力する。この場合、置換装置３０４は、音声認識装置３０１から時間対応テーブルを入力する。また、置換装置３０４は、時間対応テーブルに基づいて、秘密箇所位置情報に示される秘密情報の箇所の先頭部分及び末尾部分を、それぞれ対応する時間に変換する。すなわち、置換装置３０４は、時間対応テーブルに基づいて、秘密情報の箇所の開始時間及び終了時間を求める。そして、置換装置３０４は、通話録音装置２０２が記録する音声データのうち、変換した開始時間から終了時間までの音声を削除又は別の音声に置換する。

なお、通話録音装置２０２は、置換装置３０４の更新指示に従って音声データを更新するのでなく、加工前の音声データを保持しつつ、置換装置３０４が生成した加工後の音声データを新たにデータベースに記憶するようにしてもよい。

また、本実施の形態において、音声情報加工システム３００を実現するサーバの記憶装置は、秘密情報を含む音声データを加工するための各種プログラムを記憶している。例えば、サーバの記憶装置は、コンピュータに、顧客とオペレータとの会話の音声を含む音声データを入力し、入力した音声データを音声認識する処理と、音声認識結果に基づいて、記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、音声データ中に出現する出現位置を検出する処理と、検出した音声データ中の出現位置に対応する部分の音声を削除又は別の音声に置換する処理とを実行させるための音声情報加工プログラムを記憶している。

また、本実施の形態では、オペレータと顧客との会話の音声を一旦通話録音装置２０２に蓄積したのち音声認識装置３０１に入力し音声データを加工する場合を説明するが、蓄積した音声データを加工する手順は、本実施の形態で示す場合に限られない。例えば、別の形態として、オペレータと顧客との会話の音声を通話録音装置２０２を介さずに直接音声認識装置３０１に入力し、音声データを加工するようにしてもよい。

次に、動作について説明する。図２は、コールセンタシステムが顧客端末１０１からの着信を受け付け、顧客とオペレータとの通話の音声を録音する通話録音処理の一例を示す流れ図である。顧客は、商品やサービスの内容等についてコールセンタに問い合わせたい場合、顧客端末１０１を操作してコールセンタの電話番号を入力し発信指示を行う。顧客端末１０１は、顧客の入力指示に従って、ネットワーク１０２を介してコールセンタに発信する。

顧客端末１０１の電話発信は、ネットワーク１０２を通して回線接続装置１０３によって受け付けられる。回線接続装置１０３は、ネットワーク１０２を介して顧客端末１０１からの着信を受け付ける（ステップＳ１０１）。回線接続装置１０３は、着信を受け付けると、顧客端末１０１とオペレータ端末２０１との回線を接続する。顧客端末１０１とオペレータ端末２０１との回線が回線接続装置１０３を介して接続されることによって、顧客とオペレータとが会話できる状態になる。

また、回線接続装置１０３は、顧客とオペレータとの会話の音声の通話録音装置２０２への出力を開始する。すると、通話録音装置２０２は、顧客とオペレータとの会話の音声の録音を開始する（ステップＳ１０２）。

なお、回線接続装置１０３は、顧客とオペレータとの会話の音声を出力するとともに、顧客とオペレータとの通話時刻や顧客のユーザＩＤ、オペレータＩＤを通話録音装置２０２に出力する。そして、通話録音装置２０２は、入力した音声データを、通話時刻やユーザＩＤ、オペレータＩＤに対応付けてデータベースに記憶する。

通話録音装置２０２は、顧客とオペレータとの通話中、会話内容の音声を記録する。また、通話録音装置２０２は、記録する音声データを音声情報加工システム３００に出力する。音声情報加工システム３００は、通話録音装置２０２が記録する音声データ中の秘密情報の箇所を特定し、音声データを加工する（ステップＳ１０３）。

会話が終了すると、オペレータ又は顧客は、受話器を置いて電話を切る。すると、回線接続装置１０３は、顧客とオペレータとの終話を検出し、顧客端末１０１とオペレータ端末２０１との間の通信を切断する。また、通話録音装置２０２は、顧客とオペレータとの通話の録音を終了する（ステップＳ１０４）。

次に、顧客とオペレータとの会話中に、記録した音声データ中の秘密情報の箇所を特定し、音声データを加工する動作を説明する。図３は、図２のステップＳ１０３において、記録した音声データ中の秘密情報の箇所を特定し、音声データを加工する音声情報加工処理の一例を示す流れ図である。

通話録音装置２０２は、顧客とオペレータとの会話の音声を記録し、記録した音声データを音声情報加工システム３００に出力する。この場合、通話録音装置２０２は、回線接続装置１０３から入力した音声をデータベースに記憶させつつ、入力した音声を随時音声情報加工システム３００に出力する。

なお、通話録音装置２０２は、顧客とオペレータとの会話の音声を、所定時間単位の音声データに分割し所定時間毎に音声情報加工システム３００に出力してもよい。また、通話録音装置２０２は、顧客とオペレータとの会話の音声の区切れ部分（例えば、所定時間以上音声が途切れた部分）を検出し、区切れ部分毎に音声データを分割し音声情報加工システム３００に出力してもよい。また、通話録音装置２０２は、通話開始から通話終了までの間の顧客とオペレータとの会話の音声を記録し終えた後に、記録した音声データを一括して音声情報加工システム３００に出力するようにしてもよい。

音声認識装置３０１は、通話録音装置２０２から音声データを入力する。また、音声認識装置３０１は、入力した音声データを音声認識しテキストデータに変換する（ステップＳ２０１）。そして、音声認識装置３０１は、音声認識結果として、変換したテキストデータを検出装置３０３に出力する。

また、音声認識装置３０１は、テキストデータを生成するとともに、変換したテキストデータ中の各文字列位置と、音声データを再生した場合における再生時間との対応付けを行う。また、音声認識装置３０１は、テキストデータ中の各文字列位置が音声データ中のどの箇所に対応するかを示す時間対応テーブルを生成する。そして、音声認識装置３０１は、生成した時間対応テーブルを検出装置３０３に出力する。なお、音声認識装置３０１は、生成した時間対応テーブルを置換装置３０４に出力してもよい。

検出装置３０３は、音声認識装置３０１からテキストデータを入力すると、キーワード記憶装置３０２が記憶する秘密箇所特定情報に基づいて、テキストデータ中の秘密情報の箇所を特定する。この場合、例えば、音声認識結果としてテキストデータを入力すると、検出装置３０３は、キーワード記憶装置３０２からキーワードやキーワード出現パターンの情報を受け取る。また、検出装置３０３は、それらキーワードやキーワード出現パターンが、音声認識結果のテキスト中のどの位置に出現するのかを検出する。

また、検出装置３０３は、音声認識装置３０１から、テキストデータとともに時間対応テーブルを入力する。検出装置３０３は、時間対応テーブルに基づいて、検出した秘密情報の箇所の音声データにおける開始時間及び終了時間を求める。そして、検出装置３０３は、秘密情報の箇所の開始時間及び終了時間を含む秘密箇所位置情報を生成する。また、検出装置３０３は、生成した秘密情報の出現位置を示す秘密箇所位置情報を、置換装置３０４に出力する（ステップＳ２０２）。

なお、ステップＳ２０２において、検出装置３０３は、検出した秘密情報のテキスト中での文字列の位置情報（例えば、テキスト中での行や列）をそのまま含む秘密箇所位置情報を生成し、生成した秘密箇所位置情報を置換装置３０４に出力してもよい。

置換装置３０４は、検出装置３０３から入力した秘密箇所位置情報に基づいて、通話録音装置２０２が記録する音声データを加工する。この場合、置換装置３０４は、通話録音装置２０２が記録する音声データのうち、検出装置３０３から入力した秘密箇所位置情報に示される箇所を所定の方法で加工する。

本実施の形態では、置換装置３０４は、通話録音装置２０２が蓄積する音声データのキーワード出現位置に該当する部分の音声を削除したり別の音声データに置換したりして、音声データを加工する（ステップＳ２０３）。この場合、例えば、置換装置３０４は、通話録音装置２０２が記録する音声データのうち、秘密箇所位置情報に示される開始時間から終了時間までの音声を削除又は別の音声に置換する。

また、例えば、置換装置３０４は、検出装置３０３から秘密箇所位置情報を入力するとともに、音声認識装置３０１から時間対応テーブルを入力する。また、置換装置３０４は、入力した時間対応テーブルに基づいて、秘密情報の箇所の音声データ中での開始時間及び終了時間を求める。そして、置換装置３０４は、通話録音装置２０２が記録する音声データのうち、求めた開始時間から終了時間までの音声を削除又は別の音声に置換する。

置換装置３０４は、通話録音装置２０２に、記録する音声データを加工後の音声データに更新させる。通話録音装置２０２は、置換装置３０４の更新指示に従って、記録する音声データを加工後の音声データに更新する。

例えば、通話録音装置２０２は、顧客とオペレータとの会話中に、顧客とオペレータとの音声を記録しつつ、置換装置３０４の更新指示に従って、記録中の音声データを随時更新する。また、例えば、通話録音装置２０２は、音声を所定時間単位の音声データに分割して記録する場合、記録した所定時間単位の音声データを随時更新するようにしてもよい。また、通話録音装置２０２は、音声を区切れ部分毎に分割した音声データとして記録する場合、区切れ部分毎に記録した音声データを随時更新するようにしてもよい。また、通話録音装置２０２は、顧客とオペレータとの会話の音声を記録し終えた後に、置換装置３０４の指示に従って音声データを一括して更新してもよい。また、通話録音装置２０２は、記録する音声データを更新するのではなく、加工前の音声データをそのまま保持しつつ、置換装置３０４が加工した音声データを新たにデータベースに記録してもよい。

以上のように、音声情報加工システム３００は、オペレータと顧客との会話の通話録音が終了するまで、ステップＳ２０１からステップＳ２０３までの処理を繰り返し実行し音声データを加工する。

なお、本実施の形態では、オペレータと顧客との会話の音声を一旦通話録音装置２０２に記録して音声認識装置３０１に出力する場合を説明したが、オペレータと顧客との会話の音声を通話録音装置２０２を介さずに直接音声認識装置３０１に入力するようにしてもよい。この場合、ステップＳ２０１において、通話録音装置２０２がオペレータと顧客との会話の音声を記録するとともに、音声認識装置３０１がオペレータと顧客との会話の音声を通話録音装置２０２を介さずに回線接続装置１０３から直接入力する。そして、音声情報加工システム３００は、図３に示すステップＳ２０１からステップＳ２０３までの処理を行い、通話録音装置２０２が記録する音声データを加工する。

また、本実施の形態では、顧客とオペレータとの会話中に、図３に示すステップＳ２０１からステップＳ２０３までの処理を随時実行し音声データを加工する場合を説明したが、音声情報加工システム３００は、オペレータと顧客との会話が終了した後に音声データを一括して加工するようにしてもよい。この場合、顧客とオペレータとの会話音声の記録後に、例えば、音声情報加工システム３００は、所定のタイミングで、通話録音装置２０２が蓄積する音声データに対して、音声データの加工を順次実行するようにしてもよい。

次に、通話録音装置２０２が蓄積する音声データを検索して利用する場合の動作を説明する。オペレータは、通話録音装置２０２が蓄積する音声データを検索し利用したい場合、検索端末２０３を操作して音声データの検索要求を入力指示する。検索装置２０３は、図２に示すステップＳ１０１からステップＳ１０４までのフローとは独立に動作し、与えられた所定の検索条件に従って通話録音装置２０２が記憶する音声データを検索し抽出する。

例えば、検索端末２０３は、オペレータの指示操作に従って、所定の検索条件を入力する。この場合、例えば、検索端末２０３は、検索条件として、顧客とオペレータとの通話時刻や顧客のユーザＩＤ、オペレータＩＤを入力する。そして、検索端末２０３は、入力した検索条件を通話録音装置２０２に出力し、音声データの検索を要求する。

通話録音装置２０２は、検索端末２０３から入力した検索条件に従ってデータベースを検索し、検索条件に合致する音声データを抽出する。そして、通話録音装置２０２は、抽出した音声データを検索端末２０３に出力する。

検索端末２０３は、通話録音装置２０２から音声データを入力すると、入力した音声データに基づいて、顧客とオペレータとの会話の音声を再生する。この場合、検索端末２０３は、入力した加工後の音声データに基づいて、顧客の秘密情報の箇所が置換（又は、削除）された音声を出力する。検索端末２０３において、秘密情報の箇所を加工した音声が出力されるので、顧客の個人情報等の漏洩を防止することができる。

以上のように、本実施の形態によれば、音声情報加工システム３００は、通話録音装置２０２が記録する音声データ中の顧客の個人情報等の秘密情報に該当する箇所を特定する。そして、音声情報加工システム３００は、特定した秘密情報に該当する部分の音声を削除又は別の音声に置換して音声データを加工する。記録する音声データの秘密情報の箇所を自動的に加工できるので、検索装置２０３から通話録音装置２０２が蓄積する音声を検索し再生したときであっても秘密情報を秘匿することができる。従って、会話音声を記録する場合に、顧客の個人情報等の秘密情報の漏洩を防止することができる。特に、顧客からの問い合わせ内容の会話をデータベース化して関係部署間で情報共有する場合であっても、顧客の秘密情報の漏洩を防止することができる。また、秘密情報の漏洩を防止しつつ、共有情報を利用して商品やサービスを改善したり顧客満足度を向上させたりすることができる。

実施の形態２．
次に、本発明の第２の実施の形態を図面を参照して説明する。図４は、音声情報加工システムを適用したシステムの他の構成例を示すブロック図である。図４に示すように、本実施の形態では、コールセンタシステムは、回線接続装置１０３、オペレータ端末２０１、通話録音装置２０２、検索端末２０３及び音声情報加工システム３００を含む。また、音声情報加工システム３００は、音声認識装置３０１Ａ、キーワード記憶装置３０２、位置検出装置３０３、置換装置３０４及び位置指定装置３０６を含む。また、コールセンタシステムは、図４に示すように、顧客端末１０１とネットワーク１０２を介して接続される。

本実施の形態では、図１で示した構成要素に加えて、音声情報加工システム３００が位置指定装置３０６を含む点で、第１の実施の形態と異なる。また、本実施の形態では、音声情報加工システム３００の音声認識装置３０１Ａの機能が、第１の実施の形態で示した音声認識装置３０１の機能と異なる。なお、本実施の形態において、顧客端末１０１、回線接続装置１０３、オペレータ端末２０１、通話録音装置２０２及び検索端末２０３の基本的な機能は、第１の実施の形態におけるそれらの機能と同様である。また、音声情報加工システム３００において、キーワード記憶装置３０２、検出装置３０３及び置換装置３０４の基本的な機能は、第１の実施の形態におけるそれらの機能と同様である。

顧客端末１０１は、音声データをネットワーク１０２を介してコールセンタシステムと送受信する機能を備える。回線接続装置１０３は、ネットワーク１０２を介して顧客端末１０１とオペレータ端末２０１との回線を接続する機能を備える。オペレータ端末２０１は、オペレータが顧客と会話するためのマイクロフォンとスピーカと有するヘッドセット等を備え、音声データを送受信する機能を備える。通話録音装置２０２は、顧客とオペレータとの会話内容を録音し蓄積する機能を備える。検索装置２０３は、与えられた所定の検索条件に従って、通話録音装置１２０２に蓄積された音声を検索し再生する機能を備える。

位置指定装置３０６は、具体的には、プログラムに従って動作するサーバのＣＰＵ、及びキーボードやマウス等の入力装置によって実現される。位置指定装置３０６は、顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する機能を備える。本実施の形態では、位置指定装置３０６は、オペレータの操作に従って、顧客の個人情報等の秘密情報が会話中に出現した旨を指示入力する。なお、位置指定装置３０６は、コールセンタシステムの管理者等のオペレータ以外のユーザの操作に従って、秘密情報が会話中に出現した旨を指示入力してもよい。また、位置指定装置３０６は、秘密情報が出現した旨を指示入力すると、通話録音装置２０２に、記録する音声データ中の指示入力された秘密情報の出現位置を記録させる機能を備える。

なお、図４では、１つの位置指定装置３０６を示しているが、音声情報加工システム３００は、複数の位置指定装置３０６を含んでいてもよい。例えば、音声情報加工システム３００は、オペレータ毎に、パーソナルコンピュータ等の情報処理端末である位置指定装置３０６を含んでいてもよい。

音声認識装置３０１Ａは、通話録音装置２０２から入力した音声データを音声認識し、音声データをテキストデータに変換する機能を備える。また、音声認識装置３０１Ａは、音声認識の結果として、変換したテキストデータを検出装置３０３に出力する機能を備える。

本実施の形態では、音声認識装置３０１Ａは、通話録音装置２０２が記録する音声データを全て音声認識するのでなく、音声データのうち、位置指定装置３０６の指示に従って記録された秘密情報の出現位置の前後一定の区間の音声だけを、音声認識してテキストデータに変換する。すなわち、音声認識装置３０１Ａは、通話録音装置２０２から入力した音声データのうち、位置指定装置３０６が指定した範囲の音声を音声認識する。そして、音声認識装置３０１Ａは、認識結果として、音声認識した区間のテキストデータを検出装置３０３に出力する。また、音声認識装置３０１Ａは、時間対応テーブルを生成し、生成した時間対応テーブルを検出装置３０３又は置換装置３０４に出力する機能を備える。

キーワード記憶装置３０２は、秘密情報に該当するキーワード又は秘密情報の出現パターン情報を予め記憶している。検出装置３０３は、キーワード記憶装置３０２からキーワードや出現パターンを受け取り、それらキーワードや出現パターンが、音声認識装置３０１から入力した認識結果のテキスト中に出現する位置を検出する機能を備える。また、検出装置３０３は、その検出した秘密情報の秘密箇所位置情報を置換装置３０４に出力する機能を備える。置換装置３０４は、秘密箇所位置情報を用いて、通話録音装置２０２が記録する音声の秘密情報の部分の音声を削除又は別の音声データに置換して加工する機能を備える。

また、本実施の形態では、オペレータと顧客との会話の音声を一旦通話録音装置２０２に蓄積したのち音声認識装置３０１Ａに入力し音声データを加工する場合を説明するが、蓄積した音声データを加工する手順は、本実施の形態で示す場合に限られない。例えば、別の形態として、オペレータと顧客との会話の音声を通話録音装置２０２を介さずに直接音声認識装置３０１Ａに入力し、音声データを加工するようにしてもよい。この場合、位置指定装置３０６は、音声認識装置３０１Ａに、直接入力する音声データに対して、オペレータによって指示された出現位置を記録させる。

次に、動作について説明する。図５は、コールセンタシステムが顧客端末１０１からの着信を受け付け、顧客とオペレータとの通話の音声を録音する通話録音処理の他の例を示す流れ図である。顧客は、商品やサービスの内容等についてコールセンタに問い合わせたい場合、顧客端末１０１を操作してコールセンタの電話番号を入力し発信指示を行う。顧客端末１０１は、顧客の入力指示に従って、ネットワーク１０２を介してコールセンタに発信する。

顧客端末１０１の電話発信は、ネットワーク１０２を通して回線接続装置１０３によって受け付けられる。回線接続装置１０３は、ネットワーク１０２を介して顧客端末１０１からの着信を受け付ける（ステップＳ１０１）。回線接続装置１０３は、着信を受け付けると、顧客端末１０１とオペレータ端末２０１との回線を接続する。顧客端末１０１とオペレータ端末２０１との回線が回線接続装置１０３を介して接続されることによって顧客とオペレータとが会話できる状態になる。

通話録音装置２０２は、顧客とオペレータとの通話中、会話内容の音声を記録する。また、通話録音装置２０２は、記録する音声データを音声情報加工システム３００に出力する。音声情報加工システム３００は、通話録音装置２０２が記録する音声データ中の秘密情報の箇所を特定し、音声データを加工する（ステップＳ１０３Ａ）。ステップＳ１０３Ａにおいて、音声情報加工システム３００は、オペレータによって指定された秘密情報の出現位置を通話録音装置２０２に記録させつつ、音声データ中の秘密情報の箇所を特定し音声データを加工する。

会話が終了すると、オペレータ又は顧客は、受話器を置いて電話を切る。すると、回線接続装置１０３は、顧客とオペレータとの会話の終話を検出し、顧客端末１０１とオペレータ端末２０１との間の通信を切断する。また、通話録音装置２０２は、顧客とオペレータとの通話の録音を終了する（Ｓ１０４）。

次に、顧客とオペレータとの会話中に、記録した音声データ中の秘密情報の箇所を特定し、音声データを加工する動作を説明する。図６は、図５のステップＳ１０３Ａにおいて、記録した音声データ中の秘密情報の箇所を特定し、音声データを加工する音声情報加工処理の他の例を示す流れ図である。

オペレータは、顧客との通話中に顧客の個人情報等の秘密情報が会話に出現すると、位置指定装置３０６を操作して、秘密情報の出現位置の記録を入力指示する。位置指定装置３０６は、オペレータの入力指示に従って、通話録音装置２０２に、記録中の音声データに対して秘密情報の出現位置を記録させる（Ｓ２００Ａ）。例えば、オペレータは、顧客との会話中に、顧客の個人名や住所、電話番号等が話されると、位置指定装置３０６を操作して、顧客の秘密情報が会話中に話された旨を入力指示する。この場合、例えば、オペレータは、マウスクリック等によって、会話中に秘密情報が話された旨を入力指示する。すると、位置指定装置３０６は、通話録音装置２０２に、現時刻を秘密情報の出現位置として記録させる。

通話録音装置２０２は、位置指定装置３０６の指示に従って、記録中の音声データに秘密情報の出現位置を記録する。例えば、通話録音装置２０２は、記録中の音声データに、現時刻の位置が秘密情報の出現位置である旨の情報を付加する。

通話録音装置２０２は、顧客とオペレータとの会話の音声を記録し、記録した音声データを音声情報加工システム３００に出力する。音声認識装置３０１Ａは、通話録音装置２０２から音声データを入力する。この場合、音声認識装置３０１Ａは、オペレータに指示された秘密情報の出現位置が記録された音声データを入力する。音声認識装置３０１Ａは、入力した音声データのうち、記録された出現位置から前後所定の区間の箇所の音声を音声認識を行いテキストに変換する（ステップＳ２０１Ａ）。そして、音声認識装置３０１Ａは、出現位置から前後所定区間の箇所の音声を変換したテキストデータを、音声認識結果として出力する（Ｓ１２０１）。例えば、音声認識装置３０１Ａは、記録された出現位置から前後所定時間分の区間の箇所の音声を音声認識し、テキストデータに変換する。

検出装置３０３は、音声認識装置３０１からテキストデータを入力すると、キーワード記憶装置３０２が記憶する秘密箇所特定情報に基づいて、テキストデータ中の秘密情報の箇所を特定する。この場合、例えば、音声認識結果としてテキストデータを入力すると、検出装置３０３は、キーワード記憶装置３０２からキーワードやキーワード出現パターンの情報を受け取る。また、検出装置３０３は、それらキーワードやキーワード出現パターンに基づいて、秘密情報が音声認識結果のテキスト中のどの位置に出現するのかを検出し（ステップＳ２０２）、秘密箇所位置情報を生成する。そして、検出装置３０３は、生成した秘密箇所位置情報を置換装置３０４に出力する。

置換装置３０４は、検出装置３０３から入力した秘密箇所位置情報に基づいて、通話録音装置２０２が記録する音声データを加工する。この場合、置換装置３０４は、通話録音装置２０２が記録する音声データのうち、検出装置３０３から入力した秘密箇所位置情報に示される箇所を所定の方法で加工する。本実施の形態では、置換装置３０４は、通話録音装置２０２が蓄積する音声データのキーワード出現位置に該当する部分の音声を削除したり別の音声データに置換したりして、音声データを加工する（ステップＳ２０３）。

以上のように、音声情報加工システム３００は、オペレータと顧客との会話の通話録音が終了するまで、ステップＳ２００ＡからステップＳ２０３までの処理を繰り返し実行し音声データを加工する。

なお、本実施の形態では、オペレータと顧客との会話の音声を一旦通話録音装置２０２に記録して音声認識装置３０１Ａに出力する場合を説明したが、オペレータと顧客との会話の音声を通話録音装置２０２を介さずに直接音声認識装置３０１Ａに入力するようにしてもよい。この場合、ステップＳ２０１Ａにおいて、通話録音装置２０２がオペレータと顧客との会話の音声を記録するとともに、音声データが音声認識装置３０１に直接入力される。また、位置指定装置３０６は、音声認識装置３０１Ａに、入力する音声に対してオペレータによって指示された出現位置を記録させる。なお、音声データを音声認識装置３０１Ａに直接入力し、音声認識装置３０１Ａに秘密情報の出現位置を記録させる処理以外は、図６に示すステップＳ２００ＡからステップＳ２０３までの処理と同様である。

また、本実施の形態では、顧客とオペレータとの会話中に、図６に示すステップＳ２００からステップＳ２０３までの処理を随時実行し音声データを加工する場合を説明したが、音声情報加工システム３００は、オペレータと顧客との会話が終了した後に音声データを一括して加工するようにしてもよい。この場合、顧客とオペレータとの会話音声の記録後に、例えば、音声情報加工システム３００は、所定のタイミングで、通話録音装置２０２が蓄積する音声データに対して、音声データの加工を順次実行するようにしてもよい。この場合、位置指定装置３０６は、オペレータの指示操作に従って、顧客との会話が終了した後に、通話録音装置２０２が蓄積する音声データを再生する。再生中の会話に秘密情報が出現すると、位置指定装置３０６は、オペレータの指示操作に従って、通話録音装置２０２に秘密情報の出現位置を記録させる。

次に、通話録音装置２０２が蓄積する音声データを検索して利用する場合の動作を説明する。オペレータは、通話録音装置２０２が蓄積する音声データを検索し利用したい場合、検索端末２０３を操作して音声データの検索要求を入力指示する。検索装置２０３は、図５に示すステップＳ１０１からステップＳ１０４までのフローとは独立に動作し、与えられた所定の検索条件に従って通話録音装置２０２が記憶する音声データを検索し再生する。

以上のように、本実施の形態によれば、オペレータが顧客との会話中に顧客の個人情報等の秘密情報が出現したことを指示する。そのため、音声情報加工システム３００は、通話録音装置２０２が記録する音声データ中の顧客の個人情報等の秘密情報に該当する部分を、より的確に削除又は別の音声に置換することができる。従って、検索装置２０３から通話録音装置が蓄積する音声を検索し再生したときであっても秘密情報を秘匿することができ、秘密情報の漏洩をより高精度に防止することができる。

実施の形態３．
次に、本発明の第３の実施の形態を図面を参照して説明する。本実施の形態では、コールセンタシステムが、顧客とオペレータとの会話の音声データを蓄積するとともに、顧客とオペレータとの会話内容を書き起こして作成したテキストである書き起こしテキストを蓄積する場合を説明する。

図７は、音声情報加工システムを適用したシステムの更に他の構成例を示すブロック図である。図７に示すように、本実施の形態では、コールセンタシステムは、回線接続装置１０３、オペレータ端末２０１、通話録音装置２０２、検索端末２０３Ｂ、書起テキスト記録装置２０４及び書起装置２０５を含む。また、音声情報加工システム３００は、音声認識装置３０１、キーワード記憶装置３０２、検出装置３０３、置換装置３０４及びテキスト置換装置３０５を含む。また、コールセンタシステムは、図７に示すように、顧客端末１０１とネットワーク１０２を介して接続される。

図７に示すように、本実施の形態では、図１で示した構成要素に加えて、コールセンタシステムが書起テキスト記録装置２０４及び書起装置２０５を含む点で、第１の実施の形態と異なる。また、本実施の形態では、図１で示した構成要素に加えて、音声情報加工システム３００がテキスト置換装置３０５を含む点で、第１の実施の形態と異なる。また、本実施の形態では、コールセンタシステムにおいて、検索端末２０３Ｂの機能が、第１の実施の形態における検索端末２０３の機能と異なる。

なお、本実施の形態において、顧客端末１０１、回線接続装置１０３、オペレータ端末２０１及び通話録音装置２０２の基本的な機能は、第１の実施の形態におけるそれらの機能と同様である。また、音声情報加工システム３００において、音声認識装置３０１、キーワード記憶装置３０２、検出装置３０３及び置換装置３０４の基本的な機能は、第１の実施の形態におけるそれらの機能と同様である。

書起装置２０５は、具体的には、パーソナルコンピュータ等の情報処理端末である。書起装置２０５は、テキスト作成用のアプリケーションソフトウェアを搭載し、テキストデータを生成する機能を備える。例えば、書起装置２０５は、テキストエディタやワードプロセッサを搭載し、ユーザの指示操作に従ってテキストデータを生成する。

本実施の形態では、書起装置２０５は、ユーザの操作に従って、顧客とオペレータとの会話内容の書き起こしテキストを作成する。例えば、書起装置２０５は、顧客とオペレータとの通話終了後に、オペレータの操作に従って、顧客とオペレータとの会話内容を再現したテキストデータを生成する。また、書起装置２０５は、例えば、テキストを作成するテキスト作成者の操作に従って、顧客とオペレータとの通話を視聴し再現したテキストデータを生成する。

なお、ユーザの指示操作に従ってテキストを作成する場合に限らず、書起装置２０５は、例えば、顧客とオペレータとの通話を記録した音声データを音声認識してテキストデータに変換し、変換したテキストデータを書き起こしテキストとして生成してもよい。また、例えば、書起装置２０５は、音声認識して変換したテキストデータを、更にユーザの操作に従って修正し書き起こしテキストとして生成してもよい。

書起テキスト記録装置２０４は、顧客とオペレータとの会話内容の書き起こしテキストを蓄積するデータベースを備える。書起テキスト記録装置２０４は、書起装置２０５から入力した会話音声の書き起こしテキストを記録し、データベースに記憶する機能を備える。

なお、ＩＰ電話サービスを利用する場合、書起テキスト記録装置２０４は、例えば、データベースを備えたワークステーションやパーソナルコンピュータ等の情報処理装置であってもよい。この場合、例えば、コールセンタシステムにおいて、回線接続装置１０３、オペレータ端末２０１、通話録音装置２０２、検索端末２０３、書起テキスト記録装置２０４及び書起装置２０５が、ＬＡＮ等の社内ネットワークを介して接続されていてもよい。

また、書起テキスト記録装置２０４は、音声情報加工システム３００に含まれるものであってもよい。この場合、書起テキスト記録装置２０４は、例えば、音声情報加工システム３００を実現するサーバのＣＰＵ及び記憶装置によって実現される。そして、書起テキスト記録装置２０４は、書起装置２０５から書き起こしテキストを入力し、入力した書き起こしテキストを記録する。

テキスト置換装置３０５は、具体的には、プログラムに従って動作するサーバのＣＰＵ及び入出力インタフェース部によって実現される。テキスト置換装置３０５は、検出装置３０３から受け取った秘密箇所位置情報を用いて、テキスト置換装置３０５が記録する書き起こしテキスト中の秘密情報の部分の文字列を削除又は別の文字列に置換する機能を備える。また、テキスト置換装置３０５は、書起テキスト記録装置２０４に、記憶する書き起こしテキストを加工後のテキストに更新させる機能を備える。

なお、書起テキスト記録装置２０４は、テキスト置換装置３０５の更新指示に従って書き起こしテキストを更新するのでなく、加工前の書き起こしテキストを保持しつつ、書起テキスト記録装置２０４が生成した加工後のテキストデータを新たにデータベースに記憶するようにしてもよい。

検索端末２０３Ｂは、具体的には、パーソナルコンピュータ等の情報処理端末である。検索装置２０３Ｂは、与えられた所定の検索条件に従って、通話録音装置２０２が蓄積する音声データを検索して再生する機能を備える。また、本実施の形態では、更に、検索端末２０３Ｂは、所定の検索条件に従って、書起テキスト記録装置２０４が記録する書き起こしテキストを検索して表示する機能を備える。この場合、例えば、検索端末２０３Ｂは、オペレータの入力操作に従って、所定の検索条件を入力する。また、検索端末２０３Ｂは、入力した検索条件を書起テキスト記録装置２０４に出力し、書き起こしテキストの検索を要求する。書起テキスト記録装置２０４が書き起こしテキストを検索すると、検索端末２０３Ｂは、書起テキスト記録装置２０４から検索結果として書き起こしテキストを入力し、ディスプレイ装置等の表示装置に表示する。

次に、動作について説明する。本実施の形態において、コールセンタシステムは、第１の実施の形態と同様の処理に従って、顧客とオペレータとの通話の音声を記録している。また、本実施の形態において、音声情報加工システム３００は、第１の実施の形態と同様の処理に従って、記録した音声データ中の秘密情報の箇所を特定し、音声データを加工している。

オペレータやテキスト作成者は、顧客とオペレータとの通話を終了すると、書起装置２０５を操作して、顧客とオペレータとの会話内容を書き起こした書き起こしテキストを作成指示する。書起装置２０５は、オペレータやテキスト作成者の操作に従って、書き起こしテキストを生成し書起テキスト記録装置２０４に出力する。また、書起テキスト記録装置２０４は、書起装置２０５から書き起こしテキストを入力しデータベースに蓄積する。

次に、記録した書き起こしテキスト中の秘密情報の箇所を特定し、書き起こしテキストを加工する動作を説明する。図８は、記録した書き起こしテキスト中の秘密情報の箇所を特定し、書き起こしテキストを加工する書き起こしテキスト加工処理の一例を示す流れ図である。

音声認識装置３０１は、通話録音装置２０２から音声データを入力する。また音声認識装置３０１は、入力した音声データを音声認識しテキストデータに変換する（ステップＳ２０１Ｂ）そして、音声認識装置３０１は、音声認識結果として、変換したテキストデータを検出装置３０３に出力する。

検出装置３０３は、音声認識結果としてテキストデータを入力するとともに、キーワード記憶装置３０２からキーワードやキーワード出現パターンの情報を入力する。また、検出装置３０３は、キーワードやキーワード出現パターンに基づいて、秘密情報が音声認識結果のテキスト中のどの位置に出現するのかを検出する。そして、検出装置３０３は、検出した秘密情報の出現位置を示す秘密箇所位置情報を、テキスト置換装置３０５に出力する（ステップＳ２０２Ｂ）。例えば、検出装置３０３は、秘密箇所位置情報として、検出した秘密情報の文字列のテキスト中での位置を示す位置情報（例えば、テキスト中での行や列）を生成し、テキスト置換装置３０５に出力する。

テキスト置換装置３０５は、検出装置３０３から入力した秘密箇所位置情報に基づいて、書起テキスト記録装置２０４が記録する書き起こしテキストを加工する。本実施の形態では、テキスト置換装置３０５は、書起テキスト記録装置２０４が蓄積する書き起こしテキストのキーワード出現位置に該当する部分の文字列を削除したり別の文字列に置換したりして、書き起こしテキストを加工する（ステップＳ２０３Ｂ）。

なお、本実施の形態では、書起装置２０５が作成した書き起こしテキストを書起テキスト記録装置２０４が蓄積する場合を説明したが、書起テキスト記録装置２０４は、書起装置２０５以外の装置が作成した書き起こしテキストを蓄積するものであってもよい。例えば、書起テキスト記録装置２０４は、音声認識装置３０１が変換したテキストデータを、そのまま書き起こしテキストとして蓄積してもよい。また、例えば、書起テキスト記録装置２０４は、音声認識装置３０１が変換したテキストデータをユーザの指示操作に従って修正したデータを、書き起こしテキストとして蓄積してもよい。

以上のように、本実施の形態によれば、音声情報加工システム３００は、通話録音装置２０２が記録する音声データ中の秘密情報の箇所を加工して秘匿することに加えて、書起テキスト記録装置２０４が記録するテキスト中の秘密情報の箇所を加工して秘匿する。そのため、検索装置２０３Ｂから音声及び書き起こしテキストを検索した場合であっても、秘密情報の漏洩を防止することができる。

次に、本発明の具体的な実施例を図面を参照して説明する。なお、本実施例は、図１で示した第１の実施の形態を具体化したものに相当する。図９は、キーワード記憶装置３０２が記憶するキーワード及びキーワード出現パターンの情報の一例を示す説明図である。

本例では、キーワード記憶装置３０２は、図９に示すように、キーワードとして、コールセンタに予めユーザ登録されている顧客名及び顧客住所を記憶している。例えば、図９において、「日電太郎」、「山田花子」及び「鈴木次郎」は、顧客の個人名である。この顧客の個人名のリストは、例えば、コールセンタが備える顧客データベースから人名を取り出すことによって作成される。また、図９において、＜住所＞は、いずれかの顧客の住所を表す単語列である。この住所の単語列も、例えば、顧客データベースから住所を取り出すことによって作成される。

また、キーワード記憶装置３０２は、図９に示すように、顧客の電話番号の出現パターンとして、「電話番号は＜数字列＞」を記憶している。図９において、「電話番号は＜数字列＞」は、「電話番号」という単語とその単語につながる任意の数字列である。図９に示す出現パターンの例では、テキスト中に「電話番号は」の文字列が出現しその文字列の後に数字列が続いている場合、その「電話番号は」の後の数字列は顧客の電話番号であることを示している。

次に、音声情報加工システム３００が音声データを加工する具体的な動作を説明する。本実施例では、音声情報加工システム３００は、図９に示すキーワードや出現パターン情報を用いて音声データを加工する。また、図１０は、オペレータと顧客との会話を記録した音声の内容の一例を示す説明図である。本実施例では、音声情報加工システム３００が、通話録音装置２０２が記録する図１０に示す内容の音声データを加工する場合を説明する。

通話録音装置２０２は、図１０に示す会話内容の音声データを蓄積すると、記録する音声データを音声情報加工システム３００の音声認識装置３０１に出力する。音声認識装置３０１は、通話録音装置２０２から入力した音声データを音声認識し、音声データをテキストデータに変換する。そして、音声認識装置３０１は、認識結果として変換したテキストデータを検出装置３０３に出力する。

検出装置３０３は、図９に示すキーワード及びキーワード出現パターンが認識結果のテキスト中に存在するか否かを判定する。図１０に示す例では、検出装置３０３は、図９に示す顧客名のキーワードに基づいて、テキスト中の「山田花子」という単語を検出し、検出した「山田花子」の箇所の位置を示す秘密箇所位置情報を置換装置３０４に出力する。また、検出装置３０３は、図９に示す＜住所＞のキーワードに基づいて、テキスト中の「川崎市・・・」の単語列が住所を示すことを検出し、検出した住所の箇所の位置を示す秘密箇所位置情報を置換装置３０４に出力する。

なお、検出装置３０３は、テキスト中のある単語列が住所か否かを検出するために、住所を表現する辞書を用いて、テキスト中の単語列が住所であるか否かを判定するようにしてもよい。例えば、音声情報加工システム３００は、「川崎市」や「東京都」等の地名を示す単語を含む地名辞書を記憶装置等に記憶している。そして、検出装置３０３は、地名辞書に基づいてテキスト中の各単語が地名であるか否かを判断することによって、テキスト中の単語列が住所であるか否かを判定する。

また、検出装置３０３は、図９に示す顧客の電話番号の出現パターンに基づいて、テキスト中の「電話番号は０４４１１１１２３４」の部分が「電話番号は＜数字列＞」という出現パターンに相当することを検出する。そして、検出装置３０３は、キーワードの検出の場合と同様に、検出した電話番号の出現パターンの箇所の位置を示す秘密箇所位置情報を置換装置３０４に出力する。

置換装置３０４は、検出装置３０３から受け取った秘密箇所位置情報に基づいて、通話録音装置２０２が記録する音声データ中の「山田花子」、「川崎市・・・」及び「電話番号は０４４１１１１２３４」の部分を加工する。図１１は、図１０に示す会話内容の音声データの加工後の内容の一例を示す説明図である。図１１に示すように、置換装置３０４は、音声データ中の顧客名「山田花子」、顧客住所「川崎市・・・」及び顧客の電話番号「０４４１１１１２３４」の箇所を、例えば「ピー」という音声に置換する。そして、置換装置３０４は、通話録音装置２０２に、記録する音声データを加工後のデータに更新させる。

本発明は、コールセンタ等への顧客からの問い合わせ内容の音声データをデータベース化し、関係部署で共有することによって業務や顧客対応の改善を支援する用途に適用できる。特に、本発明による音声情報加工システムは、顧客の個人情報等の秘密情報の漏洩を防止する用途に適用できる。

本発明による音声情報加工システムを適用したシステムの構成の一例を示すブロック図である。顧客とオペレータとの通話の音声を録音する通話録音処理の一例を示す流れ図である。音声データを加工する音声情報加工処理の一例を示す流れ図である。音声情報加工システムを適用したシステムの他の構成例を示すブロック図である。顧客とオペレータとの通話の音声を録音する通話録音処理の他の例を示す流れ図である。音声データを加工する音声情報加工処理の他の例を示す流れ図である。音声情報加工システムを適用したシステムの更に他の構成例を示すブロック図である。書き起こしテキストを加工する書き起こしテキスト加工処理の一例を示す流れ図である。キーワード記憶装置３０２が記憶するキーワード情報の一例を示す説明図である。顧客とオペレータとの会話の音声データの内容の一例を示す説明図である。加工後の音声データの内容の一例を示す説明図である。

符号の説明

１０１顧客端末
１０２ネットワーク
１０３回線接続装置
２０１オペレータ端末
２０２通話録音装置
２０３検索端末
３００音声情報加工システム
３０１音声認識装置
３０２キーワード記憶装置
３０３検出装置
３０４置換装置

Claims

処理対象の音声データを入力し、前記入力した処理対象の音声データを音声認識してテキストデータに変換する音声認識手段と、
前記音声認識手段が変換したテキストデータ中の文字列位置と前記処理対象の音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する対応テーブル生成手段と、
テキストに含まれる秘密情報の箇所を特定するための秘密箇所特定情報を記憶する特定情報記憶手段と、
前記特定情報記憶手段が記憶する秘密箇所特定情報、及び前記音声認識手段が変換したテキストデータに基づいて、前記処理対象の音声データに含まれる秘密情報の出現位置を検出する検出手段と、
前記検出手段が検出した前記処理対象の音声データ中の秘密情報の箇所の先頭部分に対応する時間を前記時間対応テーブルから開始時間として抽出するとともに、前記検出手段が検出した前記処理対象の音声データ中の秘密情報の箇所の末尾部分に対応する時間を前記時間対応テーブルから終了時間として抽出する時間抽出手段と、
前記処理対象の音声データ中の前記開始時間から前記終了時間までの音声を加工する音声加工手段と、
前記音声加工手段による加工後の音声データを記憶する音声データ記憶手段とを
備えたことを特徴とする音声情報加工システム。
特定情報記憶手段は、秘密箇所特定情報として、所定のキーワード又はテキスト中におけるキーワードの出現パターンを示す出現パターン情報を記憶し、
検出手段は、前記特定情報記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、音声認識手段が変換したテキストデータに含まれるか否かを判断することによって、処理対象の音声データに含まれる秘密情報の出現位置を検出する
請求項１記載の音声情報加工システム。
検出手段は、処理対象の音声データに含まれる秘密情報の出現位置を検出すると、前記検出した秘密情報の箇所の位置を示す秘密箇所位置情報を生成し、
音声加工手段は、前記検出手段が生成した秘密箇所位置情報に基づいて、処理対象の音声データに含まれる秘密情報の箇所を特定し、前記特定した秘密情報の箇所の音声を加工する
請求項１又は請求項２記載の音声情報加工システム。
検出手段は、秘密箇所位置情報として、検出した秘密情報の文字列のテキスト中での位置を示す位置情報を生成し、
音声加工手段は、対応テーブル生成手段が生成した時間対応テーブルに基づいて、前記検出手段が生成した秘密箇所位置情報に示される秘密情報の位置を対応する時間に変換することによって、処理対象の音声データにおける秘密情報の箇所を特定する
請求項３記載の音声情報加工システム。
検出手段は、秘密箇所位置情報として、対応テーブル生成手段が生成した時間対応テーブルに基づいて、検出した秘密情報の位置を対応する時間に変換した時間情報を生成する
請求項３記載の音声情報加工システム。
音声加工手段は、検出手段の検出結果に基づいて、処理対象の音声データ中の秘密情報の出現位置に対応する部分の音声を削除又は別の音声に置換する請求項１から請求項５のうちのいずれか１項に記載の音声情報加工システム。
顧客とオペレータとの会話の音声を含む音声データを入力し、前記入力した音声データを音声認識してテキストデータに変換する音声認識手段と、
前記音声認識手段が変換したテキストデータ中の文字列位置と前記音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する対応テーブル生成手段と、
所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するキーワード記憶手段と、
前記音声認識手段の音声認識結果に基づいて、前記キーワード記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、前記音声データ中に出現する出現位置を検出する検出手段と、
前記検出手段が検出した前記音声データ中の出現位置の箇所の先頭部分に対応する時間を前記時間対応テーブルから開始時間として抽出するとともに、前記検出手段が検出した前記音声データ中の出現位置の箇所の末尾部分に対応する時間を前記時間対応テーブルから終了時間として抽出する時間抽出手段と、
前記音声データ中の前記開始時間から前記終了時間までの音声を削除又は別の音声に置換する置換手段と、
前記置換手段による削除又は置換後の音声データを記憶する音声データ記憶手段とを
備えたことを特徴とする音声情報加工システム。
顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する範囲指定手段を備え、
音声認識手段は、入力した音声データのうち、前記範囲指定手段が指定した範囲の音声を音声認識する
請求項７記載の音声情報加工システム。
範囲指定手段は、オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定する請求項８記載の音声情報加工システム。
音声認識手段は、顧客とオペレータとの通話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識する請求項７から請求項９のうちのいずれか１項に記載の音声情報加工システム。
顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録する書起テキスト記録手段と、
書き起こしテキスト中の検出手段が検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するテキスト置換手段とを備えた
請求項７から請求項１０のうちのいずれか１項に記載の音声情報加工システム。
音声データを加工し、前記加工した音声データを処理する情報処理システムであって、
音声データを加工する音声情報加工システムを備え、
前記音声情報加工システムは、
処理対象の音声データを入力し、前記入力した音声データを音声認識してテキストデータに変換する音声認識手段と、
前記音声認識手段が変換したテキストデータ中の文字列位置と前記音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する対応テーブル生成手段と、
所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するキーワード記憶手段と、
前記音声認識手段の音声認識結果に基づいて、前記キーワード記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、前記音声データ中に出現する出現位置を検出する検出手段と、
前記検出手段が検出した前記音声データ中の出現位置の箇所の先頭部分に対応する時間を前記時間対応テーブルから開始時間として抽出するとともに、前記検出手段が検出した前記音声データ中の出現位置の箇所の末尾部分に対応する時間を前記時間対応テーブルから終了時間として抽出する時間抽出手段と、
前記音声データ中の前記開始時間から前記終了時間までの音声を削除又は別の音声に置換する置換手段と、
前記置換手段による削除又は置換後の音声データを記憶する音声データ記憶手段とを含む
ことを特徴とする情報処理システム。
オペレータ端末と、
顧客端末とオペレータ端末との通信回線を接続する回線接続手段と、
顧客とオペレータとの通話の音声を録音する通話録音手段と、
前記通話録音手段が記録する音声データを検索し、音声データを再生する検索手段とを備え、
前記通話録音手段は、置換手段の指示に従って、記録する音声データを加工後の音声データに更新し、
前記検索手段は、前記通話録音装置が記録する加工後の音声データを抽出し、前記抽出した音声データに基づいて加工後の音声を再生する
請求項１２記載の情報処理システム。
音声情報加工システムは、
顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する範囲指定手段を含み、
音声認識手段は、入力した音声データのうち、前記範囲指定手段が指定した範囲の音声を音声認識する
請求項１２又は請求項１３記載の情報処理システム。
範囲指定手段は、オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定する請求項１４記載の情報処理システム。
音声認識手段は、顧客とオペレータとの通話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識する請求項１２から請求項１５のうちのいずれか１項に記載の情報処理システム。
音声情報加工システムは、
顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録する書起テキスト記録手段と、
書き起こしテキスト中の検出手段が検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するテキスト置換手段とを含む
請求項１２から請求項１６のうちのいずれか１項に記載の情報処理システム。
顧客とオペレータとの会話の音声を含む音声データを入力し、前記入力した音声データを音声認識してテキストデータに変換するステップと、
前記変換したテキストデータ中の文字列位置と前記音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成するステップと、
所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するステップと、
前記音声認識結果に基づいて、前記記憶したキーワード又は出現パターン情報に示される出現パターンが、前記音声データ中に出現する出現位置を検出するステップと、
前記検出した前記音声データ中の出現位置の箇所の先頭部分に対応する時間を前記時間対応テーブルから開始時間として抽出するとともに、前記検出した前記音声データ中の出現位置の箇所の末尾部分に対応する時間を前記時間対応テーブルから終了時間として抽出するステップと、
前記音声データ中の前記開始時間から前記終了時間までの音声を削除又は別の音声に置換するステップと、
前記削除又は置換後の音声データを音声データ記憶手段に記憶させるステップとを含む
ことを特徴とする音声情報加工方法。
顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定するステップと、
入力した音声データのうち、前記指定した範囲の音声を音声認識するステップとを含む
請求項１８記載の音声情報加工方法。
オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定する請求項１９記載の音声情報加工方法。
顧客とオペレータとの会話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識する請求項１８から請求項２０のうちのいずれか１項に記載の音声情報加工方法。
顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録するステップと、
書き起こしテキスト中の検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するステップとを含む
請求項１８から請求項２１のうちのいずれか１項に記載の音声情報加工方法。
音声データを加工し、前記加工した音声データを蓄積する音声情報蓄積方法であって、
処理対象の音声データを入力し、前記入力した音声データを音声認識してテキストデータに変換するステップと、
前記変換したテキストデータ中の文字列位置と前記音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成するステップと、
所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶するステップと、
前記音声認識結果に基づいて、前記記憶したキーワード又は出現パターン情報に示される出現パターンが、前記音声データ中に出現する出現位置を検出するステップと、
前記検出した前記音声データ中の出現位置の箇所の先頭部分に対応する時間を前記時間対応テーブルから開始時間として抽出するとともに、前記検出した前記音声データ中の出現位置の箇所の末尾部分に対応する時間を前記時間対応テーブルから終了時間として抽出するステップと、
前記音声データ中の前記開始時間から前記終了時間までの音声を削除又は別の音声に置換するステップと、
前記削除又は置換後の音声データを音声データ記憶手段に記憶させるステップとを含む
ことを特徴とする音声情報蓄積方法。
蓄積する音声データを検索し、加工後の音声データを抽出するステップと、
前記抽出した音声データに基づいて、加工後の音声を再生するステップとを含む
請求項２３記載の音声情報蓄積方法。
顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定するステップと、
入力した音声データのうち、前記指定した範囲の音声を認識するステップとを含む
請求項２３又は請求項２４記載の音声情報蓄積方法。
オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定し、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定する請求項２５記載の音声情報蓄積方法。
顧客とオペレータとの通話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識し、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識する請求項２３から請求項２６のうちのいずれか１項に記載の音声情報蓄積方法。
顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録するステップと、
書き起こしテキスト中の検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換するステップとを含む
請求項２３から請求項２７のうちのいずれか１項に記載の音声情報蓄積方法。
所定のキーワード又はキーワードの出現パターンを示す出現パターン情報を記憶する記憶手段を備えたコンピュータに、
顧客とオペレータとの会話の音声を含む音声データを入力し、前記入力した音声データを音声認識してテキストデータに変換する処理と、
前記変換したテキストデータ中の文字列位置と前記音声データを再生した場合の再生時間とを対応付けた時間対応テーブルを生成する処理と、
前記音声認識結果に基づいて、前記記憶手段が記憶するキーワード又は出現パターン情報に示される出現パターンが、前記音声データ中に出現する出現位置を検出する処理と、
前記検出した前記音声データ中の出現位置の箇所の先頭部分に対応する時間を前記時間対応テーブルから開始時間として抽出するとともに、前記検出した前記音声データ中の出現位置の箇所の末尾部分に対応する時間を前記時間対応テーブルから終了時間として抽出する処理と、
前記音声データ中の前記開始時間から前記終了時間までの音声を削除又は別の音声に置換する処理と、
前記削除又は置換後の音声データを音声データ記憶手段に記憶させる処理とを
実行させるための音声情報加工プログラム。
コンピュータに、
顧客とオペレータとの会話の音声を含む音声データのうちの秘密情報が含まれる範囲を指定する処理と、
入力した音声データのうち、前記指定した範囲の音声を音声認識する処理とを実行させる
請求項２９記載の音声情報加工プログラム。
コンピュータに、
オペレータと顧客との通話中に、ユーザの操作に従って音声データ中の秘密情報が含まれる範囲を指定する処理、又は、オペレータと顧客との通話が終了した後に、通話を録音した音声データに対して、ユーザの操作に従って秘密情報が含まれる範囲を指定する処理を実行させる
請求項３０記載の音声情報加工プログラム
コンピュータに、
顧客とオペレータとの会話中に、逐次顧客とオペレータとの通話の音声データを入力して音声認識する処理、又は、通話の音声を録音する通話録音装置が蓄積する音声データを入力して音声認識する処理を実行させる
請求項２９から請求項３１のうちのいずれか１項に記載の音声情報加工プログラム。
コンピュータに、
顧客とオペレータとの通話内容を書き起こしたテキストデータである書き起こしテキストを記録する処理と、
書き起こしテキスト中の検出したキーワード又はキーワードの出現パターンの出現位置に対応する部分の文字列を、削除又は別の文字列に置換する処理とを実行させる
請求項２９から請求項３２のうちのいずれか１項に記載の音声情報加工プログラム。