JP2019062404A - 通話音声処理システム及び通話音声処理方法 - Google Patents

通話音声処理システム及び通話音声処理方法 Download PDF

Info

Publication number
JP2019062404A
JP2019062404A JP2017185610A JP2017185610A JP2019062404A JP 2019062404 A JP2019062404 A JP 2019062404A JP 2017185610 A JP2017185610 A JP 2017185610A JP 2017185610 A JP2017185610 A JP 2017185610A JP 2019062404 A JP2019062404 A JP 2019062404A
Authority
JP
Japan
Prior art keywords
call
language
voice
voice recognition
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017185610A
Other languages
English (en)
Other versions
JP6920153B2 (ja
Inventor
孝章 佐々木
Takaaki Sasaki
孝章 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2017185610A priority Critical patent/JP6920153B2/ja
Priority to US16/018,112 priority patent/US20190096399A1/en
Publication of JP2019062404A publication Critical patent/JP2019062404A/ja
Application granted granted Critical
Publication of JP6920153B2 publication Critical patent/JP6920153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させる。【解決手段】着信時に音声認識制御装置111は通話情報に対応する言語として第1の言語(日本語)を自動的に決定し、音声認識装置113は第1の言語に対応する第1の音声認識エンジン113aを用いて着信時の通話中の音声情報を認識し、着信後に音声認識制御装置111は第1の言語から第2の言語(英語)への切替えを指示する切替え指示に応答して第1の言語を第2の言語に切替え、音声認識装置113は第2の言語に対応する第2の音声認識エンジン113bを用いて着信後の通話中の音声情報を認識する。【選択図】図1

Description

本発明は、通話音声処理システム及び通話音声処理方法に関する。
コールセンタやオフィスにおいて、通話先の顧客とオペレータの通話内容を録音して、後日のトラブルに備えたり、内容をレビューしたりすることが行われている。録音データは、音声認識してテキストデータに変換することにより、コンピュータシステムで検索したり表示あるいは印刷できるようになり、業務データとしてより有効活用することができる。
コールセンタで行われる音声認識に関して、特許文献1では、異なる言語ごとに用意された異なる音声認識エンジン(辞書)を用いて音声認識を行っている。
特開2017−78753号公報
特許文献1では、異なる言語ごとに音声認識エンジンを採用して音声を認識している。しかし、特許文献1では、録音した音声を通話終了後に音声認識エンジンを用いて認識している。顧客との通話中は音声認識エンジンを切替えてはおらず、通話中は同じ音声認識エンジンを使用し続けている。
このように、特許文献1では、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることについては考慮されていない。
本発明の目的は、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることにある。
本発明の一態様の通話音声処理システムは、複数の言語を音声認識するための複数の音声認識エンジンを有する音声認識装置と、複数の通話情報と前記複数の言語とを対応付ける言語対応テーブルと、前記複数の言語の中からいずれか一つの言語に切替える切替え用テーブルとを有する通話録音情報管理装置と、前記複数の言語を前記複数の音声認識エンジンにそれぞれ対応付ける音声認識エンジン選択テーブルを有する音声認識制御装置とを備え、着信時に、前記音声認識制御装置は、前記言語対応テーブルを参照して前記通話情報に対応する言語として第1の言語を自動的に決定し、前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第1の言語に対応する第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、前記着信後に、前記音声認識制御装置は、前記第1の言語から前記第1の言語とは異なる第2の言語への切替えを指示する切替え指示に応答して、前記切り替え用テーブルを参照して前記第1の言語を前記第2の言語に切替え、前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第2の言語に対応する第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識することを特徴とする。
本発明の一態様の通話音声処理方法は、第1の言語を音声認識するための第1の音声認識エンジンと、前記第1の言語とは異なる第2の言語を音声認識するための第2の音声認識エンジンとを用意し、着信時に、通話情報に対応する言語として前記第1の言語を自動的に決定し、前記第1の言語に対応する前記第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、着信後に、前記第1の言語から前記第2の言語への切替えを指示する切替え指示に応答して、前記第2の言語に対応する前記第2の音声認識エンジンが利用中か否かを判断し、前記第2の音声認識エンジンが利用中でなく前記第2の音声認識エンジンを使用可能と判断した場合には、前記第1の言語を前記第2の言語に切替え、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識し、前記第2の音声認識エンジンが利用中により、前記第2の音声認識エンジンを使用不可能と判断した場合には、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の音声情報を通話終了後に認識することを特徴とする。
本発明の一態様によれば、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることができる。
コールセンタシステムの全体構成図である。 オペレータ用端末のオペレータPC画面を示す図である。 着番号・言語対応テーブル(T−4)を示す図である。 手動切替え用テーブル(T−5)を示す図である。 通話情報テーブル(T−6)を示す図である。 音声認識エンジン選択テーブル(T−7)を示す図である。 音声認識結果テーブル(T−8)を示す図である。 着信時の動作を説明するためのフローチャートである。 オペレータ操作による音声認識エンジン切替え時の動作を説明するためのフローチャートである。 着信時の動作を説明するためのシステム構成図である。 オペレータ操作による音声認識エンジン切替え時の動作を説明するためのシステム構成図である。 失敗時再実行時の動作を説明するためのシステム構成図である。 着信時の書換え前後の通話情報テーブルを示す図である。 手動切替え時の書換え前後の通話情報テーブルを示す図である。 書換え前後の音声認識エンジン選択テーブルを示す図である。 手動切替え時の書換え前後の手動切替え用テーブルを示す図である。
通話音声処理システムは、コールセンタ等の電話応対業務において、顧客とオペレータの通話内容をリアルタイムに認識し、認識結果を管理して保存するシステムである。
コールセンタにおけるリアルタイムの通話音声処理システムでは、一般的に着番号等のCTI(Computer Telephony Integration)情報を音声認識エンジン(辞書)に紐付けて、音声認識を行う。CTI情報は、言語を特定することができる情報である。多言語を扱う場合、音声認識エンジンは言語ごとに用意する。ここで、CTIとは、電話とコンピューターを連携して利用する技術の総称をいう。コールセンタなどで、顧客の電話番号から顧客情報をデータベースに照会したり、自動発信や自動転送したりする技術である。
複数言語に対応するオペレータの通話対応時において、顧客の言語とCTI情報に紐づく言語が一致していない場合、適切な音声認識エンジンが選択されず、認識精度が落ちる場合がある。
従来の通話音声処理システムは、着番号等のCTI情報と音声認識エンジンの紐付けで音声認識エンジンが選択されるため、会話内容に対して適切な音声認識エンジンが選択できず、認識精度が落ちる場合がある。
また、CTI情報に依存させずに多言語に対応する方法として、システムで利用可能な複数の音声認識エンジンを並列に動作させる方法が考えられるが、システムリソースが多く必要となりコストが多くかかる。
本発明の実施形態では、CTI情報による音声認識エンジンの自動選択に加え、オペレータがマニュアル操作で音声認識エンジンを選択できるようにする。これにより、システムリソースの利用を抑えて適切な音声認識エンジンを選択可能になる。
本発明の実施形態では、複数の音声認識エンジンを並列に動作させる方式と比較して、少ないシステムリソースで多言語対応のリアルタイムシステムを実現する。具体的には、オペレータのマニュアル操作により、CTI情報のみに依存せず、最適な音声認識エンジンを使うことで認識率を高める。また、複数の音声認識エンジンを同時に動作させることなく、システムリソースを効率的に利用する。
本発明の実施形態では、顧客との通話中に異なる言語ごとに最適な認識エンジンを採用することを可能にして通話中における音声の認識率を向上させる。
以下、図面を参照して、本発明の実施例について説明する。
最初に、図1を参照して、コールセンタシステムについて説明する。
図1に示されるように、コールセンタシステムは、ネットワーク100を介して、IP−PBX(Internet Protocol−Private Branch eXchange:IP回線対応構内交換機)装置101、CTI装置102、音声通話処理システム103及びオペレータ用端末104が接続されて構成されている。
IP−PBX装置101は、顧客105の通話端末106からの呼を受けて、IP網と公衆網107のプロトコル変換、発着信の呼制御などをおこなう。
CTI装置102は、IP−PBX装置101から通話情報(着番号等)を取得して、音声通話処理システム103に送信する。
オペレータ用端末104は、オペレータ108がオペレータ業務に使うオペレータPC端末であり、顧客105の通話端末106と公衆網107を介して通話を行う。
顧客105の通話端末106から公衆網107を介して接続されるIP−PBX装置101が、ネットワーク100を介してオペレータ用端末104と接続して通話を行う。オペレータ108は、オペレータ用端末104から電話操作をすることができ、顧客105からの着信がオペレータ用端末104に表示されると、オペレータ用端末104から応答を操作して顧客105とオペレータ108は通話状態になる。
音声通話処理システム103は、通話録音情報管理装置109、通話録音装置110、音声認識制御装置111、音声認識結果管理装置112、音声認識装置113を有する。
通話録音装置110は、通話端末106でやりとりされる通話のデータストリームを、IP−PBX装置101を介して録音データとして録音する装置である。通話端末106での通話は、通話録音装置110に送られて録音ファイルとして保存される。通話録音装置110は、ミラーリングした通話音声を取得して録音して音声認識装置113に送信する。通話録音情報管理装置109は、通話情報と録音情報を対応付けて管理するためのサーバである。
音声認識装置113は、録音データを音声認識エンジンにより、テキストデータに変換する。音声認識装置113は、日本語用エンジン113aと英語語用エンジン113bを有する。通常、顧客105が日本語で通話する場合には日本語用エンジン113aが用いられ、顧客105が英語で通話する場合には英語用エンジン113bが用いられる。日本語用エンジン113a及び英語用エンジン113bは、音声認識のアルゴリズム処理を行い、認識結果をテキストデータとして出力する。音声認識装置113は、各言語に対し複数の音声認識エンジンを持つことも可能である。
音声認識制御装置111は、オペレータ用端末104からの音声認識要求を受けて、音声認識装置113に指示を与える。音声認識結果管理装置112は、音声認識装置113が出力するテキストデータをデータベースに格納して音声認識結果を蓄積する。ブラウザアクセスで認識した結果や言語選択画面をオペレータ用端末104に表示させる。
次に、実施例の通話音声処理システムについて説明する。
図2に示すように、オペレータ用端末104のオペレータPC画面は、通話内容表示領域200と、通話内容表示領域200に隣接した言語選択領域210を有する。音声認識装置113の音声認識エンジンを用いて音声を認識した認識結果は、音声認識結果管理装置112を介してオペレータ用端末104の通話内容表示領域200に表示される。言語選択画面は、言語選択領域210に表示される。
オペレータ用端末104のオペレータPC画面は、音声認識結果が表示される通話内容表示領域200と言語選択領域210をウェブブラウザで表示する。言語選択領域210では、音声認識装置113が対応可能な言語が表示されており、言語を選択すると通話録音情報管理装置112に通知する。音声をリアルタイム認識する際、開始時(着信時)はCTI情報(例えば、着番号)により予め決められた音声認識エンジンが選択される。
オペレータ108が音声認識エンジンの言語を切替える際に、オペレータ108は言語選択領域210で言語を選択する。選択した言語に対応する音声認識エンジンをテーブルを用いて決定し、音声認識エンジンを即時に切替える。
言語選択領域は、日本語と英語(English)が選択可能なオペレータPC画面である。オペレータ108は、オペレータ用端末104を操作して言語選択領域210ら言語を選択する。この場合は、オペレータ108は、言語選択領域210から日本語か英語(English)を選択可能である。言語を選択したら、言語選択領域210の“submit”のボタン220を押して言語を決定する。通話内容表示領域200には、音声認識結果管理装置112に蓄積されたが音声認識結果230が表示される。
通話録音情報管理装置109は、着番号・言語対応テーブル300(図3のテーブル(T−4))、手動切替え用テーブル400(図4のテーブル(T−5)、通話情報テーブル500(図5のテーブル(T−6))及び音声認識結果テーブル700(図7のテーブル(T−8))を有する。音声認識制御装置11は、音声認識エンジン選択テーブル600(図6のテーブル(T−7))を有する。
図3に示すように、着番号・言語対応テーブル(T−4)300は、着番号300aと言語300bを対応付けるテーブルである。例えば、着番号300aの“111”には、言語300bの“日本語”が対応している。
図4に示すように、手動切替え用のテーブル(T−5)400は、切替えID400aと言語400bを対応付けるテーブルである。オペレータ108による言語選択時にオペレータ108が手動で日本語か英語を切り替えて選択するテーブルである。例えば、切替えID400aの“F001”には、言語400bの”日本語”が対応し、切替えID400aの“F002”には言語400bの“英語”が対応している。
図5に示すように、通話情報テーブル(T−6)500は、通話識別ID500a、着番号500b、エンジンID500c及び言語500dを対応付けて管理するテーブルである。例えば、通話識別ID500aの“AAAA”、着番号500bの“1113”、エンジンID500cの“1”には、言語500dの“日本語”が対応する。また、通話識別ID500a“のBBBB”、着番号500bの“1111”、エンジンID500cの“4”には、言語500dの“英語”が対応している。
図6に示すように、音声認識エンジン選択テーブル(T−7)600は、音声認識エンジンを選択するためのテーブルである。音声認識エンジン選択テーブル(T−7)600は、同じ言語用エンジンが複数ある場合の対応も考慮して、ID600a、言語600b、音声認識エンジンアドレス600c、利用状態600dを対応付けて管理する。ここで、音声認識エンジン選択テーブル(T−7)600では省略するが、方言別の言語のエンジンを用意しても良い。方言別の言語とは、英語の場合には、UK英語あるいはUS英語などである。例えば、ID600aの“1”、言語600bの“日本語”、音声認識エンジンアドレス600cの“xxx.xxx.xxx.100.50000”では、利用状態600dは“利用中”となっている。
図7に示すように、音声認識結果テーブル(T−8)700は、通話を識別するための通話識別ID70a、音声認識結果の出力順に付与されるシーケンス番号700b、認識実行日時700c(テーブル追加日時に等しい)、認識結果語彙700d(1レコードは、1有音区間分のデータを持つ)を有する。音声認識結果管理装置112は、音声認識装置113から音声認識結果を受信したら音声認識結果テーブル(T−8)700に格納する。音声認識結果テーブル(T−8)の認識実行日時によって、通話中のリアルタイムの認識か、通話終了後の認識かを判断する。例えば、通話識別ID700aの“BBBBB”シーケンス番号700bの“1”、認識実行日時700cの“2017/09/04 13:00:05”には、認識結果語彙700dの“波浪”が対応している。
次に、実施例の通話音声処理システムの動作について説明する。
例として、日本語と英語に対応している通話音声処理システムにおいて、自動選択で日本語用エンジン113aが選択された後、英語用エンジン113bに切替える場合を説明する。
図8及び図10を参照して、着信時の動作について説明する。
最初に、通話録音情報管理装置109は、CTI装置102からCTI情報(通話情報)として着番号を受信する(S800)。
通話録音情報管理装置109は、着番号と言語を対応付ける着番号・言語対応テーブル300(図3のテーブル(T−4))を参照して言語として日本語を選択して着番号言語変換処理(S801)を行い、言語として日本語を使用することを音声認識制御装置111へ通知する(S802)。
音声認識制御装置111は、音声認識エンジンとして日本語用エンジン113aを選択する音声認識エンジン選択処理(S803)を行い、音声認識エンジン選択テーブル600(図6のテーブル(T−7))を書換え、音声認識エンジンアドレスとIDを通話録音情報管理装置109に返す(S804)。
ここで、書換え前後の音声認識エンジン選択テーブルをそれぞれ図15(a)、(b)に示す。テーブル(T−7a)600Aが書換え前のテーブル(図15(a))であり、テーブル(T−7a’)600Bが書換え後のテーブル(図15(b))である。具体的には、着信時書換え前の音声認識エンジン選択テーブル(T−7a)600AのID“1”の“日本語”が“空き”の状態から、着信時書換え後の音声認識エンジン選択テーブル(T−7a’)600BのID“1”の“日本語”が“利用中”の状態になる。
通話録音情報管理装置109は、通話情報を設定(S805)して、音声認識エンジンアドレスを通話録音装置110に送る(S806)。この場合は、通話録音装置110に日本語用エンジン113aのアドレスを送る。通話録音情報管理装置109は、図5の通話情報テーブル(T−6a)500に当該通話情報を追加する。具体的には、図13(a)、(b)に示すように、着信時書換え前の通話情報テーブル(T−6a)500Aに、通話識別ID“BBBBB”、着番号“1113”、エンジンID“1”、言語“日本語”を追加して、着信時書換え後の通話情報テーブル(T−6a’)500Bを作成する。
通話録音装置110は、通話を録音し、エンジンアドレス(日本語用エンジンアドレス)を設定してミラーリングされた通話音声を音声認識装置111に送る(S808)。
音声認識装置113は、日本語用エンジン113aで音声認識を実行し(S809)、認識結果を音声認識結果管理装置に送る(S810)。
音声認識結果管理装置112は、音声認識装置113から送られてきた認識結果を蓄積する(S811)。
音声認識結果管理装置112に蓄積された認識結果は、オペレータ用端末104(オペレータPC)に送られて、音声認識結果がオペレータPC画面の通話内容表示領域200(図2参照)に表示される(S812)。
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された認識結果を閲覧する(S813)。
この際、図10に示すように、顧客105が日本語ではなく英語で通話を行った場合には、音声認識装置113は、日本語用エンジン113aで音声認識を実行し音声認識結果管理装置112に認識結果を送る。この場合、音声認識結果管理装置112は、音声認識装置113から送られてきた間違った認識結果を蓄積して記録する。そして、音声認識結果管理装置112に蓄積された間違った認識結果は、オペレータ用端末(オペレータPC)104に送られて間違った音声認識結果がオペレータPC画面の通話内容表示領域200に表示される。
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された間違った認識結果を閲覧する。
例えば、顧客105が“Hello”という音声を発した場合には、音声認識装置113は日本語用エンジン113aで音声認識を実行し“波浪”と認識する。この結果、音声認識結果管理装置112には間違った認識結果(“波浪”)が蓄積される。音声認識結果管理装置112に蓄積された間違った認識結果(“波浪”)は、オペレータPC画面の通話内容表示領域200に表示される。
次に、図9及び図11を参照して、オペレータ操作による音声認識エンジン切替え時の動作について説明する。
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された間違った認識結果(図10の“波浪”)を閲覧・確認して、音声認識エンジンの誤りに気付いて、音声認識の言語を日本語から英語(English)に切替える。オペレータ108は、音声認識の言語を英語に切り替えるため、オペレータPC画面に表示された言語選択領域210で英語(English)を選択し、“submit”のボタン220を押して言語として英語を選択し決定する(S900)。そして、英語用の切替えID(F002)が通話録音情報管理装置109に通知される(S901)。
通話録音情報管理装置109は、手動切替え用テーブル400(図4のテーブル(T−5))を参照して、英語用切替えID(F002)に対応した言語である英語に変換する(S902)。
通話録音情報管理装置109は、手動切替え用テーブル400(図4のテーブル(T−5))を用いて変換した言語である英語を音声認識制御装置111へ通知して、音声認識エンジンとして英語用エンジンを利用することを音声認識制御装置111へ知らせる(S903)。
音声認識制御装置111は、音声認識エンジンとして英語用エンジン113bを選択(S904)して、音声認識エンジン選択テーブル600(図6のテーブル(T−7))の書換え利用可能な英語用エンジンアドレスとIDを返す(S905)。ここで、切替え時の書換え前後のテーブルをそれぞれ図16(a)、(b)に示すテーブル(T−7b)600C、テーブルT−7b’(600D)に示す。
具体的には、手動切替え時書換え前の音声認識エンジン選択テーブル(T−7b)600CのID“1”の“日本語”が“利用中”の状態から、手動切替え時書換え後の音声認識エンジン選択テーブル(T−7b’)600DのID“1”の“日本語”が“空き”の状態になる。さらに、手動切替え時書換え前の音声認識エンジン選択テーブル(T−7b)600CのID“3”の“英語”が“空き”の状態から、手動切替え時書換え後の音声認識エンジン選択テーブル(T−7b’)600DのID“3”の“英語”が“利用中”の状態になる。
通話録音情報管理装置109は、通話情報を更新する(S906)。具体的には、通話情報に紐付いた音声認識エンジンのIDを利用する英語用エンジン113bのIDに更新する。そして、通話録音情報管理装置109は、通話録音装置110に英語用のエンジンアドレスを送る(S907)。
通話録音情報管理装置109は、図14(a)、(b)に示すように、手動切替え時書換え前の通話情報テーブル(T−6b)500Cを手動切替え時書換え後の通話情報テーブル(T−6b’)500Dに切替える。具体的には、手動切替え時書換え前の通話情報テーブル(T−6b)500Cの通話識別ID“BBBBB”のエンジンIDを“1”から“3”に、言語を“日本語”から“英語”に切替えて、手動切替え時書換え後の通話情報テーブル(T−6b’)500Dを作成する。
通話録音装置110は、音声認識エンジンのアドレスを更新して(S908)、通話音声を音声認識装置に送る(S909)。
音声認識装置113は、切替えた英語用エンジン113bを用いて音声認識を実行し(S910)、音声認識結果管理装置112に認識結果を送信する(S911)。
音声認識結果管理装置112は、音声認識装置113から送られてきた認識結果を蓄積する(S912)。
音声認識結果管理装置112に蓄積された認識結果は、オペレータ用端末(オペレータPC)104に送られて音声認識結果がオペレータPC画面の通話内容表示領域200(図2参照)に表示される(S913)。
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された認識結果を閲覧する(S914)。
この際、図11に示すように、顧客105が英語で通話を行った場合には、音声認識装置113は、英語用エンジン113bで音声認識を実行し音声認識結果管理装置112に認識結果を送る。この場合、音声認識結果管理装置112は、音声認識装置113から送られてきた正しい(顧客の言語に合った)認識結果を蓄積する。そして、音声認識結果管理装置112に蓄積された正しい認識結果は、オペレータ用端末(オペレータPC)104に送られて正しい音声認識結果がオペレータPC画面の通話内容表示領域220に表示される。オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された正しい認識結果を閲覧する。
例えば、顧客105が“Please”という音声を発した場合には、音声認識装置113は英語用エンジン113bで音声認識を実行し“Please”と認識して、音声認識結果管理装置112に正しい認識結果(“Please”)が蓄積される。音声認識結果管理装置112に蓄積された正しい認識結果(“Please”)は、オペレータPC画面の通話内容表示領域200に表示される。
最後に、図12を参照して、認識エンジンの切替え失敗時の再実行動作について説明する。
通話終了後、通話録音装置110は通話の録音を録音ファイル110aに出力し、音声認識装置113に送る。音声認識装置113は、録音ファイル110aに対して音声認識を実行し音声認識結果管理装置112に認識結果を蓄積する。
具体的には、通話中に英語用エンジン113bが利用中により英語用エンジン113bへの即時切替えができなかった場合は、英語用エンジン113bが利用可能になった時点である通話終了後に出力される録音ファイル110aを音声認識装置113に送る。そして、通話終了後に英語用エンジン113bを用いて音声認識を実行する。
具体的には、着信後に、英語用エンジン113bが利用中か否かを判断する。この判断の結果、英語用エンジン113bが利用中でなく、英語用エンジン113bを使用可能と判断した場合には、英語用エンジン113bを用いて着信後の通話中の音声情報を認識する。
一方、上記判断の結果、英語用エンジン113bが利用中により、英語用エンジン113bを使用不可能と判断した場合には、通話終了後に、英語用エンジン113bを用いて着信後の音声情報を通話終了後に認識する。
実施例によれば、CTI情報による音声認識エンジンの自動選択に加え、オペレータがマニュアル操作で音声認識エンジンを選択できるようにする。これにより、システムリソースの利用を抑えて適切な音声認識エンジンを選択することが可能になる。
100 ネットワーク
101 IP−PBX装置
102 CTI装置
103 音声通話処理システム
104 オペレータ用端末
105 顧客
106 通話端末
107 公衆網
108 オペレータ
109 通話録音情報管理装置
110 通話録音装置
111 音声認識制御装置
112 音声認識結果管理装置
113 音声認識装置

Claims (11)

  1. 複数の言語を音声認識するための複数の音声認識エンジンを有する音声認識装置と、
    複数の通話情報と前記複数の言語とを対応付ける言語対応テーブルと、前記複数の言語の中からいずれか一つの言語に切替える切替え用テーブルとを有する通話録音情報管理装置と、
    前記複数の言語を前記複数の音声認識エンジンにそれぞれ対応付ける音声認識エンジン選択テーブルを有する音声認識制御装置と、を備え、
    着信時に、前記音声認識制御装置は、
    前記言語対応テーブルを参照して前記通話情報に対応する言語として第1の言語を自動的に決定し、
    前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第1の言語に対応する第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、
    前記着信後に、前記音声認識制御装置は、
    前記第1の言語から前記第1の言語とは異なる第2の言語への切替えを指示する切替え指示に応答して、前記切り替え用テーブルを参照して前記第1の言語を前記第2の言語に切替え、
    前記音声認識装置は、
    前記音声認識エンジン選択テーブルを参照して、前記第2の言語に対応する第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識することを特徴とする通話音声処理システム。
  2. 前記通話の音声情報を録音ファイルに録音する通話録音装置を更に有し、
    着信時に、前記通話録音装置は、前記着信時の通話中の音声情報を前記録音ファイルに録音し、
    前記音声認識装置は、前記第1の音声認識エンジンを用いて前記録音ファイルに録音された前記着信時の通話中の音声情報を認識し、
    前記着信後に、前記通話録音装置は、前記着信後の通話中の音声情報を前記録音ファイルに録音し、
    前記音声認識装置は、前記第2の音声認識エンジンを用いて前記録音ファイルに録音された前記着信後の通話中の音声情報を認識することを特徴とする請求項1に記載の通話音声処理システム。
  3. 前記着信後に、前記音声認識制御装置は、
    オペレータが操作する操作端末に表示された言語選択画面を介して指示される前記切替え指示に応答して、前記第1の言語を前記第2の言語に切り替えることを特徴とする請求項1に記載の通話音声処理システム。
  4. 前記音声認識装置の前記音声認識エンジンを用いて前記音声情報を認識した音声認識結果を前記操作端末の通話内容表示領域に表示させ、前記言語選択画面を前記通話内容表示領域に隣接した言語選択領域に表示させる音声認識結果管理装置を更に有することを特徴とする請求項3に記載の通話音声処理システム。
  5. 前記音声認識結果管理装置は、
    前記第1の音声認識エンジンを用いて前記着信時の音声情報を認識した前記音声認識結果を蓄積し、蓄積された前記音声認識結果を前記通話内容表示領域に表示し、
    前記音声認識結果に応じて、前記第1の言語から前記第2の言語への切替え指示を前記通話録音情報管理装置に通知することを特徴とする請求項1に記載の通話音声処理システム。
  6. 前記第1の言語から前記第2の言語への切替え指示を通知された前記通話録音情報管理装置は、
    前記音声認識装置に対して、前記第2の音声認識エンジンを用いて前記着信後の音声情報を認識することを通知し、該通知に応答して、前記第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識した前記音声認識結果を蓄積し、蓄積された前記音声認識結果を前記通話内容表示領域に表示することを特徴とする請求項5に記載の通話音声処理システム。
  7. 前記通話録音情報管理装置の有する前記言語対応テーブルは、前記通話情報としての着番号と前記複数の言語とを対応付ける着番号言語対応テーブルであることを特徴とする請求項1に記載の通話音声処理システム。
  8. 第1の言語を音声認識するための第1の音声認識エンジンと、前記第1の言語とは異なる第2の言語を音声認識するための第2の音声認識エンジンとを用意し、
    着信時に、通話情報に対応する言語として前記第1の言語を自動的に決定し、
    前記第1の言語に対応する前記第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、
    着信後に、前記第1の言語から前記第2の言語への切替えを指示する切替え指示に応答して、前記第2の言語に対応する前記第2の音声認識エンジンが利用中か否かを判断し、
    前記第2の音声認識エンジンが利用中でなく前記第2の音声認識エンジンを使用可能と判断した場合には、前記第1の言語を前記第2の言語に切替え、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識し、
    前記第2の音声認識エンジンが利用中により、前記第2の音声認識エンジンを使用不可能と判断した場合には、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の音声情報を通話終了後に認識することを特徴とする通話音声処理方法。
  9. 前記通話中の前記音声情報を録音ファイルに録音し、
    前記通話終了後に、前記第2の音声認識エンジンを用いて前記録音ファイルに録音された前記音声情報を認識することを特徴とする請求項8に記載の通話音声処理方法。
  10. 前記着信後に、オペレータが操作する操作端末に表示された言語選択画面を介して指示される前記切替え指示に応答して、前記第1の言語を前記第2の言語に切り替えることを特徴とする請求項8に記載の通話音声処理方法。
  11. 前記第1の音声認識エンジンを用いて前記着信時の音声情報を認識した音声認識結果を表示し、
    前記着信後に、前記音声認識結果に応じて、前記第1の言語から前記第2の言語への切替えを指示し、
    前記指示に基づいて、前記第2の音声認識エンジンを用いて前記着信後の音声情報を認識し、
    前記第2の音声認識エンジンを用いて前記着信後の音声情報を認識した音声認識結果を表示することを特徴とする請求項8に記載の通話音声処理方法。
JP2017185610A 2017-09-27 2017-09-27 通話音声処理システム及び通話音声処理方法 Active JP6920153B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017185610A JP6920153B2 (ja) 2017-09-27 2017-09-27 通話音声処理システム及び通話音声処理方法
US16/018,112 US20190096399A1 (en) 2017-09-27 2018-06-26 Call voice processing system and call voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017185610A JP6920153B2 (ja) 2017-09-27 2017-09-27 通話音声処理システム及び通話音声処理方法

Publications (2)

Publication Number Publication Date
JP2019062404A true JP2019062404A (ja) 2019-04-18
JP6920153B2 JP6920153B2 (ja) 2021-08-18

Family

ID=65807750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017185610A Active JP6920153B2 (ja) 2017-09-27 2017-09-27 通話音声処理システム及び通話音声処理方法

Country Status (2)

Country Link
US (1) US20190096399A1 (ja)
JP (1) JP6920153B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931005A (zh) * 2019-11-20 2020-03-27 珠海格力电器股份有限公司 电器设备的语音自定义方法、装置、存储介质及电器设备
WO2024018598A1 (ja) * 2022-07-21 2024-01-25 Nttテクノクロス株式会社 情報処理システム、情報処理方法及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
CN115376490A (zh) * 2022-08-19 2022-11-22 北京字跳网络技术有限公司 一种语音识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005134819A (ja) * 2003-10-31 2005-05-26 Vodafone Kk 移動体通信端末
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2017067881A (ja) * 2015-09-29 2017-04-06 株式会社東芝 音声認識装置、音声認識システムおよび音声認識方法
JP2017078753A (ja) * 2015-10-19 2017-04-27 株式会社日立情報通信エンジニアリング コールセンタシステム、および、その音声認識制御方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
JP5059036B2 (ja) * 2009-01-30 2012-10-24 株式会社エヌ・ティ・ティ・ドコモ 音声認識サーバ、電話機、音声認識システム、および音声認識方法
JP5545467B2 (ja) * 2009-10-21 2014-07-09 独立行政法人情報通信研究機構 音声翻訳システム、制御装置、および情報処理方法
JP4942860B2 (ja) * 2010-01-22 2012-05-30 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
US9053096B2 (en) * 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
DE112013007617B4 (de) * 2013-11-20 2020-06-18 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005134819A (ja) * 2003-10-31 2005-05-26 Vodafone Kk 移動体通信端末
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2017067881A (ja) * 2015-09-29 2017-04-06 株式会社東芝 音声認識装置、音声認識システムおよび音声認識方法
JP2017078753A (ja) * 2015-10-19 2017-04-27 株式会社日立情報通信エンジニアリング コールセンタシステム、および、その音声認識制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931005A (zh) * 2019-11-20 2020-03-27 珠海格力电器股份有限公司 电器设备的语音自定义方法、装置、存储介质及电器设备
CN110931005B (zh) * 2019-11-20 2021-03-23 珠海格力电器股份有限公司 电器设备的语音自定义方法、装置、存储介质及电器设备
WO2024018598A1 (ja) * 2022-07-21 2024-01-25 Nttテクノクロス株式会社 情報処理システム、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP6920153B2 (ja) 2021-08-18
US20190096399A1 (en) 2019-03-28

Similar Documents

Publication Publication Date Title
JP6920153B2 (ja) 通話音声処理システム及び通話音声処理方法
US10129394B2 (en) Telephonic communication routing system based on customer satisfaction
US20210112161A1 (en) System and Method for Omnichannel User Engagement and Response
JP4385110B2 (ja) コールセンタシステム,電話着信呼分配装置及び電話着信呼分配方法,プログラム
US8670529B1 (en) Context aware help system
JP6687358B2 (ja) コールセンタシステム、および、その音声認識制御方法
WO2019179019A1 (zh) 自动化测试方法、装置、计算机设备以及存储介质
CN110176252A (zh) 基于风险管控模式的智能语音质检方法及系统
US7076032B1 (en) Method and system for processing telephone calls by IVR
US11900942B2 (en) Systems and methods of integrating legacy chatbots with telephone networks
JP2011151620A (ja) 拠点間電話引継システムおよびその方法
JP5631244B2 (ja) 電話システム及び電話システムの電話通信方法及びデータ中継サーバ及びプログラム
KR102299993B1 (ko) 네트워크 기반의 콜센터 운영 시스템 및 그 방법
US20210203785A1 (en) Enhancing agent's efficiency in a contact center by using a multi-agent to multi-contact routing orchestration
JP2018037971A (ja) 通信サービス提供システムおよび通信サービス提供方法
JP2005292476A (ja) 顧客応対方法及び装置
JP2009290532A (ja) コール受付システム、コール受付方法、及びコール受付プログラム
JP3996829B2 (ja) 問合せ対応システム,問合せ対応方法および問合せ対応プログラム
CN111246030A (zh) 一种号码有效性判断的方法、装置和系统
JP7452090B2 (ja) 処理システム、処理方法、管理者装置、及びプログラム
WO2023162010A1 (ja) 支援装置、支援方法及びプログラム
JP6514571B2 (ja) コールセンタシステム及びオペレータ業務管理方法
JP2022104422A (ja) 情報処理システム、電話機、情報処理方法、及び、プログラム
WO2019184208A1 (zh) 可视化ivr实现方法、装置、计算机设备以及存储介质
WO2022209143A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6920153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150