JP2023146216A - Conversion-into-text support device and conversion-into-text support method - Google Patents
Conversion-into-text support device and conversion-into-text support method Download PDFInfo
- Publication number
- JP2023146216A JP2023146216A JP2022053293A JP2022053293A JP2023146216A JP 2023146216 A JP2023146216 A JP 2023146216A JP 2022053293 A JP2022053293 A JP 2022053293A JP 2022053293 A JP2022053293 A JP 2022053293A JP 2023146216 A JP2023146216 A JP 2023146216A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- vowels
- correct
- vowel
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000006243 chemical reaction Methods 0.000 claims abstract description 90
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 33
- 238000003491 array Methods 0.000 claims description 22
- 230000010365 information processing Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、テキスト化支援装置及びテキスト化支援方法に関するものである。 The present invention relates to a text conversion support device and a text conversion support method.
営業員やコールセンタ等における通話内容が、コンプライアンス等の観点に照らして適切か確認するニーズが存在する。また近年では、そうした通話内容の録音データを聞き直して確認するといった旧来手法ではなく、当該音声データのテキスト化を行った上で確認対象とする手法も提案されている。
そうしたテキスト化に関連する従来技術としては、商談や営業活動の際の顧客への説明内容等のデータに基づいて、「禁止表現」の有無、および「必要事項」が含まれているか否かのいずれについてもチェック対象とするコンプライアンスチェックシステムおよびコンプライアンスチェックプログラム(特許文献1参照)などが提案されている。
There is a need to confirm whether the content of calls made by salespeople, call centers, etc. is appropriate from a compliance perspective. In addition, in recent years, instead of the traditional method of re-listening to and checking the recorded data of such a call, a method has been proposed in which the voice data is converted into text and then checked.
Conventional technology related to such text conversion is based on data such as the content of explanations to customers during business negotiations and sales activities, and determines whether "prohibited expressions" are included and whether "required matters" are included. Compliance check systems and compliance check programs (see Patent Document 1), etc., have been proposed to check both.
この技術は、業担当者が顧客に対して行った各発話についてコンプライアンスを遵守しているかをチェックするコンプライアンスチェックシステムであって、前記営業担当者の前記各発話の内容を音声認識技術によりテキスト化したテキストデータに対して、形態素解析を含む自然言語解析処理を行って解析済テキストデータとして出力するテキスト解析部と、前記各発話に係る前記解析済テキストデータ内の各発話について、所定の基準に従って連続する1つ以上の発話からなるブロックにまとめ、前記各ブロックにおいて、顧客に対して説明するべき必要事項として予め定義された第1のテキストデータの内容が説明されているか否かを判定する判定部と、前記各発話に係る前記解析済テキストデータについて、顧客に対して述べてはいけない禁止表現の内容として予め定義された第2のテキストデータにマッチするものがある場合に、対象の前記発話において対象の前記禁止表現が述べられたものと判定するキーワードマッチング部と、前記営業担当者が前記顧客に対して行った前記各発話のデータに前記営業担当者および/または前記顧客を特定する管理情報と関連付けて記録するデータ記録部と、を有し、前記テキスト解析部は、前記営業担当者が前記顧客に対して行った前記各発話のデータに、前記管理情報に基づいて抽出される前記営業担当者が前記顧客に対して行った過去の発話についても含め、前記判定部は、前記ブロックにおいて、前記第1のテキストデータの内容が説明されていると判定した場合に、前記ブロックに対して前記必要事項のカテゴリを付与して記録するとともに、前記必要事項のそれぞれについて、予め設定した所定の評価基準に基づいて、説明された度合を判定するシステムである。 This technology is a compliance check system that checks whether compliance is observed with respect to each utterance made by a sales representative to a customer, and the content of each utterance made by the sales representative is converted into text using voice recognition technology. a text analysis unit that performs natural language analysis processing including morphological analysis on the analyzed text data and outputs it as analyzed text data; Judgment for grouping into blocks consisting of one or more consecutive utterances and determining whether or not the contents of first text data predefined as necessary matters to be explained to the customer are explained in each block. and the analyzed text data related to each of the utterances, if there is one that matches second text data that is predefined as content of prohibited expressions that must not be said to the customer, the target utterance is a keyword matching unit that determines that the target prohibited expression is said in the above, and management that identifies the salesperson and/or the customer in data of each of the utterances made by the salesperson to the customer. a data recording unit that records the information in association with the information; When the determination unit determines that the content of the first text data is explained in the block, including past utterances made by the salesperson to the customer, the determination unit In this system, the necessary matters are assigned categories and recorded, and the degree to which each of the necessary matters has been explained is determined based on predetermined evaluation criteria set in advance.
上述のようなテキスト化については、深層学習技術等の進展によって精度向上が図られてきおり、その利活用が進んでいる。例えば、金融分野における通話録音データの利活用の一例として、NGワードの発言有無、正しい顧客名、商品名の発音有無をチェックするといったものがある。
当該チェックに際しては、通話録音データをテキスト化したものに対して、キーワードマッチングを行うケースが多い。ところが、録音状況や発話者の癖などの要因により、テキスト化の精度が低くなりやすい通話(誤検知が多い通話)の存在も判明しており、こうした通話に関して、精度良くキーワードマッチングを行うことは困難であった。
With regard to the above-mentioned text conversion, advances in deep learning technology and the like have led to improvements in accuracy, and its utilization is progressing. For example, one example of the use of call recording data in the financial field is to check whether NG words are said or not, and whether correct customer names and product names are pronounced.
When performing this check, keyword matching is often performed on the text of call recording data. However, it has been found that there are calls for which the accuracy of text conversion is likely to be low (calls with many false positives) due to factors such as recording conditions and the habits of the speaker, and it is difficult to perform accurate keyword matching for these calls. It was difficult.
つまり、音声テキスト化の精度が低くなりがちな通話に関してキーワードマッチングを行うとしても、その精度は期待出来ず、結局のところチェック漏れが発生してしまう要因となっている。 In other words, even if keyword matching is performed for phone calls, where the accuracy of voice-to-text conversion tends to be low, the accuracy cannot be expected, and this is a factor that ends up being overlooked.
そこで本発明の目的は、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とする技術を提供することにある。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a technique that enables keyword matching of the contents of a call with high accuracy, regardless of the characteristics of the speech-to-text conversion of the contents of the call.
上記課題を解決する本発明のテキスト化支援装置は、会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを保持する記憶装置と、所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理を実行する演算装置と、を含むことを特徴とする。
また、本発明のテキスト化支援方法は、情報処理装置が、会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを記憶装置にて保持し、所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理と、を実行することを特徴とする。
The text conversion support device of the present invention that solves the above problems includes a storage device that holds master data specifying correct phoneme information for each vocabulary that is expected to appear in each conversation scene or subject, and A process of applying phone call recording data to an acoustic model to extract phonemes, and a process of extracting phonemes from among the vocabulary whose phonemes are defined in the master data, which are expected to appear in the conversation scene or subject of the call recording data. a calculation device that executes a process of calculating a match rate between a correct phoneme and the extracted phoneme, and a process of specifying the vocabulary whose phonemes show a predetermined match rate as a keyword matching result as a result of the calculation; It is characterized by containing.
Further, in the text conversion support method of the present invention, the information processing device stores master data in a storage device that specifies correct phoneme information for each vocabulary that is expected to appear in each conversation scene or subject, and A process of extracting phonemes by applying the phone call recording data obtained from the phone call recording data to an acoustic model, and a process of extracting phonemes by applying the phoneme recording data obtained from the phone call recording data to an acoustic model, and a process in which phonemes are expected to appear in the conversation scene or subject of the phone call recording data from among the vocabulary for which phonemes are defined in the master data. A process of calculating a match rate between the correct phoneme of the vocabulary and the extracted phoneme, and a process of identifying the vocabulary whose phonemes show a predetermined match rate as a keyword matching result as a result of the calculation. It is characterized by
本発明によれば、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能となる。 According to the present invention, regardless of the characteristics of voice-to-text conversion regarding the contents of a call, keyword matching of the contents of the call can be performed with good accuracy.
<ネットワーク構成>
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態のテキスト化支援装置100を含むネットワーク構成図である。図1に示すテキスト化支援装置100は、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とするコンピュータである。
<Network configuration>
Embodiments of the present invention will be described in detail below with reference to the drawings. FIG. 1 is a network configuration diagram including a text
本実施形態のテキスト化支援装置100は、図1で示すように、インターネットや組織内のセキュアな回線などの適宜なネットワーク1を介して、オペレータ端末200、コールセンタシステム300、及び管理者端末400と、必要に応じて通信可能に接続されている。よって、これらを総称してテキスト化システム10としてもよい。
As shown in FIG. 1, the text
本実施形態のテキスト化支援装置100は、例えば、コールセンタでのオペレータと顧客との会話内容がコンプライアンスや顧客対応の観点で適切であったか、会話中でのNGワードの出現や、或いは必須ワードの不出現といった事象についてキーワードマッチングで特定する支援装置と言える。
The text
勿論、コールセンタ業務におけるオペレータと顧客との会話に関してキーワードマッチングを行う状況のみを本発明の適用対象とするのみならず、音声データ中に必要な/禁忌のキーワードの出現状況を検証する機会が存在する業務等であれば、いずれについても適用可能である。 Of course, the present invention is not only applicable to situations in which keyword matching is performed regarding conversations between operators and customers in call center operations, but also there is an opportunity to verify the appearance of necessary/contraindicated keywords in voice data. It can be applied to any business, etc.
一方、オペレータ端末200は、種々の商品やサービスに関する顧客からの問合せへの対応業務、或いは見込み客等に対する電話営業を行う担当者が使用する端末である。具体的には、PCと一体となった電話端末、スマートフォン、タブレット端末、パーソナルコンピュータなどを想定できる。こうしたオペレータ端末200での担当者と顧客との間の会話が録音され、通話録音データとして管理、活用されることとなる。
On the other hand, the
また、コールセンタシステム300は、上述のオペレータ端末200と顧客の電話機との間で発着信の管理や、上述のオペレータ端末200での会話内容である通話録音データを管理するシステムとなる。よって、コールセンタシステム300は、通話録音データを記憶装置にて保持・管理し、テキスト化支援装置100に適宜配信する。
Further, the
また、管理者端末400は、上述のコールセンタの管理者が操作する端末である。この管理者端末400は、当該コールセンタでの業務終了時など適宜なタイミングで、一日など所定期間分の通話録音データに関して、上述のコンプライアンス等の所定観点でのチェックを行うべくキーワードマッチング処理の指示を、テキスト化支援装置100に行い、その処理結果を取得する端末となる。
<ハードウェア構成>
また、本実施形態のテキスト化支援装置100のハードウェア構成は、図2に以下の如くとなる。
Further, the
<Hardware configuration>
Further, the hardware configuration of the text
すなわちテキスト化支援装置100は、記憶装置101、メモリ103、演算装置104、および通信装置105、を備える。
That is, the text
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
Among these, the
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
Furthermore, the
また、演算装置104は、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
Further, the
また、通信装置105は、ネットワーク1と接続して、少なくともコールセンタシステム300との通信処理を担うネットワークインターフェイスカード等を想定する。
Further, the
なお、テキスト化支援装置100がスタンドアロンマシンである場合、ユーザからのキー入力や音声入力を受け付ける入力装置、処理データの表示を行うディスプレイ等の出力装置、を更に備えるとすれば好適である。
Note that when the text
また、記憶装置101内には、本実施形態のテキスト化支援装置として必要な機能を実装する為のプログラム102に加えて、通話録音DB125、音素マスタテーブル126、及び発話類似度テーブル1276が少なくとも記憶されている。ただし、これらデータベース等についての詳細は後述する。
In addition to the
また、プログラム102は、音響モデル110、及び言語モデル111を備えるものとする。音響モデル110は、オペレータと顧客との間の会話に関する通話録音データから当該通話の音声を構成する音素を抽出する機能である。
It is also assumed that the
そのため、テキスト化支援装置100は、通話録音データが示す音声の特徴量(周波数や音の強弱)を分析し、取扱いしやすいデータとして変換する音響分析を事前に実行し、この音響分析結果が示す特徴量を音響モデル110に与えることになる。
Therefore, the text
音響モデル110は、適宜な深層学習などにより、上述の特徴量と音素との対応関係を規定したモデルであって、上述の音声の特徴量を与えることで、音波の最小単位である音素を抽出する。
The
なお、音素とは、音声を発したときに観測できる音波の最小構成要素である。日本語における音素は、母音(アイウエオ)、擬音(ン)、子音(23種類)の計3種類から成り立っている。例えば、「田中さん」の場合は、「t-a-n-a-k-a-s-a-n」が音素となる。 Note that a phoneme is the smallest component of a sound wave that can be observed when a voice is uttered. Phonemes in Japanese are made up of three types: vowels (aiueo), onomatopoeias (n), and consonants (23 types). For example, in the case of "Tanaka-san," the phoneme is "t-a-n-a-k-a-s-a-n."
本実施形態のテキスト化支援装置100は、音響モデル110により得た音素に基づいて、キーワードマッチングを行うこととなる。上述の場合、音素「t-a-n-a-k-a-s-a-n」
を、「田中さん」という日本語の語彙として特定する処理が該当する。より具体的には、各音素がどの単語に該当するか、音素マスタテーブル126を適宜利用しつつ、本発明のテキスト化支援方法を適用することで、音素を語彙に置換していく。
The text
This corresponds to the process of specifying ``Tanaka-san'' as a Japanese vocabulary word. More specifically, phonemes are replaced with vocabulary by applying the text conversion support method of the present invention while appropriately using the phoneme master table 126 to determine which word each phoneme corresponds to.
一方、言語モデル111は、キーワードマッチングで得た語彙の群れを適宜に文章化する処理を担うものとなる。例えば、「田中さん」、「信州では」、「雪が」、「積もりましたよ」、といった語彙の群れを、語彙の群れと正しい(或いは高頻度で出現する)一文との関係についての統計データ等に基づいて、可能性の高い組み合わせ例として意味ある文章を構成する。
On the other hand, the
また、本実施形態のオペレータ端末200のハードウェア構成は、図3に以下の如くとなる。
Further, the hardware configuration of the
すなわちオペレータ端末200は、記憶装置201、メモリ203、演算装置204、入力装置205、出力装置206、および通信装置207、を備える。
That is, the
このうち記憶装置201は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
Among these, the
また、メモリ203は、RAMなど揮発性記憶素子で構成される。
Furthermore, the
また、演算装置204は、記憶装置201に保持されるプログラム202をメモリ203に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制
御処理を行なうCPUである。
Further, the
また、入力装置205は、ユーザたるオペレータからのキー入力や音声入力を受け付けるキーボードやマウスといった装置で構成される。
Further, the
また、出力装置206は、演算装置204での処理結果の表示を行うディスプレイやスピーカー等の装置で構成される。
Further, the
また、通信装置207は、ネットワーク1と接続して、コールセンタシステム300や管理者端末400(あるいはテキスト化支援装置100)との通信処理を担うネットワークインターフェイスカード等を想定する。
Furthermore, the
また、本実施形態のコールセンタシステム300のハードウェア構成は、図4に以下の如くとなる。
Further, the hardware configuration of the
すなわちコールセンタシステム300は、記憶装置301、メモリ303、演算装置304、および通信装置305、を備える。
That is, the
このうち記憶装置301は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
Among these, the
また、メモリ303は、RAMなど揮発性記憶素子で構成される。
Furthermore, the
また、演算装置304は、記憶装置301に保持されるプログラム302をメモリ303に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
Further, the
また、通信装置305は、ネットワーク1と接続して、少なくともテキスト化支援装置100や、オペレータ端末200との通信処理を担うネットワークインターフェイスカード等を想定する。
Furthermore, the
なお、コールセンタシステム300がスタンドアロンマシンである場合、ユーザからのキー入力や音声入力を受け付ける入力装置、処理データの表示を行うディスプレイ等の出力装置、を更に備えるとすれば好適である。
Note that when the
また、記憶装置301内には、本実施形態のコールセンタシステム300として必要な機能を実装する為のプログラム302に加えて、通話録音データ325が少なくとも記憶されている。この通話録音データ325は、テキスト化支援装置100における通話録音DB125のレコードとなるデータである。
Furthermore, in the
また、本実施形態の管理者端末400のハードウェア構成は、図5に以下の如くとなる。
Further, the hardware configuration of the
すなわち管理者端末400は、記憶装置401、メモリ403、演算装置404、入力装置405、出力装置406、および通信装置407、を備える。
That is, the
このうち記憶装置401は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
Among these, the
また、メモリ403は、RAMなど揮発性記憶素子で構成される。
Further, the
また、演算装置404は、記憶装置401に保持されるプログラム402をメモリ403に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
Further, the
また、入力装置405は、ユーザたるオペレータからのキー入力や音声入力を受け付けるキーボードやマウスといった装置で構成される。
Further, the
また、出力装置406は、演算装置404での処理結果の表示を行うディスプレイやスピーカー等の装置で構成される。
Further, the
また、通信装置407は、ネットワーク1と接続して、テキスト化支援装置100やコールセンタシステム300との通信処理を担うネットワークインターフェイスカード等を想定する。
<データ構造例>
続いて、本実施形態のテキスト化支援装置100が用いる各種情報について説明する。図6に、本実施形態における通話録音DB125の一例を示す。本実施形態の通話録音DB125は、例えば、コールセンタシステム300から(またはオペレータ端末200から)取得した、オペレータと顧客との間の通話録音データを格納したデータベースである。
Furthermore, the
<Data structure example>
Next, various types of information used by the text
この通話録音DB125は、例えば、通話日時及び通話対象の顧客を示す顧客IDをキーに、当該顧客の氏名、当該顧客から指定された商品・サービス名、対応オペレータのID、録音データファイル、といったデータを紐付けレコードの集合体となっている。
This
また図7に、本実施形態における音素マスタテーブル126の構成例を示す。本実施形態の音素マスタテーブル126は、語彙ごとの正しい音素を規定したテーブルである。 Further, FIG. 7 shows an example of the configuration of the phoneme master table 126 in this embodiment. The phoneme master table 126 of this embodiment is a table that defines correct phonemes for each vocabulary.
この音素マスタテーブル126は、例えば、会話の場面や対象をキーとして、それら場面や対象に関する会話中に出現が想定される語彙の正しい音素の情報を規定した構成となっている。 This phoneme master table 126 has a configuration in which, for example, conversation scenes and objects are used as keys, and information on correct phonemes of vocabulary that is expected to appear during conversations regarding these scenes and objects is defined.
また図8に、本実施形態における発話類似度テーブル127の構成例を示す。本実施形態の発話類似度テーブル127は、日本語の母音を発話した場合の各間における類似度を規定したテーブルである。 Further, FIG. 8 shows a configuration example of the utterance similarity table 127 in this embodiment. The utterance similarity table 127 of this embodiment is a table that defines the similarity between utterances of Japanese vowels.
この発話類似度テーブル127は、縦横に母音を列挙し、母音それぞれの間での類似度を、最大値1(完全一致)から最小値0(類似度ゼロ)までの間の非連続な数値で規定したマトリクスを構成している。
<フロー例1>
以下、本実施形態におけるテキスト化支援方法の実際手順について図に基づき説明する。以下で説明するテキスト化支援方法に対応する各種動作は、テキスト化支援装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
This utterance similarity table 127 lists vowels vertically and horizontally, and the similarity between each vowel is expressed as a discontinuous numerical value between a maximum value of 1 (perfect match) and a minimum value of 0 (zero similarity). It constitutes a specified matrix.
<Flow example 1>
Hereinafter, the actual procedure of the text conversion support method in this embodiment will be explained based on the drawings. Various operations corresponding to the text conversion support method described below are realized by a program that the text
図9は、本実施形態におけるテキスト化支援方法のフロー例1を示す図である。この場合、テキスト化支援装置100は、例えば、コールセンタシステム300(ないしオペレータ端末200)から、通話録音データ325を取得し、これを通話録音DB125に格納する(s1)。
FIG. 9 is a diagram showing a flow example 1 of the text conversion support method in this embodiment. In this case, the text
また、テキスト化支援装置100は、予め定めたタイミングの到来を検知して、または管理者端末400からの指示を受けて、通話録音DB125で保持する通話録音データのうち、例えば、所定期間に関するものを抽出し、これを音響モデル110に適用することで、音素を抽出する(s2)。
In addition, the text
例えば、コールセンタのオペレータが「佐伯」という顧客に対して、定型の挨拶の後、「佐伯さん」という発話を行っていた通話録音データに関して、「T-A-I-K-I-S-A-N」という音素配列を抽出したとする。ここでは顧客氏名を処理対象としたが、これは一例であって、例えば、金融商品名を処理対象とするとしても好適である。 For example, regarding call recording data in which a call center operator uttered ``Mr. Saeki'' to a customer named ``Saeki'' after a standard greeting, a call center operator said ``T-A-I-K-I-S-A''. -N'' is extracted. Here, the customer name is the processing target, but this is just one example, and it is also suitable to use, for example, the financial product name as the processing target.
続いて、テキスト化支援装置100は、上述の通話録音データに紐付く顧客IDから、当該通話対象の顧客が「佐伯」さんであることを特定し、この「佐伯さん」をキーワードマッチング対象の語彙として、その音素を音素マスタテーブル126から抽出する(s3)。この場合、「S-A-E-K-I-S-A-N」という音素配列が、音素マスタテーブル126における顧客ID「C018122:佐伯***」のレコードから抽出される。
Next, the text
続いて、テキスト化支援装置100は、s2、s3でそれぞれ得た音素配列を比較し、その一致率を算定する(s4)。上述の場合、「T-A-I-K-I-S-A-N」という音素配列と、「S-A-E-K-I-S-A-N」という音素配列を照合すると、全8音素のうち、6つの音素が一致しており、6/8=0.75が一致率となる。
Next, the text
もし、従来どおり、通話録音データから得た「T-A-I-K-I-S-A-N」という音素配列を言語モデル111に適用し、「大輝さん」というテキストを得て、これと、音素マスタテーブル126で規定の語彙「佐伯さん」というテキストと照合した場合、その一致率は、全4文字のうち2文字の一致で、一致率を2/4=0.5と算定することになる。キーワードマッチングの合否基準が、例えば一致率0.6であると、オペレータとしては確かに「佐伯さん」と顧客名を発話しているにも関わらず、言語モデル111での変換精度の影響によって、これらはマッチングしないと判定されることになってしまう。
If we applied the phoneme sequence "TA-I-K-I-S-AN" obtained from the call recording data to the
一方、本発明のテキスト化支援装置100によれば、こうした言語モデル111での変換精度の問題をクリアし、音素配列間の一致率に基づくキーワードマッチングを行うことが可能であり、従来よりも精度良好なキーワードマッチングが可能となっている。
<フロー例2>
図10は、本実施形態におけるテキスト化支援方法のフロー例2を示す図である。ここでは、上述のフロー例1における効果をさらに高めるべく、母音の観点を加えて音素配列の一致度を算定する手法について説明する。なお、本フローにおいては、上述のフロー例1におけるs1、s2までは同様であるため、それ以降の処理として説明を行うものとする。
On the other hand, according to the text
<Flow example 2>
FIG. 10 is a diagram showing a flow example 2 of the text conversion support method in this embodiment. Here, in order to further enhance the effect of the above-described flow example 1, a method will be described in which the degree of coincidence of phoneme sequences is calculated by adding the viewpoint of vowels. Note that in this flow, steps s1 and s2 are the same as in the flow example 1 described above, so the subsequent processing will be described.
テキスト化支援装置100は、上述のフロー例1のように抽出した音素配列から母音(a、i、u、e、o)だけを抽出する(s10)。上述の例の場合、「A、I、I、A」という母音配列を抽出することになる。
The text
また、テキスト化支援装置100は、上述の通話対象の顧客「佐伯」さんに関する、音素および母音の抽出をs3、s10と同様に実行する(s11)。この場合、「S-A-E-K-I-S-A-N」という音素配列から、母音配列「A、E、I、A」を抽出することになる。
Further, the text
続いて、テキスト化支援装置100は、s10、s11でそれぞれ得た母音配列におけ
る母音を、配列先頭から順に発話類似度テーブル127に照合し、母音配列間で対応する位置同士の母音の類似度を特定する(s12)。
Next, the text
例えば、母音「A」と母音「A」は、発話類似度テーブル127によれば類似度「1」、母音「A」と母音「I」は、発話類似度テーブル127によれば類似度「0」、母音「A」と母音「U」は、発話類似度テーブル127によれば類似度「0」、母音「A」と母音「E」は、発話類似度テーブル127によれば類似度「0.5」、母音「A」と母音「O」は、発話類似度テーブル127によれば類似度「0.5」、などと特定する。 For example, the vowel "A" and the vowel "A" have a similarity of "1" according to the utterance similarity table 127, and the vowel "A" and the vowel "I" have a similarity of "0" according to the utterance similarity table 127. ", the vowel "A" and the vowel "U" have a similarity of "0" according to the utterance similarity table 127, and the vowel "A" and the vowel "E" have a similarity of "0" according to the utterance similarity table 127. According to the utterance similarity table 127, the vowel "A" and the vowel "O" have a similarity of "0.5".
その結果、上述の例であれば、「A、I、I、A」と「A、E、I、A」を照合し、「A」と「A」で類似度「1」、「I」と「E」で類似度「0.5」、「I」と「I」で類似度「1」、「A」と「A」で類似度「1」、となる。 As a result, in the above example, "A, I, I, A" and "A, E, I, A" are compared, and the similarity is "1" and "I" for "A" and "A". and "E" have a similarity of "0.5," "I" and "I" have a similarity of "1," and "A" and "A" have a similarity of "1."
そこでテキスト化支援装置100は、s12で得た母音ごとの類似度に基づき、上述の音素配列における母音類似度を、(1+0.5+1+1)/4=0.875と算定する(s13)。
Therefore, the text
また、テキスト化支援装置100は、s2、s3で得ている音素配列に基づき、子音についても一致率を算定する(s14)。上述の例の場合、「T-A-I-K-I-S-A-N」という音素配列における子音「T、K、S、N」と、「S-A-E-K-I-S-A-N」という音素配列における子音「S、K、S、N」を照合すると、全4音素のうち、3つの音素が一致しており、3/4=0.75が一致率となる。
The text
続いて、テキスト化支援装置100は、s13で得た母音類似度に重み付けをした上で、子音の一致率と加重平均を行って、音素配列間の一致率を算定する(s15)。
Subsequently, the text
例えば、上述の重み付けを「2」、すなわち子音の一致率より2倍の重みをつけて加重平均を行うとすれば、(子音一致率0.75+母音類似度0.875×重み2)/3=0.83、と一致率を算定できる。
<フロー例3>
図11は、本実施形態におけるテキスト化支援方法のフロー例3を示す図である。ここでは、上述のフロー例1、2における効果をさらに高めるべく、脱字や衍字への対処という観点を加えて音素配列の一致度を算定する手法について説明する。なお、本フローにおいては、上述のフロー例1におけるs1、s2、フロー例におけるs10、s11までは同様であるため、それ以降の処理として説明を行うものとする。
For example, if the above-mentioned weighting is set to "2", that is, twice the weight of the consonant matching rate, and weighted averaging is performed, (consonant matching rate 0.75 + vowel similarity 0.875 x weight 2)/3 The matching rate can be calculated as =0.83.
<Flow example 3>
FIG. 11 is a diagram showing a flow example 3 of the text conversion support method in this embodiment. Here, in order to further enhance the effects of the above-described flow examples 1 and 2, a method of calculating the degree of coincidence of phoneme sequences will be described with an added perspective of dealing with omissions and misspellings. Note that in this flow, steps s1 and s2 in the above-described flow example 1 and up to s10 and s11 in the flow example are the same, so the subsequent processing will be described.
テキスト化支援装置100は、上述のように抽出した、通話録音データにおける音素配列中の母音配列、及び、音素マスタテーブル126の対応レコードから読み出した音素配列中の母音配列のそれぞれに関して、当該母音配列において連続する2つの母音の組みにおける類似度を発話類似度テーブル127に基づき特定する(s20)。
The text
例えば、通話録音データから得た音素配列「O-H-A-Y-O-U-G-O-Z-A-I-M-A-S-U-S-A-K-I-S-A-N」中の母音配列「O、A、O、U、O、A、I、A、U、A、I、A」では、先頭から2つずつ母音を選択し、組み(1)「O、A」、組み(2)「O、U」、組み(3)「O、A」、組み(4)「I、A」、組み(5)「U、A」、組み(6)「I、A」といった計6つの組みを形成した場合、発話類似度テーブル127に基づき、組み(1)は類似度「0.5」、組み(2)は類似度「0.5」、組み(3)は類似度「0.5」、組み(4)は類似度「0」、組み(5)は類似度「0」、組み(6)は類似度「0」と特定できる。 For example, the phoneme sequence “O-H-A-Y-O-U-G-O-Z-A-I-M-A-S-U-S-A-K-I-S” obtained from call recording data In the vowel arrangement "O, A, O, U, O, A, I, A, U, A, I, A" in "-AN", select two vowels from the beginning and set them to group (1). "O, A", set (2) "O, U", set (3) "O, A", set (4) "I, A", set (5) "U, A", set (6) When a total of six sets such as "I, A" are formed, based on the utterance similarity table 127, set (1) has a similarity of "0.5", set (2) has a similarity of "0.5", and set (2) has a similarity of "0.5". It can be specified that (3) has a similarity of "0.5", set (4) has a similarity of "0", set (5) has a similarity of "0", and set (6) has a similarity of "0".
続いて、テキスト化支援装置100は、s20で特定した各組みの類似度が例えば0.5といった基準以上の組みについては予め定めた1つの規定母音(例:A、I、U)に畳み込み、類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を音素配列中において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成する(s21)。
Next, the text
上述の例の場合、組み(1)は母音「A」に集約(すなわち畳み込み。以下同様)、組み(2)は母音「U」に集約、組み(3)は母音「A」に集約、組み(4)は先頭の母音「I」を採用し、後尾の母音「A」を当初の組み(5)の先頭の母音「U」と組み合わせた新たな組み(5)’を形成し、これ以降の母音の配列についても組みを再構成し、上述の類似度に基づく集約を実行する。 In the above example, set (1) is aggregated to the vowel "A" (that is, convolution; the same applies hereafter), set (2) is aggregated to the vowel "U", set (3) is aggregated to the vowel "A", and the set is aggregated to the vowel "A". (4) adopts the first vowel "I" and combines the last vowel "A" with the first vowel "U" of the original set (5) to form a new set (5)'; The sets are also reconstructed for the vowel arrangement, and the aggregation based on the above-mentioned similarity is performed.
その結果、各組みの集約を経て残った音節配列は、「A、U、A、I、A、U、A、I、A」となる。 As a result, the syllable arrangement remaining after aggregating each set is "A, U, A, I, A, U, A, I, A."
テキスト化支援装置100は、こうした音節配列の生成を、音素マスタテーブル126で対応するレコードの音素配列「S-A-S-A-K-I-S-A-N」における母音配列「A、A、I、A」に関しても同様に実行し、「A、I、A」を得ることになる。
The text
次に、テキスト化支援装置100は、s21において、通話録音データ由来の音節配列中で、音素マスタテーブル126由来で生成した音節配列と一致する箇所について、音素マスタテーブル126由来の音節配列と母音数を比較し、当該母音数が等しい場合(s22:同数)、上述の箇所と音素マスタテーブル126由来の音節配列とで、対応する母音配列における母音の一致率を発話類似度テーブル127に基づき算定する(s23)。
Next, in s21, the text
例えば、通話録音データの音素配列「O-H-A-Y-O-U-G-O-Z-A-I-M-A-S-U-S-A-K-I-S-A-N」中の母音配列「O、A、O、U、O、A、I、A、U、A、I、A」のうち、その音素配列が音素マスタテーブル126由来の音節配列「A、I、A」(これは母音配列「A、A、I、A」に基づく)と一致するのは、「O、A、I、A」の箇所である。 For example, the phoneme arrangement of recorded phone calls “O-H-A-Y-O-U-G-O-Z-A-I-M-A-S-U-S-A-K-I-S-A -N” in the vowel array “O, A, O, U, O, A, I, A, U, A, I, A”, the phoneme array is the syllable array “A, "I, A" (which is based on the vowel arrangement "A, A, I, A") matches "O, A, I, A".
よってテキスト化支援装置100は、通話録音データ由来の母音配列中「O、A、I、A」と、音素マスタテーブル126由来の母音配列「A、A、I、A」との間について、各母音の間の類似度を発話類似度テーブル127に基づいて特定し、例えば、(0.5+1+1+1)/4=0.875、などと算定する。
Therefore, the text
一方、上述のs22での母音数の比較の結果、前記通話録音データ由来の母音数よりもマスタテーブル126由来の母音数が多い場合(s22:多)、テキスト化支援装置100は、脱字が行っていると推定し、マスタテーブル126由来の音節配列が正とし、通話録音データ由来の音節配列において母音が欠けている部分について、当該マスタテーブル126由来の対応音素で補って補正し(s24)、この補正が行われた母音配列とマスタテーブル126由来の母音配列との間で母音の一致率を発話類似度テーブル127に基づき算定する(s25)。
On the other hand, as a result of the comparison of the number of vowels in s22 described above, if the number of vowels derived from the master table 126 is greater than the number of vowels derived from the call recording data (s22: many), the text
例えば、通話録音データの音素配列「S-A-K-I-S-A」中の母音配列「A、I、A」は、その音素配列が音素マスタテーブル126由来の音節配列「A、I、A」(これは母音配列「A、A、I、A」に基づく)と一致する。ただし、対応する母音配列中の母音数は、マスタテーブル126由来の母音配列の方が1つ多い。 For example, the vowel array "A, I, A" in the phoneme array "S-A-K-I-S-A" of the telephone recording data is the syllable array "A, I, A" derived from the phoneme master table 126. , A" (which is based on the vowel sequence "A, A, I, A"). However, the number of vowels in the corresponding vowel array is one more in the vowel array derived from the master table 126.
そこで、テキスト化支援装置100は、通話録音データ由来の母音配列「A、I、A」
のうち、上述のマスタテーブル126由来の母音配列「A、A、I、A」と比べて不足している、すなわち欠けているものが先頭から2番目「A」である。よって、テキスト化支援装置100は、通話録音データ由来の母音配列「A、I、A」のうち、先頭「A」と2番目の「I」の間に、「A」を補って補正する。
Therefore, the text
Among them, "A" is the second vowel from the beginning that is missing compared to the vowel array "A, A, I, A" derived from the master table 126 described above. Therefore, the text
また、テキスト化支援装置100は、上述の補正を行った母音配列と、マスタテーブル126由来の母音配列の間の類似度を、発話類似度テーブル127に基づいて(1+1+1+1)/4=1、などと算定することになる。
Furthermore, the text
他方、上述のs22での母音数の比較の結果、前記通話録音データ由来の母音数よりもマスタテーブル126由来の母音数が少ない場合(s22:少)、テキスト化支援装置100は、衍字が行っていると推定し、マスタテーブル126由来の音節配列が正とし、通話録音データ由来の音節配列において母音が過剰となっている部分について削除して補正し(s26)、この補正が行われた母音配列とマスタテーブル126由来の母音配列との間で母音の一致率を発話類似度テーブル127に基づき算定する(s27)。
On the other hand, as a result of the comparison of the number of vowels in s22 described above, if the number of vowels derived from the master table 126 is smaller than the number of vowels derived from the call recording data (s22: small), the text
例えば、通話録音データの音素配列「A-K-A-S-A-K-I-S-A」中の母音配列「A、A、A、I、A」は、その音素配列が音素マスタテーブル126由来の音節配列「A、I、A」(これは母音配列「A、A、I、A」に基づく)と一致する。ただし、対応する母音配列中の母音数は、マスタテーブル126由来の母音配列の方が1つ少ない。 For example, the vowel array "A, A, A, I, A" in the phoneme array "A-K-A-S-A-K-I-S-A" in the phone call recording data is the phoneme master. It matches the syllable arrangement "A, I, A" from table 126 (which is based on the vowel arrangement "A, A, I, A"). However, the number of vowels in the corresponding vowel array is one less in the vowel array derived from the master table 126.
そこで、テキスト化支援装置100は、通話録音データ由来の母音配列「A、A、A、I、A」のうち、上述のマスタテーブル126由来の母音配列「A、A、I、A」と比べて過剰となっているものが先頭の「A」である。よって、テキスト化支援装置100は、通話録音データ由来の母音配列「A、A、A、I、A」のうち、先頭「A」を削除して補正する。
Therefore, the text
また、テキスト化支援装置100は、上述の補正を行った母音配列と、マスタテーブル126由来の母音配列の間の類似度を、発話類似度テーブル127に基づいて(1+1+1+1)/4=1、などと算定することになる。
Furthermore, the text
なお、既にフロー例2で説明しているため、こうした母音配列の類似度にあわせて、子音配列の一致度も考慮して一致率を算定する概念についての説明は省略する。 Note that, since it has already been explained in flow example 2, a description of the concept of calculating the matching rate by taking into consideration the matching degree of the consonant arrangement as well as the similarity of the vowel arrangement will be omitted.
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 Although the best mode for carrying out the present invention has been specifically described above, the present invention is not limited thereto and can be modified in various ways without departing from the gist thereof.
こうした本実施形態によれば、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能となる。 According to this embodiment, regardless of the characteristics of voice-to-text conversion regarding the call content, keyword matching of the call content can be performed with good accuracy.
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のテキスト化支援装置において、前記記憶装置は、母音間の発話類似度を規定した情報をさらに保持し、前記演算装置は、前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定するものである、としてもよい。 The description of this specification clarifies at least the following. That is, in the text conversion support device of the present embodiment, the storage device further stores information specifying the utterance similarity between vowels, and the calculation device stores the correct phoneme and the extracted phoneme when calculating the matching rate. A process of calculating a match rate between vowels included in each of the correct phonemes based on the utterance similarity information, and a process of calculating a match rate between consonants included in each of the correct phoneme and the extracted phoneme. The matching rate between the vowels is weighted more favorably than the matching rate between the consonants, and the matching rate between the phonemes is calculated based on each matching rate between the vowels and between the consonants. good.
これによれば、上述の音素同士のマッチングに際して、マッチング対象の要素として(種類が少なく区別がしやすい、すなわち誤検知しにくい特性のある)母音を優先することとなり、一致率の精度を良好なものとしやすくなる。ひいては、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。 According to this, when matching the phonemes mentioned above, priority is given to vowels (which have a small number of types and are easy to distinguish, i.e., have characteristics that make it difficult to falsely detect) as elements to be matched, and this increases the accuracy of the matching rate. It becomes easier to understand. As a result, regardless of the characteristics of voice-to-text conversion regarding the content of the call, keyword matching of the content of the call can be performed with higher accuracy.
また、本実施形態のテキスト化支援装置において、前記演算装置は、前記一致率の算定に際し、前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。 Furthermore, in the text conversion support device of the present embodiment, when calculating the matching rate, the arithmetic device may calculate two consecutive vowels in the arrangement of vowels included in the extracted phoneme and the correct phoneme, respectively, for each of the extracted phoneme and the correct phoneme. The degree of similarity in a set of vowels is specified by the utterance similarity, and for a set in which the degree of similarity is above a standard, it is convolved into one predetermined vowel, and for a set in which the degree of similarity is below the standard, the first vowel is adopted. Then, a syllable array is generated by forming the next set of the trailing vowel with an adjacent vowel in the array, and the syllable array generated for each of the extracted phoneme and the correct phoneme is If the number of vowels is equal, the vowel matching rate between the vowel arrays of the extracted phoneme and the correct phoneme, which are the source of the syllable array, is calculated as the utterance similarity. It may be calculated based on degree.
これによれば、日本語では母音類似度が高い母音が連続する場合、二文字を1音節として発音するケースや、一文字しか発音しないケース、或いは一文字目を発音しないケース、同じ文字を不必要に重ねて発音するケースといった、脱字や衍字などの現象が生じ易いといった問題にも適切に対処することが可能となり、ひいては、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。 According to this, in Japanese, when there are consecutive vowels with high vowel similarity, there are cases in which two letters are pronounced as one syllable, cases in which only one letter is pronounced, cases in which the first letter is not pronounced, and cases in which the same letter is unnecessarily pronounced. It is now possible to appropriately deal with problems such as cases of overlapping pronunciations, where phenomena such as omissions and spellings are likely to occur, and furthermore, regardless of the characteristics of the voice-to-text conversion of the content of the call, keyword matching of the content of the call can be performed. It becomes possible to perform the process with better accuracy.
また、本実施形態のテキスト化支援装置において、前記演算装置は、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。 Further, in the text conversion support device of the present embodiment, the calculation device compares the number of vowels between the syllable arrays, and if the number of vowels in the syllable array corresponding to the correct phoneme is greater than the extracted phoneme, the calculation device compares the number of vowels between the syllable arrays. , when the syllable arrangement of the correct phoneme is correct, the portion where a vowel is missing in the syllable arrangement of the extracted phoneme is corrected by supplementing it with the corresponding phoneme of the correct phoneme, and the corrected syllable arrangement of the extracted phoneme is corrected. The vowel matching rate between the vowel arrangement of each of the phoneme and the correct phoneme may be calculated based on the utterance similarity.
これによれば、上述の脱字の事象に対して適切に対処し、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。 According to this, it is possible to appropriately deal with the above-mentioned omitted characters, and to perform keyword matching for the content of the call with better accuracy, regardless of the characteristics of the speech-to-text conversion of the content of the call.
また、本実施形態のテキスト化支援装置において、前記演算装置は、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。 Further, in the text conversion support device of the present embodiment, the calculation device compares the number of vowels between the syllable arrays, and if the number of vowels in the syllable array corresponding to the correct phoneme is smaller than the extracted phoneme, the calculation device compares the number of vowels between the syllable arrays. , if the syllable arrangement of the correct phoneme is correct, correct the syllable arrangement of the extracted phoneme by deleting the portion where the vowel is redundant, and correct the extracted phoneme and the correct phoneme after the correction. The vowel matching rate between each of the vowel arrangements may be calculated based on the utterance similarity.
これによれば、上述の衍字の事象に対して適切に対処し、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。 According to this, it is possible to appropriately deal with the above-mentioned spelling event, and to perform keyword matching for the contents of the call with better accuracy, regardless of the characteristics of the speech-to-text conversion of the contents of the call.
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記記憶装置において、母音間の発話類似度を規定した情報をさらに保持し、前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれ
ぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定する、としてもよい。
Further, in the text conversion support method of the present embodiment, the information processing device further stores information specifying utterance similarity between vowels in the storage device, and when calculating the matching rate, the information processing device further stores information specifying the utterance similarity between vowels, A process of calculating a match rate between vowels included in each of the extracted phonemes based on the utterance similarity information, and a match rate between consonants included in each of the correct phoneme and the extracted phoneme. In the process, the match rate between the vowels may be weighted more favorably than the match rate between the consonants, and the match rate between the phonemes may be calculated based on each match rate between the vowels and between the consonants.
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記一致率の算定に際し、前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。 Further, in the text conversion support method of the present embodiment, when calculating the matching rate, the information processing device may, for each of the extracted phoneme and the correct phoneme, select two consecutive vowels included in the phoneme. The degree of similarity between two pairs of vowels is specified by the utterance similarity, and the pairs whose similarity is above the standard are convolved into one predetermined vowel, and the pairs whose similarity is below the standard are convoluted with the first vowel. the syllable array generated for each of the extracted phoneme and the correct phoneme; If the numbers of vowels are equal, the vowel match rate between the vowel arrays of each of the extracted phonemes and the correct phonemes, which are the source of the syllable array, is calculated from the utterance. It may be calculated based on the degree of similarity.
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。 Further, in the text conversion support method of the present embodiment, the information processing device compares the number of vowels between the syllable arrays, and the number of vowels in the syllable array corresponding to the correct phoneme is greater than the extracted phoneme. In this case, if the syllable arrangement of the correct phoneme is correct, the portion where a vowel is missing in the syllable arrangement of the extracted phoneme is corrected by supplementing it with a corresponding phoneme of the correct phoneme, and the extraction is performed after the correction. The vowel matching rate may be calculated between the vowel arrangement of each of the correct phoneme and the correct phoneme based on the utterance similarity.
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。 Further, in the text conversion support method of the present embodiment, the information processing device compares the number of vowels between the syllable arrays, and the number of vowels in the syllable array corresponding to the correct phoneme is smaller than the extracted phoneme. In this case, if the syllable arrangement of the correct phoneme is correct, the syllable arrangement of the extracted phoneme is corrected by deleting the part where the vowel is redundant, and the extracted phoneme with the correction and the correct syllable arrangement are corrected. A vowel matching rate may be calculated between the vowel arrays of each phoneme based on the utterance similarity.
1 ネットワーク
100 テキスト化支援装置
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 通信装置
110 音響モデル
111 言語モデル
125 通話録音DB
126 音素マスタテーブル
127 発話類似度テーブル
200 オペレータ端末
300 コールセンタシステム
400 管理者端末
126 Phoneme master table 127 Utterance similarity table 200
Claims (10)
所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理を実行する演算装置と、
を含むテキスト化支援装置。 a storage device that holds master data that defines correct phoneme information for each vocabulary that is expected to appear in each conversation situation or subject;
A process of applying phone call recording data obtained from a predetermined device to an acoustic model to extract phonemes, and a process of extracting phonemes from the vocabulary in which phonemes are defined in the master data, which are expected to occur in the conversation scene or subject of the phone call recording data. A process of calculating a match rate between the correct phoneme of the vocabulary and the extracted phoneme, and a process of identifying the vocabulary whose phonemes show a predetermined match rate as a keyword matching result as a result of the calculation. a computing device;
A text conversion support device including
母音間の発話類似度を規定した情報をさらに保持し、
前記演算装置は、
前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定するものである、
ことを特徴とする請求項1に記載のテキスト化支援装置。 The storage device is
Further retains information specifying the utterance similarity between vowels,
The arithmetic device is
When calculating the matching rate, a process of calculating a matching rate between vowels included in each of the correct phoneme and the extracted phoneme based on the utterance similarity information, and a process of calculating the matching rate between the vowels included in each of the correct phoneme and the extracted phoneme, and The process of calculating the matching rate between the consonants included in each, and weighting the matching rate between the vowels more favorably than the matching rate between the consonants, and calculating the phoneme based on the matching rate between the vowels and between the consonants. It calculates the concordance rate between
The text conversion support device according to claim 1, characterized in that:
前記一致率の算定に際し、
前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、
前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項2に記載のテキスト化支援装置。 The arithmetic device is
When calculating the above match rate,
For each of the extracted phoneme and the correct phoneme, in the arrangement of vowels included in the phoneme, the degree of similarity in a set of two consecutive vowels is specified by the utterance similarity, and for the set for which the degree of similarity is equal to or higher than a reference value. is convolved into one predetermined vowel, and for pairs whose similarity is below the standard, the first vowel is adopted, and the process of forming the next pair with the vowel adjacent in the array is performed with the last vowel. to generate a syllable array,
The number of vowels is compared between the syllable arrays generated for each of the extracted phoneme and the correct phoneme, and if the numbers of vowels are equal, the extracted phoneme and the correct phoneme are the basis of the syllable array. A vowel matching rate is calculated between each of the vowel arrangements based on the utterance similarity,
3. The text conversion support device according to claim 2.
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項3に記載のテキスト化支援装置。 The arithmetic device is
Comparing the number of vowels between the syllable arrays, if the number of vowels in the syllable array corresponding to the correct phoneme is greater than the extracted phoneme, and if the syllable array of the correct phoneme is correct, then the extracted phoneme The part where a vowel is missing in the syllable arrangement is compensated by the corresponding phoneme of the correct phoneme,
A vowel matching rate is calculated between the vowel arrangement of each of the corrected phoneme and the correct phoneme based on the utterance similarity.
4. The text conversion support device according to claim 3.
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項3に記載のテキスト化支援装置。 The arithmetic device is
Comparing the number of vowels between the syllable arrays, if the number of vowels in the syllable array corresponding to the correct phoneme is smaller than the extracted phoneme, and if the syllable array of the correct phoneme is correct, then the extracted phoneme Correct by deleting the part where vowels are redundant in the syllable arrangement of
A vowel matching rate is calculated between the vowel arrangement of each of the corrected phoneme and the correct phoneme based on the utterance similarity.
4. The text conversion support device according to claim 3.
会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを記憶装置にて保持し、
所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理と、
を実行するテキスト化支援方法。 The information processing device
Master data that defines the correct phoneme information for each vocabulary that is expected to appear in each conversation situation or subject is stored in a storage device,
A process of applying phone call recording data obtained from a predetermined device to an acoustic model to extract phonemes, and a process of extracting phonemes from the vocabulary in which phonemes are defined in the master data, which are expected to occur in the conversation scene or subject of the phone call recording data. a process of calculating a match rate between the correct phoneme of the vocabulary and the extracted phoneme; a process of identifying the vocabulary whose phonemes show a predetermined match rate as a keyword matching result as a result of the calculation;
A text conversion support method that executes.
前記記憶装置において、母音間の発話類似度を規定した情報をさらに保持し、
前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定する、
ことを特徴とする請求項6に記載のテキスト化支援方法。 The information processing device
The storage device further retains information defining utterance similarity between vowels,
When calculating the matching rate, a process of calculating a matching rate between vowels included in each of the correct phoneme and the extracted phoneme based on the utterance similarity information, and a process of calculating the matching rate between the vowels included in each of the correct phoneme and the extracted phoneme, and The process of calculating the matching rate between the consonants included in each, and weighting the matching rate between the vowels more favorably than the matching rate between the consonants, and calculating the phoneme based on the matching rate between the vowels and between the consonants. Calculate the match rate between
7. The text conversion support method according to claim 6.
前記一致率の算定に際し、
前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、
前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項7に記載のテキスト化支援方法。 The information processing device
When calculating the above match rate,
For each of the extracted phoneme and the correct phoneme, in the arrangement of vowels included in the phoneme, the degree of similarity in a set of two consecutive vowels is specified by the utterance similarity, and for the set for which the degree of similarity is equal to or higher than a reference value. is convolved into one predetermined vowel, and for pairs whose similarity is below the standard, the first vowel is adopted, and the process of forming the next pair with the vowel adjacent in the array is performed with the last vowel. to generate a syllable array,
The number of vowels is compared between the syllable arrays generated for each of the extracted phoneme and the correct phoneme, and if the numbers of vowels are equal, the extracted phoneme and the correct phoneme are the basis of the syllable array. calculating a vowel matching rate between each of the vowel arrays based on the utterance similarity;
8. The text conversion support method according to claim 7.
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項8に記載のテキスト化支援方法。 The information processing device
Comparing the number of vowels between the syllable arrays, if the number of vowels in the syllable array corresponding to the correct phoneme is greater than the extracted phoneme, and if the syllable array of the correct phoneme is correct, then the extracted phoneme The part where a vowel is missing in the syllable arrangement is compensated by the corresponding phoneme of the correct phoneme,
calculating a vowel matching rate between the vowel arrays of the corrected extracted phoneme and the correct phoneme based on the utterance similarity;
9. The text conversion support method according to claim 8.
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項8に記載のテキスト化支援方法。 The information processing device
Comparing the number of vowels between the syllable arrays, if the number of vowels in the syllable array corresponding to the correct phoneme is smaller than the extracted phoneme, and if the syllable array of the correct phoneme is correct, then the extracted phoneme Correct by deleting the part where vowels are redundant in the syllable arrangement of
calculating a vowel matching rate between the vowel arrays of the corrected extracted phoneme and the correct phoneme based on the utterance similarity;
9. The text conversion support method according to claim 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022053293A JP2023146216A (en) | 2022-03-29 | 2022-03-29 | Conversion-into-text support device and conversion-into-text support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022053293A JP2023146216A (en) | 2022-03-29 | 2022-03-29 | Conversion-into-text support device and conversion-into-text support method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023146216A true JP2023146216A (en) | 2023-10-12 |
Family
ID=88286238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022053293A Pending JP2023146216A (en) | 2022-03-29 | 2022-03-29 | Conversion-into-text support device and conversion-into-text support method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023146216A (en) |
-
2022
- 2022-03-29 JP JP2022053293A patent/JP2023146216A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737667B (en) | Voice quality inspection method and device, computer equipment and storage medium | |
US10643604B2 (en) | Language model customization in speech recognition for speech analytics | |
US20220165270A1 (en) | Determining dialog states for language models | |
CN109408526B (en) | SQL sentence generation method, device, computer equipment and storage medium | |
CN107665705B (en) | Voice keyword recognition method, device, equipment and computer readable storage medium | |
US9014363B2 (en) | System and method for automatically generating adaptive interaction logs from customer interaction text | |
CN110444198B (en) | Retrieval method, retrieval device, computer equipment and storage medium | |
CN108140019B (en) | Language model generation device, language model generation method, and recording medium | |
WO2020228173A1 (en) | Illegal speech detection method, apparatus and device and computer-readable storage medium | |
US20070219779A1 (en) | Clustering system, clustering method, clustering program and attribute estimation system using clustering system | |
CN107229627B (en) | Text processing method and device and computing equipment | |
Liu et al. | Towards measuring fairness in speech recognition: Casual conversations dataset transcriptions | |
US11190641B1 (en) | Automated agent behavior recommendations for call quality improvement | |
Silva et al. | Spoken digit recognition in portuguese using line spectral frequencies | |
CN111932296A (en) | Product recommendation method and device, server and storage medium | |
EP4024393A2 (en) | Training a speech recognition model | |
JP2023146216A (en) | Conversion-into-text support device and conversion-into-text support method | |
KR102332268B1 (en) | Customer Consultation Summary Apparatus and Method | |
JP2011075707A (en) | Information analysis device and method, and program | |
Pranto et al. | Aims talk: Intelligent call center support in bangla language with speaker authentication | |
Portêlo et al. | Privacy-preserving query-by-example speech search | |
US11978475B1 (en) | Systems and methods for determining a next action based on a predicted emotion by weighting each portion of the action's reply | |
KR102278190B1 (en) | Workshop operation platform service method and system | |
McMurtry | Information Retrieval for Call Center Quality Assurance | |
CN116312646A (en) | Call processing method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240430 |