JP2011113426A - Dictionary generation device, dictionary generating program, and dictionary generation method - Google Patents
Dictionary generation device, dictionary generating program, and dictionary generation method Download PDFInfo
- Publication number
- JP2011113426A JP2011113426A JP2009271054A JP2009271054A JP2011113426A JP 2011113426 A JP2011113426 A JP 2011113426A JP 2009271054 A JP2009271054 A JP 2009271054A JP 2009271054 A JP2009271054 A JP 2009271054A JP 2011113426 A JP2011113426 A JP 2011113426A
- Authority
- JP
- Japan
- Prior art keywords
- storage unit
- response
- search
- data
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は,辞書作成装置,辞書作成プログラムおよび辞書作成方法に関し,情報検索処理で使用される辞書を作成する技術に関する。 The present invention relates to a dictionary creation device, a dictionary creation program, and a dictionary creation method, and relates to a technique for creating a dictionary used in information retrieval processing.
オペレータが,顧客からの問い合わせに対する解決情報を提供するようなコールセンタでは,問い合わせへの応対時間を短縮化するために,頻出問題集(FAQ:Frequently Asked Question)を準備することが行われている。応対中のオペレータは,頻出問題とその解決に関する情報を蓄積した問題集データベース(FAQデータベース)に,顧客の発話から拾い出した検索キーワードを入力して検索処理を行い,検索結果として提示された解決情報を参照して,問い合わせに対する解決手順や対応策などの情報を顧客へ提供する。 In a call center in which an operator provides solution information for an inquiry from a customer, a frequently asked question (FAQ) is prepared in order to shorten the response time for the inquiry. The answering operator enters a search keyword picked up from the customer's utterance into a problem database (FAQ database) that stores information on frequent problems and their solutions, performs a search process, and presents the solutions presented as search results. Refer to the information and provide customers with information such as the resolution procedure and countermeasures for the inquiry.
したがって,検索処理で,問い合わせに対する解決情報を引き当て(ヒット)できるように,適切な検索キーワードが使用される必要がある。 Therefore, an appropriate search keyword needs to be used so that solution information for a query can be assigned (hit) in the search process.
例えば,顧客の問い合わせに対して回答するヘルプデスク業務を行うコールセンタでは,オペレータは,顧客との対話を通じて,問い合わせに関連する単語を得て検索キーワードとして入力し,問い合わせに対する解決情報が蓄積された質問集データベースを検索する。そして,オペレータは,検索で引き当てた解決情報を参照して,問い合わせに対する解決手順や対応策を回答する。 For example, in a call center that performs help desk operations that respond to customer inquiries, the operator obtains words related to the inquiries through dialogue with the customers and inputs them as search keywords. Search the database. Then, the operator refers to the solution information assigned in the search and answers the solution procedure and countermeasures for the inquiry.
顧客との会話が不調であっても効率よく情報検索できるように,オペレータと顧客との会話の音声データに対して音声認識処理を行って検索キーワードを抽出し,抽出した検索キーワードで文書検索を行い,音声認識処理に誤りが発生した場合でも,検索キーワードの組み合わせを変更したり,検索キーワードの一部を同義に変換したりして,検索キーワードの組み合わせを自動的に更新する処理がある。 To enable efficient information retrieval even when the conversation with the customer is not good, the speech data is extracted from the voice data of the conversation between the operator and the customer, and the search keyword is extracted. Even if an error occurs in the speech recognition process, there is a process of automatically updating the search keyword combination by changing the search keyword combination or converting a part of the search keyword to the same meaning.
顧客との対話の内容にもとづいて解決情報を検索する際に,熟練したオペレータは,対話の内容から,質問集データベースのデータに含まれているような単語や語句(以下,単に「単語」とする)すなわち検索に適した単語を連想して検索キーワードとすることができる。そのため,熟練したオペレータは,質問集データベースから,問い合わせに対する解決情報が引き当てやすくなり,短時間で顧客の質問に回答することができる。 When searching for solution information based on the contents of the dialogue with the customer, a skilled operator uses the contents of the dialogue to identify words and phrases (hereinafter simply referred to as “words”) that are included in the data in the question collection database. That is, it is possible to associate a word suitable for a search as a search keyword. Therefore, a skilled operator can easily assign solution information to the inquiry from the question collection database, and can answer the customer's question in a short time.
一方,初心者オペレータは,顧客との対話の内容をそのまま取り出して検索キーワードとして入力して質問集データベースの検索を行う。そのため,適切な解決情報を引き当てられずに再検索が必要となって,回答までの所要時間が長くなるという問題があった。さらに,不適切な解決情報を参照して回答してしまうという問題があった。 On the other hand, the beginner operator retrieves the contents of the dialog with the customer as they are and inputs them as search keywords to search the question collection database. For this reason, there is a problem that it takes a long time to answer because it is necessary to search again without assigning appropriate solution information. In addition, there was a problem of referring to inappropriate solution information and answering.
具体的に以下のような状況が生じる。質問集データベースに,異常発生通知の「警告音」についての質問と,その解決手順等の情報が蓄積されているとする。コンピュータが聞き慣れない音を発している旨を問い合わせた顧客が,「機械がピーピー鳴いているんですが」と発話したと想定する。 Specifically, the following situation occurs. Assume that the question collection database stores information on the “warning sound” of the notification of occurrence of anomaly and information on how to solve it. Assume that a customer who inquires that the computer is producing unfamiliar sounds utters "The machine is beeping."
熟練オペレータは,応対経験から,「ピーピー」が「警告音」を意味すると推測して,質問集データベースに記述されているような単語「警告音」を検索キーワードとして検索を行う。そのため,熟練オペレータは,検索キーワード「警告音」に対応付けられた解決情報(警告音発生時の解決手順等の情報)を直ちに引き当てることができる。 The experienced operator infers from experience that “Peep” means “warning sound”, and searches for the word “warning sound” described in the question collection database as a search keyword. Therefore, the skilled operator can immediately assign solution information (information such as a solution procedure when a warning sound is generated) associated with the search keyword “warning sound”.
一方,初心者オペレータは,顧客の発話から「ピーピー」を取り出してそのまま検索キーワードとして検索する。質問集データベースに「ピーピー」という単語が存在していない場合には「警告音」に関する解決情報を直ちに引き当てることができない。 On the other hand, the beginner operator takes “Peepy” from the customer's utterance and searches it as a search keyword as it is. If the word “Peep” does not exist in the question collection database, the solution information regarding “warning sound” cannot be immediately assigned.
顧客との対話から質問集データベースの検索キーワードとなる単語が拾い出せない場合でも,問い合わせに含まれる単語から置換可能な検索キーワードに適した単語を導き出すことによって,オペレータの検索操作を支援できる。そのためには,置換可能な検索キーワード同士を定義した辞書情報が有効であるが,辞書情報を人手によって作成する作業には膨大な時間が掛かる。 Even when words that are search keywords in the question collection database cannot be picked up from dialogue with the customer, it is possible to assist the operator's search operation by deriving words suitable for replaceable search keywords from the words included in the inquiry. For this purpose, dictionary information defining replaceable search keywords is effective, but it takes a lot of time to manually create dictionary information.
本発明の目的は,問い合わせに応対した状況を示すオペレータの音声を録音した音声データを含む各応対の履歴情報を利用して,置換可能な単語群を示す辞書情報を自動作成する辞書作成処理に関する技術として,辞書作成装置,辞書作成プログラム,および辞書作成方法を提供することである。 An object of the present invention relates to a dictionary creation process for automatically creating dictionary information indicating a replaceable word group by using history information of each response including voice data in which an operator's voice indicating a response to an inquiry is recorded. The technology is to provide a dictionary creation device, a dictionary creation program, and a dictionary creation method.
本願において開示される辞書作成装置の代表的なものの概要を簡単に説明すれば,以下のとおりである。すなわち,本願に開示する辞書作成装置は,問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,問い合わせに対する応対ごとに,顧客との対話でオペレータが発話した音声データを記憶する応対音声記憶部と,応対ごとに検索処理で使用された検索キーワードと該検索処理の成功または失敗を示す検索結果と検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,音声認識部と,形態素解析部と,参照候補作成部と,成功応対検出部と,参照候補照合部と,辞書情報作成部とを備える。 The outline of a typical dictionary creating apparatus disclosed in the present application will be briefly described as follows. That is, the dictionary creation device disclosed in the present application includes a question collection storage unit that stores question solution data including solution information for an inquiry, and an answer storage that stores voice data uttered by an operator in a dialog with a customer for each response to an inquiry. A search history including a voice storage unit, a search keyword used in a search process for each response, a search result indicating success or failure of the search process, and browsing data indicating question solution data browsed when the search is successful A search history storage unit for storing information, a speech recognition unit, a morpheme analysis unit, a reference candidate creation unit, a successful response detection unit, a reference candidate collation unit, and a dictionary information creation unit are provided.
前記辞書作成装置では,前記音声認識部が,応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して第1記憶部に格納する。前記形態素解析部は,第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して第2記憶部に格納する。 In the dictionary creation device, the speech recognition unit performs speech recognition processing on each speech data stored in the response speech storage unit, creates speech text data corresponding to the speech data, and stores the speech text data in the first storage unit To do. The morpheme analysis unit performs a morpheme analysis process on each speech text data in the first storage unit, and utters a word that appears in the question solution data in the question collection storage unit from the words obtained by the morpheme analysis process A response history word group is created in order and stored in the second storage unit.
そして,前記参照候補作成部は,検索履歴記憶部に記憶された検索履歴情報をもとに,第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出し,取り出した応対履歴単語グループの単語の出現順序と質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,一致度が所定の値以上である質問解決データを選択する。前記参照候補作成部は,検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して第3記憶部に格納する。 Then, the reference candidate creating unit takes out the response history word group of the response whose search result is unsuccessful from the second storage unit based on the search history information stored in the search history storage unit, and extracts the received response history The degree of coincidence between the appearance order of the words in the word group and the appearance order of the words described in each question solving data in the question collection storage unit is calculated, and the question solving data having a matching degree equal to or higher than a predetermined value is selected. . The reference candidate creation unit refers to a word that is not described in the question solution data selected based on the degree of coincidence with the response history word group from the response history word group of the response whose search result is failure. Candidates are created and stored in the third storage unit.
前記成功応対検出部は,検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する。さらに,前記成功応対検出部は,第2記憶部から,検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,取り出した応対履歴単語グループから特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して第4記憶部に格納する。 The successful response detection unit detects all the responses whose search results are successful based on the search history information stored in the search history storage unit, and is a question which is browsing data of the response whose search results are successful Identify resolution data. Further, the successful response detection unit extracts a response history word group corresponding to each response whose search result is successful from the second storage unit, and is described in the question solution data specified from the extracted response history word group. Unsuccessful words are removed to create a success case word group, which is stored in the fourth storage unit.
前記参照候補照合部は,参照候補を前記成功事例単語グループの各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する。前記辞書情報作成部は,特定された組み合わせの参照候補と成功事例単語グループそれぞれの検索履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する。 The reference candidate matching unit compares the reference candidate with each of the success case word groups, calculates the similarity of the words included in each, and calculates the similarity between the reference candidate having the maximum similarity and the success case word group. Identify combinations. The dictionary information creation unit extracts a search keyword from search history information of each of the specified combination of reference candidates and successful case word groups, and outputs the extracted search keyword group as dictionary information.
本願に開示する辞書作成装置によれば,顧客の問い合わせに対して適切な質問解決データの検索に失敗した応対でのオペレータの音声データに含まれる単語を用いて,失敗した応対に類似する応対を,より精度良く特定することができ,失敗の応対と類似する成功の応対との検索キーワード同士を関連付けた辞書情報を効率よく作成することができる。 According to the dictionary creation device disclosed in the present application, a response similar to a failed response is obtained by using a word contained in the operator's voice data in a response that fails to retrieve appropriate question solution data in response to a customer query. Therefore, it is possible to specify with higher accuracy, and it is possible to efficiently create dictionary information that associates search keywords with a successful response similar to a failed response.
よって,検索処理の経験が少ないオペレータが入力した検索キーワードをより適切な単語へ置き換えるための辞書情報の効率的な作成処理を実現することができる。 Therefore, it is possible to realize an efficient creation process of dictionary information for replacing a search keyword input by an operator with little experience in search processing with a more appropriate word.
まず,本発明の一態様として開示される辞書作成装置を概説する。 First, a dictionary creation apparatus disclosed as one aspect of the present invention will be outlined.
図1は,開示される辞書作成装置1の構成例を示す図である。
FIG. 1 is a diagram illustrating a configuration example of a disclosed
辞書作成装置1は,置き換え可能な単語群を示す辞書情報を生成する装置であって,応対音声記憶部2,検索履歴記憶部3,質問集記憶部4,音声認識部11,形態素解析部12,参照候補作成部13,成功応対検出部14,参照候補照合部15,および辞書情報作成部16を備える。
The
応対音声記憶部2は,問い合わせに対する応対ごとに,オペレータの発話を録音した音声データを記憶する手段である。音声データは,問い合わせに対する解決情報を提示する発話部分である解決提示部を含むものである。
The answering
検索履歴記憶部3は,応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データと含む検索履歴情報を記憶する手段である。
For each response, the search
応対音声記憶部2の音声データと検索履歴記憶部3の検索履歴情報とは,各応対の履歴情報を識別する情報によって関連付けされている。
The voice data of the reception
質問集記憶部4は,問い合わせと,その問い合わせに対する解決手段や対応策等の解決情報とを含む質問解決情報(質問解決データ)を記憶する手段である。
The question
音声認識部11は,応対音声記憶部2に記憶された音声データ各々に音声認識処理を行って,その音声データに対応する音声テキストデータを作成して第1記憶部171へ格納する。
The
形態素解析部12は,音声認識部11が作成した各音声テキストデータに形態素解析処理を行って,この形態素解析処理で得た単語の中から質問集記憶部4の質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して第2記憶部172へ格納する。
The
参照候補作成部13は,検索履歴記憶部3に記憶された検索履歴情報をもとに検索結果が失敗である応対の応対履歴単語グループを第2記憶部172から取り出す。さらに,参照候補作成部13は,取り出した応対履歴単語グループの単語の出現順序と質問集記憶部4の質問解決データに記述されている単語の出現順序との一致度を計算して,一致度が所定の値以上である質問解決データを選択する。さらに,参照候補作成部13は,検索結果が失敗である応対の応対履歴単語グループから,その応対履歴単語グループとの一致度によって選択された質問解決データに記述されていない単語を除去して参照候補を作成する。参照候補は,第3記憶部173に格納される。
Based on the search history information stored in the search
また,参照候補作成部13は,単語の出現順序の一致度を計算する前に,質問集記憶部4の質問解決データを参照して,応対履歴単語グループに含まれる単語から前記質問解決データのいずれにも記述されていない単語を除去することができる。
In addition, the reference
また,参照候補作成部13は,単語の出現順序の一致度を計算する前に,応対履歴単語グループに,所定時間内に出現した同一の単語が複数存在する場合に,該当する単語の1つのみを保持し他の単語を全て除去することができる。
Further, the reference
成功応対検出部14は,検索履歴記憶部3に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する。さらに,成功応対検出部14は,特定した検索結果が成功である応対各々に対応する応対履歴単語グループを第2記憶部から取り出し,取り出した応対履歴単語グループから,特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成する。成功事例単語グループは,第4記憶部174に格納される。
The successful
参照候補照合部15は,第3記憶部の参照候補を第4記憶部の成功事例単語グループの各々と比較して,それぞれが含む単語の類似度を計算して,類似度が最大となった参照候補と成功事例単語グループとの組み合わせを特定する。
The reference
辞書情報作成部16は,参照候補照合部15によって特定された組み合わせの参照候補と成功事例単語グループのそれぞれの検索履歴情報から,検索キーワードを抽出して,抽出した検索キーワード群を辞書情報として出力する。
The dictionary
第1記憶部171は,音声認識部11が生成した音声テキストデータを記憶する。第2記憶部172は,形態素解析部12が生成した応対履歴単語グループを記憶する。第3記憶部173は,参照候補作成部13が生成した参照候補を記憶する。第4記憶部174は,成功応対検出部14が生成した成功事例単語グループを記憶する。
The
辞書作成装置1は,以下のように動作する。
The
辞書作成装置1の音声認識部11は,応対音声記憶部2に記憶された音声データに音声認識処理を行って,音声データに対応する音声テキストデータを作成して第1記憶部171へ格納する。音声認識処理用の辞書情報として,質問集記憶部4の質問解決データが使用される。
The
図2は,質問集記憶部4に記憶されている質問解決情報の例を示す図である。例えば,質問集記憶部4の質問解決データD1の解決部に「サウンドパネル」,「開く」,「ボリューム」,「ミュート」等の単語が記述されていると仮定する。また,図示していないが,解決部D2に「スタートボタン」,「クリック」,「一覧」,「設定」等が記述されているとする。
FIG. 2 is a diagram illustrating an example of the question solution information stored in the question
図3は,音声テキストデータの例を示す図である。 FIG. 3 is a diagram illustrating an example of speech text data.
図3に示す音声テキストデータは,音声認識処理によって作成された,検索結果が失敗である応対のオペレータの発話を録音した音声データに相当する音声テキストデータである。図3では,上から下への矢印が時間経過を示し,音声認識処理の単位セグメントのうち問題解決データに関連する部分のみを図示している。オペレータが発話した「サウンドパネルを開いてください」,「スタートボタンをクリックしてください」,「一覧から設定を選んでください」,「ボリュームはミュートですか」が,それぞれテキストデータ化されている。 The speech text data shown in FIG. 3 is speech text data corresponding to speech data created by speech recognition processing and recorded from the utterances of a response operator whose search result is unsuccessful. In FIG. 3, the arrow from the top to the bottom indicates the passage of time, and only the portion related to the problem solving data in the unit segment of the speech recognition processing is illustrated. "Open the sound panel", "Please click the start button", "Please select a setting from the list", and "Is the volume muted?"
形態素解析部12は,音声認識部11が作成した音声テキストデータに形態素解析処理を行って,音声テキストデータから所定の抽出条件(例えば,自立語)に合致する単語を抽出する。次に,形態素解析部12は,形態素解析処理で抽出した単語の中から質問集記憶部4の質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して第2記憶部172へ格納する。
The
具体的には,形態素解析部12は,図3に示す音声テキストデータの4つのセグメントから,形態素解析処理により単語を抽出し,抽出した単語群から,図2に示す質問解決データの解決部に出現する「サウンドパネル,開く,スタートボタン,クリック,一覧,設定,ボリューム,ミュート」等の単語を発話順に抽出して,応対履歴単語グループとする。
Specifically, the
参照候補作成部13は,検索履歴記憶部3に記憶された検索履歴情報をもとに,第2記憶部172から,検索結果が失敗である応対の応対履歴単語グループを取り出して,取り出した応対履歴単語グループの単語の出現順序と,質問集記憶部4の質問解決データの解決部に記述されている単語の出現順序との一致度を計算して,所定の一致度となる質問解決データの解決部を選択する。
Based on the search history information stored in the search
図4は,音声テキストデータが含む各単語の出現順序の一致を説明する図である。 FIG. 4 is a diagram for explaining the coincidence of the appearance order of the words included in the speech text data.
音声テキストデータ(図3)に含まれる単語「サウンドパネル,開く,スタートボタン,クリック,一覧,設定,ボリューム,ミュート」のうち「サウンドパネル,開く,ボリューム,ミュート」の部分が,図2に示す質問解決データD1の解決部に記述された単語の順序と,また,「スタートボタン,クリック,一覧,設定」の部分が,同じく質問解決データD2の解決部に記述された単語の順序とそれぞれ一致すると仮定する。これらの一致度が所定値以上であれば,参照候補作成部13は,質問解決データD1,D2の解決部を選択する。
Of the words “sound panel, open, start button, click, list, settings, volume, mute” included in the speech text data (FIG. 3), the “sound panel, open, volume, mute” part is shown in FIG. The order of the words described in the solution part of the question solution data D1 and the “start button, click, list, setting” part are the same as the order of the words described in the solution part of the question solution data D2. Assume that. If the degree of coincidence is equal to or greater than a predetermined value, the reference
さらに,参照候補作成部13は,選択した質問解決データを用いて,応対履歴単語グループの単語から,解決部D1に存在しない単語を除去した残りの単語群(サウンドパネル,開く,ボリューム,ミュート)である参照候補C1と,解決部D2に存在しない単語を除去した残りの単語群「スタートボタン,クリック,一覧,設定」である参照候補C2とを作成して第3記憶部173へ格納する。
Further, the reference
さらに,参照候補作成部13は,単語の出現順序の一致度を計算する前に,質問集記憶部4の質問解決データを参照して,応対履歴単語グループに含まれる単語から,質問解決データに存在しない単語を除去してもよい。
Further, the reference
また,参照候補作成部13は,単語の出現順序の一致度を計算する前に,音声テキストデータの所定数のセグメント内(すなわち経過時間内)に出現した同一の単語が複数出現する場合に,応対履歴単語グループの該当する単語の1つのみを残して他の単語を全て除去してもよい。
In addition, the reference
図5は,応対履歴単語グループの単語の除去例を示す図である。 FIG. 5 is a diagram illustrating an example of removing words from the response history word group.
図5(A)は,除去処理前の応対履歴単語グループ例を示す。参照候補作成部13は,質問集記憶部4の質問解決データの解決部に「コントロールパネルを開いてください」という記載がない場合には,図5(A)の応対履歴単語グループの単語から,該当する単語(コントロールパネル,開く)を除去する。この除去の結果,応対履歴単語グループの単語は,図5(B)に示すような単語群になる。
FIG. 5A shows an example of a response history word group before the removal process. If there is no description “Please open the control panel” in the question resolution data resolution section of the question
さらに,参照候補作成部13は,応対履歴単語グループの単語群に,所定数のセグメント間(例えばセグメント数=5)に出現する同一の単語(サウンドパネル,開く)がある場合に,1つの単語のみを残して他を除去する。この除去の結果,応対履歴単語グループの単語は,図5(C)に示すような単語群になる。
Further, the reference
次に,成功応対検出部14は,検索履歴記憶部3に記憶された検索履歴情報を参照して,検索結果が成功であった応対全てを取り出して,各応対の検索履歴情報の閲覧データに特定された質問解決データの解決部を特定する。そして,成功応対検出部14は,成功の応対に対応する応対履歴単語グループを第2記憶部172から取り出して,取り出した応対履歴単語グループから,特定された質問解決データの解決部に記述されていない単語を除去し,除去語の単語を成功事例単語グループとして第4記憶部174へ格納する。
Next, the successful
続いて,参照候補照合部15は,第3記憶部173の参照候補C1,C2と,第4記憶部174の成功事例単語グループとの組み合わせの各々について,それぞれの単語の類似度を計算して,類似度が最高である参照候補と成功事例単語グループとの組み合わせを特定する。
Subsequently, the reference
辞書情報作成部16は,参照候補照合部15が特定した組み合わせの参照候補と成功応対事例との検索履歴情報から,検索キーワードをそれぞれ抽出して,抽出した単語群(検索キーワード群)を,置き換え可能な単語同士であることを示す辞書情報として出力する。
The dictionary
例えば,参照候補C1と成功事例単語グループGxとの組み合わせが特定されたと仮定する。さらに,参照候補C1の元となる応対の検索履歴情報の検索キーワードが「だんまり」であり,成功事例単語グループGxの検索履歴情報の検索キーワードが「音が出ない」であるとする。辞書情報作成部16は,検索キーワード「だんまり」と「音が出ない」との組を,置換可能な単語群を示す辞書情報として出力する。
For example, it is assumed that a combination of the reference candidate C1 and the success case word group Gx is specified. Further, it is assumed that the search keyword of the response search history information that is the basis of the reference candidate C1 is “many”, and the search keyword of the search history information of the success case word group Gx is “no sound”. The dictionary
このようにして辞書作成装置1によって生成された辞書情報をもとに,応対中のオペレータが検索キーワードを入力する場合に参照する辞書が準備される。
Based on the dictionary information generated by the
例えば,初心者オペレータが,顧客の「コンピュータがだんまりなんだけれど」という発話を受けて,検索キーワードとしてそのまま「だんまり」を入力するような場合でも,辞書作成装置1により生成された辞書情報に基づく辞書が参照されて,置換可能な単語「音が出ない」を知ることができ,検索キーワードとして使用することができるようになる。
For example, a dictionary based on dictionary information generated by the
図6に,音声データに含まれる顧客とオペレータの発話例を示す。 FIG. 6 shows an example of customer and operator utterances included in the voice data.
図6において,上から下への矢印は時間経過を示し,時間を示す矢印の左側が顧客の発話,右側がオペレータの発話を表す。図6(A)の音声データと図6(B)の音声データとは,発話総数および発話時間が大きく異なるが,問い合わせ内容および提示される解決情報は,ほぼ同じであることがわかる。一般的に顧客の問い合わせに対して同じ内容の解決情報を提示する場合でも顧客と対話するオペレータの発話時間はさまざまである。すなわち,同様の応対であっても,応対毎に音声データのサイズにばらつきが生じるため,音声データに含まれる単語群同士を直接比較しても,応対の類否を精度良く判断することは難しい。 In FIG. 6, the arrow from the top to the bottom indicates the passage of time, the left side of the arrow indicating the time represents the customer's utterance, and the right side represents the operator's utterance. Although the voice data in FIG. 6A and the voice data in FIG. 6B are greatly different from each other in the total number of utterances and the utterance time, it can be seen that the contents of the inquiry and the solution information presented are almost the same. In general, even when solution information having the same content is presented in response to a customer inquiry, the utterance time of an operator who interacts with the customer varies. That is, even in the case of the same response, the size of the voice data varies depending on the response, so it is difficult to accurately determine the similarity of the response even if the word groups included in the voice data are directly compared. .
辞書作成装置1は,検索が失敗した応対の音声データが含む単語の出現順序から,検索で引き当てられるべき質問解決データを推定して,検索に必要となる単語を絞り込んだ単語群(参照候補)を作成する。そして,検索が成功した応対での検索キーワードとの類似度にもとづいて応対の類比を判定する。
The
これにより,辞書作成装置1は,音声データ自体のサイズの相違に影響を受けることなく,失敗の応対の内容に類似する成功の応対を,一般的な単語の類否判定式を用いて検出することができ,よって,精度の高い辞書情報を自動的に作成・出力することが可能となる。
As a result, the
さらに,一般に,オペレータは,応対中,顧客の理解の程度に応じて同じことを繰り返したり,違う表現へ言い換えて説明したりする。その結果,同内容の応対であっても,オペレータの発話時間にばらつきが生じるだけでなく,発話中の単語の出現状況も異なってくる。辞書作成装置1は,失敗した応対での発話に出現する単語から不要な単語や重複する単語を除去してから,検索に必要となる単語群を作成する。よって,質問解決データとの一致度の照合精度を高めることができる。
Furthermore, in general, the operator repeats the same thing according to the degree of understanding of the customer during the reception, or paraphrases and explains in a different expression. As a result, even if the response is the same, not only will the operator's utterance time vary, but the appearance status of the words being uttered will also differ. The
また,辞書情報作成部16は,参照候補照合部15が特定した組み合わせの参照候補と成功応対事例との検索履歴情報から,参照候補の元となっている応対(検索が失敗した応対)の類似応対として,成功事例単語グループの元となっている応対(検索が成功した応対)を関連づけた類似応対情報を出力する。
In addition, the dictionary
これにより,検索が成功した検索履歴情報だけではなく、検索が失敗した応対の検索履歴情報までを活用可能情報とすることができる。 As a result, not only the search history information that has been successfully searched but also the search history information of the response that has failed to be searched can be used as usable information.
以下に,辞書作成装置1の一実施形態を,より詳細説明する。
Hereinafter, an embodiment of the
図7は,辞書作成装置1を含む辞書作成システムの一実施形態における構成例を示す図である。
FIG. 7 is a diagram illustrating a configuration example in an embodiment of a dictionary creation system including the
図7に示す辞書作成システムは,辞書作成装置1,応対音声記憶部2,検索履歴記憶部3,質問集記憶部4,応対履歴管理装置5,談話構造解析装置6,辞書記憶部7,応対履歴記憶部8を備える。
The dictionary creation system shown in FIG. 7 includes a
辞書作成装置1,応対音声記憶部2,検索履歴記憶部3および質問集記憶部4は,図1に示す辞書作成装置1,応対音声記憶部2,検索履歴記憶部3および質問集記憶部4にそれぞれ相当するものである。
The
図7に示す実施形態の辞書作成システムでは,応対音声記憶部2は,応対ごとに,問い合わせをした顧客と応対したオペレータとが発話した音声を録音した対話録音音声データを記憶している。
In the dictionary creation system of the embodiment shown in FIG. 7, the reception
検索履歴記憶部3は,顧客への応対における検索処理で使用された検索キーワードと,検索により関連する問題解決データがヒットできたか否かを示す情報(検索結果)と,ヒットできた問題解決データの識別情報(閲覧データ)とを含む検索履歴情報を記憶している。
The search
応対履歴管理装置5は,応対音声記憶部2と応対履歴記憶部8と検索履歴記憶部3とに記憶される各情報を管理し,各応対(応対履歴ID)の応対履歴音声データを作成する。
The response
談話構造解析装置6は,応対履歴管理装置5が作成した応対履歴音声データに含まれる音声データから,オペレータが解決情報を提示している発話期間(解決提示部)を特定する。
The discourse
辞書記憶部7は,辞書作成装置1が出力する辞書情報を記憶する。
The
応対履歴記憶部8は,応対ごとに,応対したオペレータの識別情報と,応対の期間を示す情報,検索の成功または失敗を示す情報(検索成否)とを含む応対履歴情報を記憶している。
The response
以下に,辞書作成装置1を含む辞書作成システムの処理動作を説明する。
Hereinafter, the processing operation of the dictionary creation system including the
図8は,辞書作成システムの処理の流れを示す図である。 FIG. 8 is a diagram showing the flow of processing of the dictionary creation system.
ステップS1: 応対履歴管理装置5は,応対履歴記憶部8に記憶されている応対履歴情報の全ての応対(応対履歴ID)について,応対ごとに,応対音声記憶部2,応対履歴記憶部8,検索履歴記憶部3の各レコードを取り出して,応対履歴音声データを作成する。
Step S1: The response
図9は,応対音声記憶部2の音声データのデータ構成例を示す図である。
FIG. 9 is a diagram illustrating a data configuration example of voice data in the reception
応対音声記憶部2の音声データは,応対履歴ID,オペレータID,録音開始時刻,録音終了時刻,およびデータ本体のデータ項目を有する。
The voice data in the reception
応対履歴IDは,履歴として蓄積されている応対の識別情報である。オペレータIDは,応対したオペレータの識別情報である。 The service history ID is service identification information stored as a history. The operator ID is identification information of the operator who responds.
録音開始時刻および録音終了時刻は,対話録音音声データの録音の開始と終了の時刻を示す情報である。データ本体は,音声データ本体である2チャンネルのバイナリデータである。 The recording start time and the recording end time are information indicating the start and end times of the recording of the dialog recording voice data. The data body is two-channel binary data that is a voice data body.
図10は,応対履歴記憶部8の応対履歴情報のデータ構成例を示す図である。
FIG. 10 is a diagram illustrating a data configuration example of the response history information in the response
応対履歴記憶部8の応対履歴情報は,応対履歴ID,オペレータID,応対開始時刻,応対終了時刻,検索成否のデータ項目を有する。
The response history information in the response
応対開始時刻および応対終了時刻は,応対の開始および終了の時刻を示す情報である。検索成否は,質問集記憶部4の検索が成功したか失敗したかを示す情報(フラグ)である。
The response start time and response end time are information indicating the start and end times of the response. The success or failure of the search is information (flag) indicating whether the search of the question
図11は,検索履歴記憶部3の検索履歴情報のデータ構成例を示す図である。
FIG. 11 is a diagram illustrating a data configuration example of search history information in the search
検索履歴記憶部3の検索履歴情報は,応対履歴ID,オペレータID,検索キーワード,検索結果,閲覧データのデータ項目を有する。
The search history information in the search
検索キーワードは,検索処理で使用された検索キーワードである。検索結果は,前記検索キーワードによる検索で質問解決データが引き当て(ヒット)できたか否かを示す情報である。閲覧データは,検索でヒットして閲覧した質問解決データの識別情報である。 The search keyword is a search keyword used in the search process. The search result is information indicating whether or not the question solution data has been allocated (hit) by the search using the search keyword. The browsing data is identification information of the question solution data browsed after being hit by the search.
図12は,質問集記憶部4の質問解決データのデータ構成例を示す図である。
FIG. 12 is a diagram illustrating a data configuration example of the question solution data in the question
質問集記憶部4の質問解決データは,FAQIDと質問部と解決部とのデータ項目を有する。
The question solution data in the question
FAQIDは,質問解決データの識別情報である。質問部は,顧客から問い合わせられる質問や障害を記述するデータ項目である。解決部は,質問部に記述された問題や障害の解決情報を記述するデータ項目である。 FAQID is identification information of question solution data. The question part is a data item describing a question or a problem that is inquired by a customer. The solution section is a data item that describes solution information for the problem or failure described in the question section.
図13は,応対履歴音声データのデータ構成例を示す図である。 FIG. 13 is a diagram illustrating a data configuration example of the response history voice data.
応対履歴音声データは,応対履歴ID,オペレータID,検索キーワード,検索結果,対応音声(データ本体),対応音声区間(録音開始時刻:録音終了時刻)のデータ項目を有する。 The response history voice data includes data items of response history ID, operator ID, search keyword, search result, corresponding voice (data body), and corresponding voice section (recording start time: recording end time).
応対履歴音声データは,応対履歴IDをキーに収集された音声データ,応対履歴情報および検索履歴情報から抽出されたレコードをもとに作成される。検索キーワードと検索結果とには,検索履歴情報の「検索キーワード」と「検索結果」の情報がそれぞれ格納される。対応音声と対応音声区間とには,音声データの「データ本体」と「録音開始時刻:録音終了時刻」の情報がそれぞれ格納される。 The response history voice data is created based on the voice data collected using the response history ID as a key, the response history information, and the records extracted from the search history information. In the search keyword and search result, information of “search keyword” and “search result” of the search history information is stored, respectively. In the corresponding voice and the corresponding voice section, information of “data body” and “recording start time: recording end time” of the voice data is stored.
ステップS2: 談話構造解析装置6は,応対履歴管理装置5が作成した応対履歴音声データを取得して,応対履歴音声データごとに,対応音声(データ本体)の音声データに談話構造解析処理を行って,音声データを質問部(顧客が問い合わせをしている発話区間)と解決提示部(オペレータが解決情報を提示している発話区間)とに分解し,解決提示部を特定する。
Step S2: The discourse
具体的には,談話構造解析装置6は,顧客とオペレータとの音声が別チャンネルで録音されている音声データの各チャンネルで,単位区間毎に,発話された音声の大きさを示すパワー値を算出する。次に,談話構造解析装置6は,音声データの所定区間において,一定のパワーで発話する時間がより長く,かつ先行して発話するチャンネルを特定し,そのチャンネルで録音されている発話者を「先行主導発話者」と判定して,発話の最初から先行主導発話者が継続して発話する期間を特定し,その先行主導発話者が顧客であれば,当該期間を「質問発話部」と,その質問発話部に後続する他方のチャンネル(オペレータ側)の発話期間を,オペレータの「解決提示部」と判定する。
Specifically, the discourse
談話構造解析装置6が実行する処理の詳細は,特願2008−999927「音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置」に記載されているとおりである。
The details of the processing executed by the discourse
談話構造解析装置6は,応対履歴音声データにデータ項目「解決提示区間」を追加して,特定した解決提示区間を示す情報(開始時刻:期間)を記録する。
The discourse
図14は,解決提示区間が設けられた応対履歴音声データのデータ構成例を示す図である。 FIG. 14 is a diagram showing a data configuration example of the response history voice data provided with the solution presentation section.
図14に示す応対履歴音声データでは,応対履歴ID=Incident001の応対の音声データは,音声データrecord001に録音された時刻15:30から16:00までの区間の音声データであり,時刻15:32から開始して5秒間継続する発話の区間が解決提示部の区間であることを示す。 In the response history audio data shown in FIG. 14, the response audio data of response history ID = Incident001 is the audio data of the section from time 15:30 to 16:00 recorded in the audio data record001, and time 15:32 It shows that the section of the utterance that starts for 5 seconds and continues for 5 seconds is the section of the solution presentation unit.
ステップS3: 音声認識部11は,談話構造解析装置6から応対履歴音声データを受け取って,応対履歴音声データの解決提示区間に対応する音声データを取り出し,所定の発話セグメント単位で音声認識処理用辞書を用いた音声認識処理を行って,音声テキストデータを作成して第1記憶部171へ格納する。
Step S3: The
図15は,音声認識用辞書の例を示す図である。 FIG. 15 is a diagram illustrating an example of a speech recognition dictionary.
音声認識用辞書は,形態素解析部12が,質問集記憶部4の問題解決データの解決部から,主要な自立語を抽出して作成される。
The speech recognition dictionary is created by the
ステップS4: 形態素解析部12は,第1記憶部171に格納されている音声テキストデータ全てについて形態素解析処理を行って単語に分割し,分割した単語から,所定の条件(例えば,自立語である単語,例えば,名詞,動詞,形容詞,形容動詞,副詞などの各単語等)に合致する単語を抽出する。さらに,形態素解析部12は,抽出した単語群の中から,質問集記憶部4の質問解決データの解決部に出現する単語を発話順に抽出して応対履歴単語グループを作成して第2記憶部172へ格納する。
Step S4: The
応対履歴単語グループは,応対履歴音声データの対応するレコードに追加または関連付けされる。 The response history word group is added to or associated with the corresponding record of the response history voice data.
図16と図17とは,応対履歴単語グループの例を示す図である。 16 and 17 are diagrams showing examples of response history word groups.
図16(A)は応対履歴単語グループ#1の例を,図16(B)応対履歴単語グループ#2の例を,図17は応対履歴単語グループ#3の例を,それぞれ表す。
16A shows an example of response history
応対履歴単語グループ#1,#2,#3では,応対履歴IDに対応する音声データに対する音声認識処理結果である音声テキストデータの各発話セグメントに出現する単語(認識結果単語)が,セグメント順すなわち単語の出現順に記録される。
In the response history
ステップS5: 参照候補作成部13は,検索結果が失敗である応対に対応する応対履歴単語グループの単語から,参照候補を作成する。
Step S5: The reference
図18は,ステップS5の処理のより詳細な処理フローを示す図である。 FIG. 18 is a diagram showing a more detailed processing flow of the processing in step S5.
ステップS51: 参照候補作成部13は,各応対履歴単語グループについて,所定の発話セグメント間隔以下(5以下)で出現する同一単語を除去する。
Step S51: The reference
具体的には,参照候補作成部13は,第2記憶部に格納されている全ての応対履歴単語グループの各々について,指定されたセグメント距離(セグメント数)内に同一の単語が出現する関係を抽出し,抽出した関係にある後続の単語に除去フラグ(#で単語を囲むことで本実施例では表す)を設定する。
Specifically, the reference
図19,図20は,同一単語の除去例を示す図である。 19 and 20 are diagrams illustrating examples of removing the same word.
図19(A)は応対履歴単語グループ#1の例を,図19(B)応対履歴単語グループ#2の例を,図20は応対履歴単語グループ#3の例を,それぞれ表す。
19A shows an example of response history
図19(A)の応対履歴単語グループ#1では,セグメントNo=17,19に「インストール」があるため,後に出現する単語に除去フラグ(#)が設定されていることを示す。図19(B)の応対履歴単語グループ#2では,セグメントNo=3,5と19,22とに「しっかり」があるため,後に出現するセグメントNo=5,22の「しっかり」に除去フラグが設定されている。図20の応対履歴単語グループ#3では,セグメントNo=1,3に「しっかり」が,セグメントNo=10,13に「インストール」があるため,それぞれ,後に出現する単語に除去フラグが設定されている。
In the response history
参照候補作成部13は,応対履歴単語グループから除去フラグが設定された単語を除去する。
The reference
ステップS52: 参照候補作成部13は,応対履歴音声データの検索結果が「ヒットせず」のレコード(応対)について,対応する応対履歴単語グループでの単語の出現順序と,質問集記憶部4の各質問解決データの解決部の単語の出現順序との一致度を計算して,一致度が所定の閾値以上に高い質問解決データを選択して暫定候補を作成する。
Step S52: For the record (response) in which the search result of the response history voice data is “no hit”, the reference
参照候補作成部13は,応対履歴音声データの検索結果が「ヒットせず」の応対に対応する応対履歴単語グループを1つずつ取り出す。参照候補作成部13は,質問集記憶部4から質問解決データを1つずつ取り出して,取り出した応対履歴単語グループの出現順に並ぶ単語と,取り出した質問解決データの解決部に記述された順序の単語との一致度を計算する。
The reference
図21(A)は,応対履歴単語グループ#1の単語群のうち,質問解決データ#30,に対して単語の出現順序の一致の計算に使用される単語の並びを示す図であり,図21(B)は,応対履歴単語グループ#1の単語群のうち,質問解決データ#31に対して単語の出現順序の一致の計算に使用される単語の並びを示す図である。
FIG. 21A is a diagram showing a sequence of words used for calculation of matching of appearance order of words with respect to question
単語の出現順序の一致度の計算は,例えば,編集距離(レーベンシュタイン距離)を用いて計算する。編集距離とは,2つの文字列がどの程度異なっているかを,編集回数すなわち,文字単位の挿入,削除,置換等の回数を文字間の距離として求める手法である。 The degree of coincidence of the appearance order of words is calculated using, for example, an edit distance (Levenstein distance). The edit distance is a technique for determining how different two character strings are as the distance between characters by the number of edits, that is, the number of insertions, deletions, and substitutions in character units.
文字列abcdと,文字列bcd,文字列bzdについて距離を求める場合を例とする。文字列abcdと文字列bcdとの場合は,文字列abcdを文字列bcdとするために「文字aを削除」という1回の編集が必要である。また,文字列abcdと文字列bzdとの場合は,文字列abcdを文字列bzdとするために「文字aを削除」「文字cを文字zに置換」という2回の編集が必要である。したがって,文字列abcdと文字列bcdとの組は,文字列abcdと文字列bzdとの組に比べて,距離が短く,一致度が高いこととなる。なお,編集距離の処理の詳細は後述する。 As an example, the distance is calculated for the character string abcd, the character string bcd, and the character string bzd. In the case of the character string abcd and the character string bcd, one-time editing of “deleting the character a” is necessary to make the character string abcd the character string bcd. In the case of the character string abcd and the character string bzd, two edits of “delete character a” and “replace character c with character z” are required to make the character string abcd a character string bzd. Therefore, the pair of the character string abcd and the character string bcd has a shorter distance and a higher matching degree than the pair of the character string abcd and the character string bzd. Details of the edit distance processing will be described later.
参照候補作成部13は,文字の連続の代わりに,単語の連続を入力として,応対履歴単語グループと質問解決データ各々との2つの単語群の距離を求めて一致度を計算し,質問解決データ全てとの一致度を求める。
The reference
ここで,選択される質問解決データは1つであってもよいが,複数であることが望ましい。したがって,参照候補作成部13は,計算した一致度の上位数個を選択するようにしてもよい。本実施形態では,参照候補作成部13は,計算した一致度の上位2つの質問解決データを選択する。選択した質問解決データを暫定候補とする。
Here, although one question solution data may be selected, it is desirable that there be a plurality. Therefore, the reference
応対履歴単語グループ#1の図21に示す単語群の場合に,質問解決データ#30,#31に対する計算による距離が,それぞれ,79.0,87.0であり,質問解決データ#30,#31が上位2つであると,参照候補作成部13は,質問解決データ#30,#31を暫定候補とする。
In the case of the word group shown in FIG. 21 of the response history
ステップS53: 参照候補作成部13は,応対履歴単語グループの単語群を,選択した暫定候補の数分用意し,複写した応対履歴単語グループの単語群から,対応する暫定候補(質問解決データ#30,#31)の解決部に出現しない単語を除去し,除去後の単語群を参照候補とし,第3記憶部173へ格納する。
Step S53: The reference
図22は,応対履歴単語グループの単語群の暫定候補にもとづく除去例を示す図である。 FIG. 22 is a diagram showing an example of removal based on provisional candidates for the word group of the response history word group.
図22(A)では,応対履歴単語グループ#1の単語で暫定候補である質問解決データ#30に出現しない単語「インストール」に除去フラグ(#)が設定されていることを示す。図22(B)では,応対履歴単語グループ#1の単語で暫定候補である質問解決データ#31に出現しない単語「インストール」「熱く」「排気」「ふさい」「口」「でるとこ」に除去フラグ(#)が設定されていることを示す。
FIG. 22A shows that the removal flag (#) is set for the word “install” that does not appear in the question
参照候補作成部13は,応対履歴単語グループから除去フラグが設定された単語を除去して,除去後の応対履歴単語グループを参照候補C1(図22(A)),参照候補C2(図22(B))とする。
The reference
ステップS6: 成功応対検出部14は,応対履歴音声データを参照して,検索結果が「ヒット」である応対を全て取り出して,その応対の閲覧データに記録された問題解決データを特定する。そして,成功応対検出部14は,第2記憶部の応対履歴単語グループから応対が成功であるものを抽出して,抽出した応対履歴単語グループ各々から,特定した問題解決データに出現しない単語を除去し,除去した単語群で成功事例単語グループを作成して第4記憶部174に格納する。
Step S6: The successful
具体的に,成功応対検出部14は,検索結果が「ヒット」である応対の音声データに対応する応対履歴単語グループ#2について,応対履歴単語グループ#2の単語群を質問解決データの数分用意し,複写した応対履歴単語グループの単語群から,各質問解決データの解決部に出現しない単語を除去する。
Specifically, for the response history
図23は,成功事例単語グループの例を示す図である。 FIG. 23 is a diagram illustrating an example of a success case word group.
図23(A)は,応対履歴単語グループ#2の単語で質問解決データ#30の解決部に出現しない単語「しっかり」に除去フラグが設定されていることを示す。図23(B)は,応対履歴単語グループ#2の単語で質問解決データ#31の解決部に出現しない単語「しっかり」「インストール」に除去フラグが設定されていることを示す。
FIG. 23A shows that the removal flag is set for the word “firm” that does not appear in the solution of the question
成功応対検出部14は,応対履歴単語グループ#2の単語から,除去フラグが設定された単語を除去して,除去後の単語群を成功事例単語グループG2とする。
The successful
ステップS7: 参照候補照合部15は,各参照候補について,参照候補の単語群と,成功事例単語グループの各々の単語群とを照合して,構成されている単語の類似度を計算する。参照候補照合部15は,計算した類似度が最大となった組み合わせ(参照候補と成功事例単語グループ)とを特定する。
Step S7: For each reference candidate, the reference
具体的には,参照候補照合部15は,参照候補の単語群と,成功事例単語グループの単語群との単語列を,文書のベクトルとみなして,以下の式1を適用して類似度を求める。
Specifically, the reference
ある応対(応対履歴ID=insident001)から作成された参照候補C1,C2と,成功事例単語グループG1,G2との間で単語の類似度を計算し,計算の結果,参照候補C1と成功事例単語グループG1の組み合わせの類似度が最大であったとする。 The word similarity is calculated between the reference candidates C1 and C2 created from a certain response (response history ID = insident001) and the success case word groups G1 and G2, and as a result of the calculation, the reference candidate C1 and the success case word It is assumed that the similarity of the combination of the group G1 is the maximum.
参照候補照合部15は,参照候補C1と成功事例単語グループG1との組み合わせを出力する。
The reference
ステップS8: 辞書情報作成部16は,類似度が最大である組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から,辞書情報,類似応対情報を作成し出力する。
Step S8: The dictionary
辞書情報作成部16は,参照候補C1と成功事例単語グループG1の応対履歴音声データ(応対履歴ID=incident001,incident002)を取り出して,応対履歴音声データの検索キーワード「パソコン,落ちる」,「電源,切れる」を抽出する(図13参照)。辞書情報作成部16は,抽出した検索キーワード「パソコン,落ちる」と「電源,切れる」との組を辞書情報として出力する。
The dictionary
図24は,辞書情報の例を示す図である。図24に示す辞書情報は,辞書記憶部7に蓄積される。
FIG. 24 is a diagram illustrating an example of dictionary information. The dictionary information shown in FIG. 24 is accumulated in the
さらに,辞書情報作成部16は,参照候補C1と成功事例単語グループG1との組み合わせの情報をもとに,参照候補C1の元となる応対に類似する応対として,質問解決データをヒットできた,成功事例単語グループG1の元となる応対を示す類似応対情報を作成し出力する。
Furthermore, the dictionary
この類似応対情報をもとに,応対履歴管理装置5は,検索履歴記憶部3の検索履歴情報に,データ項目「類似応対履歴」を追加して,類似応対情報に示される,対応付けられた成功の応対の応対履歴IDを記録する。
Based on the similar response information, the response
図25は,類似応対履歴のデータ項目が追加された検索履歴情報のデータ構成例を示す図である。図25では,応対履歴ID=incident001のレコードの「類似応対履歴」に,質問解決データをヒットできた応対の応対履歴ID(incident002)が記録される。 FIG. 25 is a diagram illustrating a data configuration example of search history information to which a data item of a similar response history is added. In FIG. 25, the response history ID (incident002) of the response that was able to hit the question solution data is recorded in “similar response history” of the record of response history ID = incident001.
図26は,単語の出現距離の計算を説明するための図である。 FIG. 26 is a diagram for explaining the calculation of the appearance distance of words.
比較する文字列A(abcd),文字列B(bzd)とする。図26(A)に示すように,距離テーブルとして,テーブルの列を文字列の要素数+1,テーブルの行を文字列Bの要素数+1とする2次元テーブルを用意する。
A character string A (abcd) and a character string B (bzd) to be compared are used. As shown in FIG. 26A, as the distance table, a two-dimensional table is prepared in which the column of the table is the number of elements of the character string + 1, and the row of the table is the number of elements of the character
そして,図26(B)に示すように,距離テーブルの最初の行を,文字列Aの先頭からの要素数で順に埋めていく(0,1,2,3,4)。次に,距離テーブルの最初の列を,文字列Bの先頭からの要素数で順に埋めていく(0,1,2,3)。 Then, as shown in FIG. 26B, the first row of the distance table is sequentially filled with the number of elements from the beginning of the character string A (0, 1, 2, 3, 4). Next, the first column of the distance table is sequentially filled with the number of elements from the beginning of the character string B (0, 1, 2, 3).
次に,図26(C)に示すように,距離テーブルの欄で,距離が未算出のうち,最小の行かつ最小の列の要素について,距離を設定する。ここで,追加,削除,置換の演算のうちコストが最小のものをそこまでの距離として設定する。文字aと文字bとの距離を考えると,文字の挿入では距離=2,文字の削除では距離=2,文字置換では距離=1であるので,最小の距離=1を採用して設定する。図26(D)に示すように,距離テーブルの全ての欄について距離を設定する。そして,図26(E)に示すように,距離テーブルの最大の要素(最大の行かつ最大の列)の値(2)を文字列Aと文字列Bとの距離とする。 Next, as shown in FIG. 26C, the distance is set for the element in the smallest row and the smallest column among the distances not yet calculated in the distance table column. Here, the operation with the lowest cost among the operations of addition, deletion, and replacement is set as the distance to that. Considering the distance between the character a and the character b, the distance is 2 for character insertion, the distance is 2 for character deletion, and the distance is 1 for character replacement. Therefore, the minimum distance is set to 1. As shown in FIG. 26D, distances are set for all the columns of the distance table. Then, as shown in FIG. 26 (E), the value (2) of the maximum element (maximum row and maximum column) of the distance table is set as the distance between the character string A and the character string B.
図27に,辞書作成装置1のハードウェア構成例を示す。
FIG. 27 shows a hardware configuration example of the
図27に示すように,辞書作成装置1は,CPU101,主記憶部(メモリ)103,入出力インターフェイス105,外部記憶装置110,入力装置(キーボード等)120,出力装置(ディスプレイ等)130を備えるコンピュータ100によって実施することができる。
As shown in FIG. 27, the
また,辞書作成装置1は,コンピュータ100が実行可能なプログラムによって実施することができる。この場合に,辞書作成装置1が有すべき機能の処理内容を記述したプログラムが提供される。提供されたプログラムをコンピュータ100が実行することによって,上記説明した辞書作成装置1の処理機能がコンピュータ100上で実現される。
The
すなわち,辞書作成装置1の音声認識部11,形態素解析部12,参照候補作成部13,成功応対検出部14,参照候補照合部15,および辞書情報作成部16等は,プログラムで構成することができ,応対音声記憶部2,検索履歴記憶部3,質問集記憶部4および第1〜第4記憶部171〜174は,外部記憶装置110で構成することができる。
That is, the
なお,コンピュータ100は,可搬型記録媒体から直接プログラムを読み取り,そのプログラムに従った処理を実行することもできる。また,コンピュータ100は,サーバコンピュータからプログラムが転送されるごとに,逐次,受け取ったプログラムに従った処理を実行することもできる。
The
さらに,このプログラムは,コンピュータ100で読み取り可能な記録媒体に記録しておくことができる。
Further, this program can be recorded on a recording medium readable by the
以上の本実施形態に示されるように,辞書作成装置1を,コールセンタのオペレータの検索処理を支援する言い換え辞書情報の作成処理に適用した場合に,次のような効果が得られる。すなわち,
(1)辞書作成装置1によれば,顧客が問い合わせた質問や障害の解決策を提示するために,オペレータが質問解決データの蓄積を利用する場合に,検索処理で入力される単語と,質問解決データをヒットした検索で使用された単語との対応付けを示す辞書の作成が容易となる。よって,経験の浅いオペレータが検索時に入力した単語を,辞書を利用してより適切な単語へ置き換えることができるため,質問解決データのヒット率を向上させることができる。
As shown in the above embodiment, when the
(1) According to the
(2)辞書作成装置1によれば,置き換え辞書を,検索が成功した応対の履歴情報だけでなく失敗の応対の履歴情報をも利用して自動作成するため,辞書情報の蓄積を効率的に行うことができる。コールセンタで発生する応対のうち,検索に失敗した事例数は少なくなくこのような事例の応対履歴情報を有効活用することができる。
(2) According to the
(3)辞書作成装置1によれば,失敗した応対の応対履歴情報に,類似する応対であって検索が成功した応対の応対履歴情報を関連づけた情報を出力することができる。よって,応対履歴情報の有用性がより向上し,応対履歴情報の活用範囲を広げることが可能となる。
(3) According to the
本願発明の実施態様における特徴を列記すると,以下のようになる。 The features in the embodiments of the present invention are listed as follows.
(付記1) 置き換え可能な単語群を示す辞書情報を生成する辞書作成装置であって,
問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,
問い合わせに対する応対ごとに,顧客との対話でオペレータが発話した音声データを記憶する応対音声記憶部と,
応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,
音声テキストデータを記憶する第1記憶部と,
応対履歴単語グループを記憶する第2記憶部と,
参照候補を記憶する第3記憶部と,
成功事例単語グループを記憶する第4記憶部と,
前記応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して前記第1記憶部に格納する音声認識部と,
前記第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して前記第2記憶部に格納する形態素解析部と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,前記第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出す処理と,
前記取り出した応対履歴単語グループの単語の出現順序と前記質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,前記一致度が所定の値以上である質問解決データを選択する処理と,
前記検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して前記第3記憶部に格納する処理とを行う参照候補作成部と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する処理と,
前記第2記憶部から,前記検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,該取り出した応対履歴単語グループから前記特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して前記第4記憶部に格納する処理とを行う成功応対検出部と,
前記第3記憶部の参照候補の1つを前記第4記憶部の成功事例単語グループ各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する参照候補照合部と,
前記特定された組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する辞書情報作成部とを備える
ことを特徴とする辞書作成装置。
(Supplementary note 1) A dictionary creation device for generating dictionary information indicating replaceable word groups,
A question collection storage unit for storing question solution data including solution information for the inquiry;
For each response to an inquiry, a response voice storage unit that stores voice data uttered by an operator in a dialog with a customer;
For each response, search history information including a search keyword used in the search process, a search result indicating success or failure of the search process, and browsing data indicating the question solution data browsed when the search is successful. A search history storage unit for storing;
A first storage unit for storing voice text data;
A second storage unit for storing a response history word group;
A third storage unit for storing reference candidates;
A fourth storage unit for storing success case word groups;
A speech recognition unit that performs speech recognition processing on each of the speech data stored in the reception speech storage unit, creates speech text data corresponding to the speech data, and stores the speech text data in the first storage unit;
A morpheme analysis process is performed on each speech text data in the first storage unit, and words appearing in the question solution data in the question collection storage unit are extracted from the words obtained by the morpheme analysis process in the utterance order. A morpheme analyzer that creates a history word group and stores it in the second storage unit;
Based on the search history information stored in the search history storage unit, a process of extracting a response history word group of a response whose search result is unsuccessful from the second storage unit;
The degree of coincidence between the appearance order of words in the extracted response history word group and the appearance order of words described in each question solution data of the question collection storage unit is calculated, and the degree of coincidence is equal to or greater than a predetermined value. The process of selecting certain question resolution data;
A reference candidate is created by removing words that are not described in the question solution data selected based on the degree of matching with the response history word group from the response history word group of the response whose search result is failure, A reference candidate creation unit that performs processing to be stored in the third storage unit;
A process of detecting all the responses whose search results are successful based on the search history information stored in the search history storage unit, and identifying the question solution data as the browsing data of the responses whose search results are successful When,
A response history word group corresponding to each response whose search result is successful is extracted from the second storage unit, and words not described in the identified question solution data are removed from the extracted response history word group A successful response detection unit that creates a success case word group and stores it in the fourth storage unit;
One of the reference candidates in the third storage unit is compared with each successful case word group in the fourth storage unit, the similarity of the words included in each is calculated, and the reference candidate having the maximum similarity A reference candidate matching unit that identifies combinations with successful case word groups;
A dictionary information creating unit that extracts a search keyword from the response history information of each of the specified combination of reference candidates and successful case word groups, and outputs the extracted search keyword group as dictionary information. Dictionary creation device.
(付記2) 前記参照候補作成部は,前記単語の出現順序の一致度を計算する前に,前記質問集記憶部の質問解決データを参照して,前記応対履歴単語グループに含まれる単語から前記質問解決データのいずれにも記述されていない単語を除去する
ことを特徴とする付記1に記載の辞書作成装置。
(Additional remark 2) The said reference candidate preparation part refers to the question solution data of the said question collection memory | storage part, before calculating the coincidence degree of the appearance order of the said word from the word contained in the said response history word group, The dictionary creation device according to
(付記3) 前記参照候補作成部は,前記単語の出現順序の一致度を計算する前に,前記応対履歴単語グループに,所定時間内に出現した同一の単語が複数存在する場合に,該当する単語の1つのみを保持し他の単語を全て除去する
ことを特徴とする前記付記1または前記付記2のいずれかに記載の辞書作成装置。
(Supplementary Note 3) The reference candidate creation unit corresponds to the case where a plurality of identical words appearing within a predetermined time period exist in the response history word group before calculating the degree of coincidence of the appearance order of the words. The dictionary creation apparatus according to either
(付記4) 前記辞書情報作成部は,前記参照候補照合部が特定した組み合わせをもとに,該組み合わせの参照候補の元となる応対に,該組み合わせられた成功事例単語グループの元となる応対を関連づける類似応対情報を作成して出力する
ことを特徴とする前記付記1ないし前記3のいずれか一項に記載の辞書作成装置。
(Additional remark 4) The said dictionary information preparation part is based on the combination which the said reference candidate collation part specified, The response used as the origin of this combined success example word group to the response which becomes the reference candidate of this combination The dictionary creation apparatus according to any one of the
(付記5) コンピュータに,置き換え可能な単語群を示す辞書情報を生成する処理を実行させるための辞書作成プログラムであって,
問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,
問い合わせに対する応対ごとに,オペレータが発話した音声データを記憶する応対音声記憶部と,
応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,
音声テキストデータを記憶する第1記憶部と,
応対履歴単語グループを記憶する第2記憶部と,
参照候補を記憶する第3記憶部と,
成功事例単語グループを記憶する第4記憶部とを備えるコンピュータに,
前記応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して前記第1記憶部に格納する処理と,
前記第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して前記第2記憶部に格納する処理と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,前記第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出す処理と,
前記取り出した応対履歴単語グループの単語の出現順序と前記質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,前記一致度が所定の値以上である質問解決データを選択する処理と,
前記検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して前記第3記憶部に格納する処理と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する処理と,
前記第2記憶部から,前記検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,該取り出した応対履歴単語グループから前記特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して前記第4記憶部に格納する処理と,
前記第3記憶部の参照候補の1つを前記第4記憶部の成功事例単語グループ各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する処理と,
前記特定された組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する処理とを,
実行させるための辞書作成プログラム。
(Supplementary note 5) A dictionary creation program for causing a computer to execute processing for generating dictionary information indicating replaceable word groups,
A question collection storage unit for storing question solution data including solution information for the inquiry;
For each response to an inquiry, a response voice storage unit that stores voice data uttered by the operator;
For each response, search history information including a search keyword used in the search process, a search result indicating success or failure of the search process, and browsing data indicating the question solution data browsed when the search is successful. A search history storage unit for storing;
A first storage unit for storing voice text data;
A second storage unit for storing a response history word group;
A third storage unit for storing reference candidates;
In a computer comprising a fourth storage unit for storing success case word groups,
Processing for performing voice recognition processing on each of the voice data stored in the reception voice storage unit, creating voice text data corresponding to the voice data, and storing the voice text data in the first storage unit;
A morpheme analysis process is performed on each speech text data in the first storage unit, and words appearing in the question solution data in the question collection storage unit are extracted from the words obtained by the morpheme analysis process in the utterance order. A process of creating a history word group and storing it in the second storage unit;
Based on the search history information stored in the search history storage unit, a process of extracting a response history word group of a response whose search result is unsuccessful from the second storage unit;
The degree of coincidence between the appearance order of words in the extracted response history word group and the appearance order of words described in each question solution data of the question collection storage unit is calculated, and the degree of coincidence is equal to or greater than a predetermined value. The process of selecting certain question resolution data;
A reference candidate is created by removing words that are not described in the question solution data selected based on the degree of matching with the response history word group from the response history word group of the response whose search result is failure, Processing to be stored in the third storage unit;
A process of detecting all the responses whose search results are successful based on the search history information stored in the search history storage unit, and identifying the question solution data as the browsing data of the responses whose search results are successful When,
A response history word group corresponding to each response whose search result is successful is extracted from the second storage unit, and words not described in the identified question solution data are removed from the extracted response history word group A process of creating a success case word group and storing it in the fourth storage unit;
One of the reference candidates in the third storage unit is compared with each successful case word group in the fourth storage unit, the similarity of the words included in each is calculated, and the reference candidate having the maximum similarity A process for identifying combinations with success case word groups;
A process of extracting a search keyword from the response history information of each of the identified combination reference candidate and success case word group, and outputting the extracted search keyword group as dictionary information,
Dictionary creation program to be executed.
(付記6) 前記コンピュータに,前記単語の出現順序の一致度を計算する前に,前記質問集記憶部の質問解決データを参照して,前記応対履歴単語グループに含まれる単語から前記質問解決データのいずれにも記述されていない単語を除去する処理を,
実行させるための前記付記5に記載の辞書作成プログラム。
(Additional remark 6) Before calculating the degree of coincidence of the appearance order of the words to the computer, the question resolution data is referred to from the words included in the response history word group by referring to the question resolution data in the question collection storage unit. The process of removing words that are not described in any of
The dictionary creation program according to
(付記7) 前記コンピュータに,前記単語の出現順序の一致度を計算する前に,前記応対履歴単語グループに,所定時間内に出現した同一の単語が複数存在する場合に,該当する単語の1つのみを保持し他の単語を全て除去する処理を,
実行させるための前記付記5または付記6のいずれかに記載の辞書作成プログラム。
(Supplementary note 7) Before the computer calculates the degree of coincidence of the appearance order of the words, if there are a plurality of identical words appearing within a predetermined time in the response history word group, Process to keep only one and remove all other words,
The dictionary creation program according to any one of
(付記8) 前記コンピュータに,前記参照候補照合部が特定した組み合わせをもとに,該組み合わせの参照候補の元となる応対に,該組み合わせられた成功事例単語グループの元となる応対を関連づける類似応対情報を作成して出力する処理を,
実行させるための前記付記5ないし付記7のいずれかに記載の辞書作成プログラム。
(Additional remark 8) The similarity which associates the response which becomes the origin of this combined success example word group with the response which becomes the reference candidate of this combination based on the combination which the said reference candidate collation part specified to the said computer Processing to create and output the response information
The dictionary creation program according to any one of the
(付記9) コンピュータが,置き換え可能な単語群を示す辞書情報を生成する辞書作成方法であって,
問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,
問い合わせに対する応対ごとに,オペレータが発話した音声データを記憶する応対音声記憶部と,
応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,
音声テキストデータを記憶する第1記憶部と,
応対履歴単語グループを記憶する第2記憶部と,
参照候補を記憶する第3記憶部と,
成功事例単語グループを記憶する第4記憶部とを備えるコンピュータが実行する,
前記応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して前記第1記憶部に格納する処理過程と,
前記第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して前記第2記憶部に格納する処理過程と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,前記第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出す処理過程と,
前記取り出した応対履歴単語グループの単語の出現順序と前記質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,前記一致度が所定の値以上である質問解決データを選択する処理過程と,
前記検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して前記第3記憶部に格納する処理過程と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する処理過程と,
前記第2記憶部から,前記検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,該取り出した応対履歴単語グループから前記特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して前記第4記憶部に格納する処理過程と,
前記第3記憶部の参照候補の1つを前記第4記憶部の成功事例単語グループ各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する処理過程と,
前記特定された組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する処理過程とを備える
ことを特徴とする辞書作成方法。
(Supplementary note 9) A dictionary creation method in which a computer generates dictionary information indicating replaceable word groups,
A question collection storage unit for storing question solution data including solution information for the inquiry;
For each response to an inquiry, a response voice storage unit that stores voice data uttered by the operator;
For each response, search history information including a search keyword used in the search process, a search result indicating success or failure of the search process, and browsing data indicating the question solution data browsed when the search is successful. A search history storage unit for storing;
A first storage unit for storing voice text data;
A second storage unit for storing a response history word group;
A third storage unit for storing reference candidates;
A computer comprising a fourth storage unit for storing success case word groups;
A process of performing voice recognition processing on each of the voice data stored in the reception voice storage unit, creating voice text data corresponding to the voice data, and storing the voice text data in the first storage unit;
A morpheme analysis process is performed on each speech text data in the first storage unit, and words appearing in the question solution data in the question collection storage unit are extracted from the words obtained by the morpheme analysis process in the utterance order. A process of creating a history word group and storing it in the second storage unit;
Based on the search history information stored in the search history storage unit, a process of retrieving a response history word group of a response whose search result is unsuccessful from the second storage unit;
The degree of coincidence between the appearance order of words in the extracted response history word group and the appearance order of words described in each question solution data of the question collection storage unit is calculated, and the degree of coincidence is equal to or greater than a predetermined value. A process of selecting certain question resolution data;
A reference candidate is created by removing words that are not described in the question solution data selected based on the degree of matching with the response history word group from the response history word group of the response whose search result is failure, A process of storing in the third storage unit;
A process of detecting all the responses whose search results are successful based on the search history information stored in the search history storage unit, and identifying the question solution data as the browsing data of the responses whose search results are successful Process,
A response history word group corresponding to each response whose search result is successful is extracted from the second storage unit, and words not described in the identified question solution data are removed from the extracted response history word group A process of creating a success case word group and storing it in the fourth storage unit;
One of the reference candidates in the third storage unit is compared with each successful case word group in the fourth storage unit, the similarity of the words included in each is calculated, and the reference candidate having the maximum similarity A process of identifying combinations with successful case word groups,
A dictionary comprising: a search keyword extracted from the response history information of each of the identified combination reference candidate and successful case word group, and the extracted search keyword group is output as dictionary information. How to make.
(付記10) 前記一致度が所定の値以上である質問解決データを選択する処理過程において,前記一致度を計算する前に,前記質問集記憶部の質問解決データを参照して,前記応対履歴単語グループに含まれる単語から前記質問解決データのいずれにも記述されていない単語を除去する
ことを特徴とする前記付記9に記載の辞書作成方法。
(Additional remark 10) In the process of selecting the question solution data whose degree of coincidence is a predetermined value or more, before calculating the degree of coincidence, referring to the question solution data in the question collection storage unit, the response history The dictionary creation method according to
(付記11) 前記一致度が所定の値以上である質問解決データを選択する処理過程において,前記一致度を計算する前に,前記応対履歴単語グループに,所定時間内に出現した同一の単語が複数存在する場合に,該当する単語の1つのみを保持し他の単語を全て除去する
ことを特徴とする前記付記9または前記付記10に記載の辞書作成方法。
(Additional remark 11) In the process of selecting the question solution data in which the degree of coincidence is a predetermined value or more, before calculating the degree of coincidence, the same word appearing in the response history word group within a predetermined time The dictionary creation method according to
(付記12) 前記辞書情報を出力する処理過程において,前記参照候補照合部が特定した組み合わせをもとに,該組み合わせの参照候補の元となる応対に,該組み合わせられた成功事例単語グループの元となる応対を関連づける類似応対情報を作成して出力する
ことを特徴とする前記付記9ないし前記付記11のいずれか一項に記載の辞書作成方法。
(Supplementary Note 12) In the process of outputting the dictionary information, based on the combination specified by the reference candidate matching unit, the response of the combined success case word group is used as the source of the reference candidate of the combination. 13. The dictionary creation method according to any one of the
1 辞書作成装置
11 音声認識部
12 形態素解析部
13 参照候補作成部
14 成功応対検出部
15 参照候補照合部
16 辞書情報作成部
171 第1記憶部
172 第2記憶部
173 第3記憶部
174 第4記憶部
2 応対音声記憶部
3 検索履歴記憶部
4 質問集記憶部
5 応対履歴管理装置
6 談話構造解析装置
7 辞書記憶部
8 応対履歴記憶部
DESCRIPTION OF
Claims (6)
問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,
問い合わせに対する応対ごとに,オペレータが発話した音声データを記憶する応対音声記憶部と,
応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,
音声テキストデータを記憶する第1記憶部と,
応対履歴単語グループを記憶する第2記憶部と,
参照候補を記憶する第3記憶部と,
成功事例単語グループを記憶する第4記憶部と,
前記応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して前記第1記憶部に格納する音声認識部と,
前記第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して前記第2記憶部に格納する形態素解析部と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,前記第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出す処理と,
前記取り出した応対履歴単語グループの単語の出現順序と前記質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,前記一致度が所定の値以上である質問解決データを選択する処理と,
前記検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して前記第3記憶部に格納する処理とを行う参照候補作成部と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する処理と,
前記第2記憶部から,前記検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,該取り出した応対履歴単語グループから前記特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して前記第4記憶部に格納する処理とを行う成功応対検出部と,
前記第3記憶部の参照候補の1つを前記第4記憶部の成功事例単語グループ各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する参照候補照合部と,
前記特定された組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する辞書情報作成部とを備える
ことを特徴とする辞書作成装置。 A dictionary creation device for generating dictionary information indicating replaceable word groups,
A question collection storage unit for storing question solution data including solution information for the inquiry;
For each response to an inquiry, a response voice storage unit that stores voice data uttered by the operator;
For each response, search history information including a search keyword used in the search process, a search result indicating success or failure of the search process, and browsing data indicating the question solution data browsed when the search is successful. A search history storage unit for storing;
A first storage unit for storing voice text data;
A second storage unit for storing a response history word group;
A third storage unit for storing reference candidates;
A fourth storage unit for storing success case word groups;
A speech recognition unit that performs speech recognition processing on each of the speech data stored in the reception speech storage unit, creates speech text data corresponding to the speech data, and stores the speech text data in the first storage unit;
A morpheme analysis process is performed on each speech text data in the first storage unit, and words appearing in the question solution data in the question collection storage unit are extracted from the words obtained by the morpheme analysis process in the utterance order. A morpheme analyzer that creates a history word group and stores it in the second storage unit;
Based on the search history information stored in the search history storage unit, a process of extracting a response history word group of a response whose search result is unsuccessful from the second storage unit;
The degree of coincidence between the appearance order of words in the extracted response history word group and the appearance order of words described in each question solution data of the question collection storage unit is calculated, and the degree of coincidence is equal to or greater than a predetermined value. The process of selecting certain question resolution data;
A reference candidate is created by removing words that are not described in the question solution data selected based on the degree of matching with the response history word group from the response history word group of the response whose search result is failure, A reference candidate creation unit that performs processing to be stored in the third storage unit;
A process of detecting all the responses whose search results are successful based on the search history information stored in the search history storage unit, and identifying the question solution data as the browsing data of the responses whose search results are successful When,
A response history word group corresponding to each response whose search result is successful is extracted from the second storage unit, and words not described in the identified question solution data are removed from the extracted response history word group A successful response detection unit that creates a success case word group and stores it in the fourth storage unit;
One of the reference candidates in the third storage unit is compared with each successful case word group in the fourth storage unit, the similarity of the words included in each is calculated, and the reference candidate having the maximum similarity A reference candidate matching unit that identifies combinations with successful case word groups;
A dictionary information creating unit that extracts a search keyword from the response history information of each of the specified combination of reference candidates and successful case word groups, and outputs the extracted search keyword group as dictionary information. Dictionary creation device.
ことを特徴とする請求項1に記載の辞書作成装置。 The reference candidate creation unit refers to the question solution data in the question collection storage unit and calculates the question solution data from the words included in the response history word group before calculating the degree of coincidence of the appearance order of the words. The dictionary creation apparatus according to claim 1, wherein words that are not described in any of the words are removed.
ことを特徴とする請求項1または請求項2のいずれかに記載の辞書作成装置。 The reference candidate creation unit may calculate one of the corresponding words when the response history word group includes a plurality of identical words that appear within a predetermined time before calculating the degree of coincidence of the appearance order of the words. 3. The dictionary creation device according to claim 1, wherein only a word is stored and all other words are removed.
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の辞書作成装置。 The dictionary information creation unit, based on the combination specified by the reference candidate collation unit, associates a response that is a source of the reference candidate of the combination with a response that is a source of the combined successful case word group. The dictionary creation device according to any one of claims 1 to 3, wherein information is created and output.
問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,
問い合わせに対する応対ごとに,オペレータが発話した音声データを記憶する応対音声記憶部と,
応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,
音声テキストデータを記憶する第1記憶部と,
応対履歴単語グループを記憶する第2記憶部と,
参照候補を記憶する第3記憶部と,
成功事例単語グループを記憶する第4記憶部とを備えるコンピュータに,
前記応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して前記第1記憶部に格納する処理と,
前記第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して前記第2記憶部に格納する処理と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,前記第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出す処理と,
前記取り出した応対履歴単語グループの単語の出現順序と前記質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,前記一致度が所定の値以上である質問解決データを選択する処理と,
前記検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して前記第3記憶部に格納する処理と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する処理と,
前記第2記憶部から,前記検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,該取り出した応対履歴単語グループから前記特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して前記第4記憶部に格納する処理と,
前記第3記憶部の参照候補の1つを前記第4記憶部の成功事例単語グループ各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する処理と,
前記特定された組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する処理とを,
実行させるための辞書作成プログラム。 A dictionary creation program for causing a computer to execute a process for generating dictionary information indicating replaceable word groups,
A question collection storage unit for storing question solution data including solution information for the inquiry;
For each response to an inquiry, a response voice storage unit that stores voice data uttered by the operator;
For each response, search history information including a search keyword used in the search process, a search result indicating success or failure of the search process, and browsing data indicating the question solution data browsed when the search is successful. A search history storage unit for storing;
A first storage unit for storing voice text data;
A second storage unit for storing a response history word group;
A third storage unit for storing reference candidates;
In a computer comprising a fourth storage unit for storing success case word groups,
Processing for performing voice recognition processing on each of the voice data stored in the reception voice storage unit, creating voice text data corresponding to the voice data, and storing the voice text data in the first storage unit;
A morpheme analysis process is performed on each speech text data in the first storage unit, and words appearing in the question solution data in the question collection storage unit are extracted from the words obtained by the morpheme analysis process in the utterance order. A process of creating a history word group and storing it in the second storage unit;
Based on the search history information stored in the search history storage unit, a process of extracting a response history word group of a response whose search result is unsuccessful from the second storage unit;
The degree of coincidence between the appearance order of words in the extracted response history word group and the appearance order of words described in each question solution data of the question collection storage unit is calculated, and the degree of coincidence is equal to or greater than a predetermined value. The process of selecting certain question resolution data;
A reference candidate is created by removing words that are not described in the question solution data selected based on the degree of matching with the response history word group from the response history word group of the response whose search result is failure, Processing to be stored in the third storage unit;
A process of detecting all the responses whose search results are successful based on the search history information stored in the search history storage unit, and identifying the question solution data as the browsing data of the responses whose search results are successful When,
A response history word group corresponding to each response whose search result is successful is extracted from the second storage unit, and words not described in the identified question solution data are removed from the extracted response history word group A process of creating a success case word group and storing it in the fourth storage unit;
One of the reference candidates in the third storage unit is compared with each successful case word group in the fourth storage unit, the similarity of the words included in each is calculated, and the reference candidate having the maximum similarity A process for identifying combinations with success case word groups;
A process of extracting a search keyword from the response history information of each of the identified combination reference candidate and success case word group, and outputting the extracted search keyword group as dictionary information,
Dictionary creation program to be executed.
問い合わせに対する解決情報を含む質問解決データを記憶する質問集記憶部と,
問い合わせに対する応対ごとに,オペレータが発話した音声データを記憶する応対音声記憶部と,
応対ごとに,検索処理で使用された検索キーワードと,該検索処理の成功または失敗を示す検索結果と,検索が成功した場合に閲覧された質問解決データを示す閲覧データとを含む検索履歴情報を記憶する検索履歴記憶部と,
音声テキストデータを記憶する第1記憶部と,
応対履歴単語グループを記憶する第2記憶部と,
参照候補を記憶する第3記憶部と,
成功事例単語グループを記憶する第4記憶部とを備えるコンピュータが実行する,
前記応対音声記憶部に記憶された音声データ各々に音声認識処理を行って,該音声データに対応する音声テキストデータを作成して前記第1記憶部に格納する処理過程と,
前記第1記憶部の各音声テキストデータに形態素解析処理を行って,該形態素解析処理で得た単語の中から前記質問集記憶部の前記質問解決データに出現する単語を発話順に抽出して応対履歴単語グループを作成して前記第2記憶部に格納する処理過程と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,前記第2記憶部から,検索結果が失敗である応対の応対履歴単語グループを取り出す処理過程と,
前記取り出した応対履歴単語グループの単語の出現順序と前記質問集記憶部の各質問解決データに記述されている単語の出現順序との一致度を計算して,前記一致度が所定の値以上である質問解決データを選択する処理過程と,
前記検索結果が失敗である応対の応対履歴単語グループから,該応対履歴単語グループとの一致度にもとづいて選択された質問解決データに記述されていない単語を除去して参照候補を作成して前記第3記憶部に格納する処理過程と,
前記検索履歴記憶部に記憶された検索履歴情報をもとに,検索結果が成功である応対を全て検出して,該検索結果が成功である応対の閲覧データである質問解決データを特定する処理過程と,
前記第2記憶部から,前記検索結果が成功である応対各々に対応する応対履歴単語グループを取り出して,該取り出した応対履歴単語グループから前記特定された質問解決データに記述されていない単語を除去して成功事例単語グループを作成して前記第4記憶部に格納する処理過程と,
前記第3記憶部の参照候補の1つを前記第4記憶部の成功事例単語グループ各々と比較して,それぞれが含む単語の類似度を計算して,前記類似度が最大である参照候補と成功事例単語グループとの組み合わせを特定する処理過程と,
前記特定された組み合わせの参照候補と成功事例単語グループのそれぞれの応対履歴情報から検索キーワードを抽出して,該抽出した検索キーワード群を辞書情報として出力する処理過程とを備える
ことを特徴とする辞書作成方法。
A dictionary creation method in which a computer generates dictionary information indicating replaceable word groups,
A question collection storage unit for storing question solution data including solution information for the inquiry;
For each response to an inquiry, a response voice storage unit that stores voice data uttered by the operator;
For each response, search history information including a search keyword used in the search process, a search result indicating success or failure of the search process, and browsing data indicating the question solution data browsed when the search is successful. A search history storage unit for storing;
A first storage unit for storing voice text data;
A second storage unit for storing a response history word group;
A third storage unit for storing reference candidates;
A computer comprising a fourth storage unit for storing success case word groups;
A process of performing voice recognition processing on each of the voice data stored in the reception voice storage unit, creating voice text data corresponding to the voice data, and storing the voice text data in the first storage unit;
A morpheme analysis process is performed on each speech text data in the first storage unit, and words appearing in the question solution data in the question collection storage unit are extracted from the words obtained by the morpheme analysis process in the utterance order. A process of creating a history word group and storing it in the second storage unit;
Based on the search history information stored in the search history storage unit, a process of retrieving a response history word group of a response whose search result is unsuccessful from the second storage unit;
The degree of coincidence between the appearance order of words in the extracted response history word group and the appearance order of words described in each question solution data of the question collection storage unit is calculated, and the degree of coincidence is equal to or greater than a predetermined value. A process of selecting certain question resolution data;
A reference candidate is created by removing words that are not described in the question solution data selected based on the degree of matching with the response history word group from the response history word group of the response whose search result is failure, A process of storing in the third storage unit;
A process of detecting all the responses whose search results are successful based on the search history information stored in the search history storage unit, and identifying the question solution data as the browsing data of the responses whose search results are successful Process,
A response history word group corresponding to each response whose search result is successful is extracted from the second storage unit, and words not described in the identified question solution data are removed from the extracted response history word group A process of creating a success case word group and storing it in the fourth storage unit;
One of the reference candidates in the third storage unit is compared with each successful case word group in the fourth storage unit, the similarity of the words included in each is calculated, and the reference candidate having the maximum similarity A process of identifying combinations with successful case word groups,
A dictionary comprising: a search keyword extracted from the response history information of each of the identified combination reference candidate and successful case word group, and the extracted search keyword group is output as dictionary information. How to make.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009271054A JP2011113426A (en) | 2009-11-30 | 2009-11-30 | Dictionary generation device, dictionary generating program, and dictionary generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009271054A JP2011113426A (en) | 2009-11-30 | 2009-11-30 | Dictionary generation device, dictionary generating program, and dictionary generation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011113426A true JP2011113426A (en) | 2011-06-09 |
Family
ID=44235690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009271054A Withdrawn JP2011113426A (en) | 2009-11-30 | 2009-11-30 | Dictionary generation device, dictionary generating program, and dictionary generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011113426A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013196315A (en) * | 2012-03-19 | 2013-09-30 | Yahoo Japan Corp | Information processing apparatus and method |
WO2017072822A1 (en) * | 2015-10-30 | 2017-05-04 | 株式会社Ubic | Relevance evaluation system and method, program, and recording medium |
WO2019187463A1 (en) * | 2018-03-27 | 2019-10-03 | 株式会社Nttドコモ | Dialogue server |
-
2009
- 2009-11-30 JP JP2009271054A patent/JP2011113426A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013196315A (en) * | 2012-03-19 | 2013-09-30 | Yahoo Japan Corp | Information processing apparatus and method |
WO2017072822A1 (en) * | 2015-10-30 | 2017-05-04 | 株式会社Ubic | Relevance evaluation system and method, program, and recording medium |
JPWO2017072822A1 (en) * | 2015-10-30 | 2018-07-26 | 株式会社Fronteo | Relevance evaluation system, method, program, and recording medium |
WO2019187463A1 (en) * | 2018-03-27 | 2019-10-03 | 株式会社Nttドコモ | Dialogue server |
JPWO2019187463A1 (en) * | 2018-03-27 | 2020-12-03 | 株式会社Nttドコモ | Dialogue server |
JP7016405B2 (en) | 2018-03-27 | 2022-02-04 | 株式会社Nttドコモ | Dialogue server |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7983915B2 (en) | Audio content search engine | |
CN105723449B (en) | speech content analysis system and speech content analysis method | |
KR100760301B1 (en) | Method and apparatus for searching media file through extracting partial search word | |
US10019514B2 (en) | System and method for phonetic search over speech recordings | |
US20080270344A1 (en) | Rich media content search engine | |
US20080270110A1 (en) | Automatic speech recognition with textual content input | |
JP5440177B2 (en) | Word category estimation device, word category estimation method, speech recognition device, speech recognition method, program, and recording medium | |
WO2003010754A1 (en) | Speech input search system | |
CN107305541A (en) | Speech recognition text segmentation method and device | |
US20090234854A1 (en) | Search system and search method for speech database | |
Mendels et al. | Improving speech recognition and keyword search for low resource languages using web data | |
CN101952824A (en) | Method and information retrieval system that the document in the database is carried out index and retrieval that computing machine is carried out | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
JP5824829B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US10269352B2 (en) | System and method for detecting phonetically similar imposter phrases | |
JP5326169B2 (en) | Speech data retrieval system and speech data retrieval method | |
CN112231451B (en) | Reference word recovery method and device, conversation robot and storage medium | |
JP2009042968A (en) | Information selection system, information selection method, and program for information selection | |
Moyal et al. | Phonetic search methods for large speech databases | |
JP5897718B2 (en) | Voice search device, computer-readable storage medium, and voice search method | |
JP5454469B2 (en) | Speech recognition dictionary creation support device, processing program, and processing method | |
KR20060100646A (en) | Method and system for searching the position of an image thing | |
JP2011113426A (en) | Dictionary generation device, dictionary generating program, and dictionary generation method | |
Senay et al. | Person name spotting by combining acoustic matching and LDA topic models. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130205 |