JP2011065401A - Information processor and data processing method and program thereof - Google Patents
Information processor and data processing method and program thereof Download PDFInfo
- Publication number
- JP2011065401A JP2011065401A JP2009215242A JP2009215242A JP2011065401A JP 2011065401 A JP2011065401 A JP 2011065401A JP 2009215242 A JP2009215242 A JP 2009215242A JP 2009215242 A JP2009215242 A JP 2009215242A JP 2011065401 A JP2011065401 A JP 2011065401A
- Authority
- JP
- Japan
- Prior art keywords
- query
- keyword
- processing apparatus
- information processing
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置、そのデータ処理方法、およびプログラムに関し、特に、文書検索を行うシステムに利用できる情報処理装置、そのデータ処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, a data processing method thereof, and a program, and more particularly, to an information processing apparatus that can be used in a system that performs document search, a data processing method thereof, and a program.
コンタクトセンタにおける電話通話のように現在行なわれている発話に対し、タイムリーに適切な文書を検索し、提示するためには、通話中の場面に応じた適切なクエリ(キーワードセット)を随時生成できる必要がある。 In order to search and present appropriate documents in a timely manner for utterances that are currently being made, such as telephone calls in contact centers, appropriate queries (keyword sets) corresponding to the situation during the call are generated at any time. It needs to be possible.
そのようなクエリの生成方法の一つとして、通話中の話題を即時的に推定し、その話題に応じたクエリを用いて文書検索を行なう方法が考えられる。このような文書検索に適用可能な、話題区間推定システムとして文書検索装置の一例が特許文献1に記載されている。 As one method for generating such a query, a method of immediately estimating a topic during a call and performing a document search using a query corresponding to the topic can be considered. An example of a document search apparatus as a topic interval estimation system applicable to such document search is described in Patent Document 1.
特許文献1の文書検索装置は、予め所定のキーワード辞書を格納しており、コンタクトセンタにおける通話等に対する認識結果に出現する前記キーワード辞書に含まれるキーワードを時間順に逐次にキーワード履歴記憶部に記憶する。前記キーワード履歴記憶部に記憶されたキーワードリストと、検索対象の文書から構築された検索用データベースとを用いて、話題区間推定処理部で通話中の話題区間を、通話に従い逐次に推定する。 The document search apparatus of Patent Document 1 stores a predetermined keyword dictionary in advance, and stores keywords included in the keyword dictionary that appear in a recognition result for a call or the like in a contact center in the keyword history storage unit sequentially in time order. . Using the keyword list stored in the keyword history storage unit and the search database constructed from the search target document, the topic interval estimation processing unit sequentially estimates the topic interval during the call according to the call.
具体的には、キーワード履歴に時間順に記憶されたキーワードに対し古い方から順に1,2,3…kとカウント値を付与されているものとし、まず、カウント値kのキーワードと、カウント値k−1のキーワードを両方含む文書が検索用データベースにあるかどうかをチェックする。順次、k−2、k−3とカウント値を減じていき、これらのキーワードを全て含む文書がなくなった時点を話題区間の境界とするよう動作する。このとき、それぞれの話題区間に含まれるキーワードセットを文書検索のためのクエリとして使用することが可能である。 Specifically, it is assumed that count values such as 1, 2, 3,... K are assigned in order from the oldest to the keywords stored in the keyword history in chronological order. Check whether there is a document in the search database that includes both keywords -1. Sequentially, the count value is decreased to k-2, k-3, and the operation is performed so that the point in time when there is no document including all of these keywords is used as the boundary of the topic section. At this time, the keyword set included in each topic section can be used as a query for document search.
また、特許文献2に記載の文書検索装置は、会話の音声認識結果から抽出されたキーワード履歴に蓄積された複数のキーワードの中から、たとえば、抽出順などに従って、キーワードの組み合わせを生成する構成を有する。このとき、先頭または末尾からn個のキーワード1組を選択したり、同一のキーワードのヒット回数が多い順に上位からn個のキーワードを1組とすることが記載されている。そして、会話中に新たなキーワードが抽出される度にキーワードの組み合わせを変更する。また、既に存在するキーワードの組み合わせからキーワードの一部を削除し、削除したキーワードの組み合わせに新たなキーワードを追加することによりキーワードの組み合わせを変更することができる。また、同議語、類義語辞書を用いてキーワードを置換したり、追加したりすることができる。また、音声認識結果の信頼性の高いキーワードを使用することができる。 Further, the document search device described in Patent Document 2 is configured to generate a combination of keywords from a plurality of keywords stored in a keyword history extracted from a speech recognition result of conversation, for example, according to an extraction order. Have. At this time, it is described that one set of n keywords from the top or the end is selected, or that n keywords from the top are set as one set in descending order of the number of hits of the same keyword. Each time a new keyword is extracted during the conversation, the combination of keywords is changed. Further, the keyword combination can be changed by deleting a part of the keyword from the already existing keyword combination and adding a new keyword to the deleted keyword combination. In addition, keywords can be replaced or added using the synonym and synonym dictionary. In addition, it is possible to use a highly reliable keyword of the speech recognition result.
また、特許文献3に記載の文書検索装置は、応対中の文字列中よりキーワードを検出し、キーワード出現時系列として蓄積し、現在の応対に直接的に関連するキーワードの入力を受け付け、キーワード履歴から入力されたキーワードに関連する関連キーワードを取り出し、関連キーワードとキーワードを組み合わせてクエリを生成する構成を備える。これにより、誤認識や応対の話題に直接関係ないキーワードを選択しないようにできる。 The document search device described in Patent Document 3 detects a keyword from a character string being handled, accumulates it as a keyword appearance time series, accepts an input of a keyword directly related to the current response, and receives a keyword history. The related keyword relevant to the keyword input from is extracted, and the query is generated by combining the related keyword and the keyword. Thereby, it is possible not to select a keyword that is not directly related to the misrecognition or the topic of reception.
また、特許文献4に記載の文書検索装置は、会話からキーワードが抽出されない状況でも、一度検索された検索結果の中から、未表示の文書タイトルを提示する構成を有する。これにより、利用者に提供される文書情報の量を増大させ、効率よく目的とする文書にたどり着ける。 In addition, the document search device described in Patent Document 4 has a configuration in which an undisplayed document title is presented from a search result that has been searched once, even in a situation where keywords are not extracted from the conversation. As a result, the amount of document information provided to the user is increased, and the target document can be reached efficiently.
また、特許文献5に記載の情報検索装置は、検索クエリ構築モジュールが、ユーザの嗜好に適合した楽曲のクエリベクトルを管理するクエリデータベースと、クエリデータベースに登録されているクエリベクトル間の類似度を計算する類似度計算部と、相互に類似する複数のクエリベクトルを統合するクエリベクトル統合部と、を備え、クラスタリング手法を適用して、短時間で正確な検索を実現する。 Further, in the information search device described in Patent Document 5, the search query construction module calculates the similarity between the query database that manages the query vector of the music that matches the user's preference and the query vector registered in the query database. A similarity calculation unit for calculating and a query vector integration unit for integrating a plurality of query vectors similar to each other are provided, and an accurate search is realized in a short time by applying a clustering method.
また、特許文献6に記載の検索システムは、キーワードが入力されるたびにキーワードを累積して記憶するクエリキーワード記憶手段を備え、一度検索に用いたキーワードを、新たな検索用キーワードとしてデータベースやメタデータに追加登録することによって、検索効率をあげることができる。 The search system described in Patent Document 6 includes query keyword storage means for accumulating and storing keywords each time a keyword is input, and the keyword once used for the search is used as a new search keyword in a database or meta-data. Search efficiency can be improved by additionally registering data.
上述した特許文献に記載の文書検索システムには、誤認識により実際には発話していないキーワードが認識結果に出現してしまった場合や、話題区間が入れ子になったり交差したりするような場合に適切に動作しないという問題点があった。
その理由は、たとえば、特許文献1に記載の文書検索システムでは、時間連続するキーワードリストを含む文書があるかどうかでのみ話題区間を判定しており、誤ったキーワードが出現した場合にはその部分で誤って話題区間が分割されたり、話題区間が入れ子になる場合には内側の話題区間により外側の話題が分割されてしまったりし、誤った話題区間推定結果に従ったクエリを用いて文書検索を行なってしまうためである。
In the document search system described in the above-mentioned patent document, when a keyword that is not actually spoken appears in the recognition result due to misrecognition, or when topic sections are nested or intersected Had the problem of not working properly.
The reason is that, for example, in the document search system described in Patent Document 1, a topic section is determined only by whether or not there is a document including a keyword list that is continuous in time, and if an incorrect keyword appears, that portion If the topic section is mistakenly divided or the topic sections are nested, the outer topic is divided by the inner topic section, and the document is searched using a query according to the incorrect topic section estimation result. It is because it will perform.
また、他の特許文献に記載のシステムは、1つのクエリに抽出されたキーワード追加したり、キーワードを置換したり、削除したりして、更新するため、上記と同様な問題点があった。 In addition, the systems described in other patent documents have the same problems as described above because they are updated by adding keywords extracted to one query, replacing keywords, or deleting keywords.
本発明の目的は、上述した課題である不適切なクエリの生成を解決する情報処理装置、そのデータ処理方法、およびプログラムを提供することにある。 An object of the present invention is to provide an information processing apparatus, a data processing method, and a program for solving the above-described problem of generating an inappropriate query.
本発明の情報処理装置は、
文書検索に用いるクエリを蓄積するクエリ蓄積手段と、
随時入力される文章データを受け付ける受付手段と、
受け付けた前記文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出する抽出手段と、
前記抽出手段で前記キーワードが抽出される毎に、前記クエリ蓄積手段を参照し、いずれのクエリに前記キーワードを追加するか否かを所定の判断基準で判断し、前記キーワードを追加するクエリを選択または前記キーワードを含む新たなクエリを生成する生成手段と、
前記キーワードを追加した前記クエリまたは生成された前記新たなクエリを、前記クエリ蓄積手段に蓄積する更新手段と、を備える。
The information processing apparatus of the present invention
Query storage means for storing queries used for document search;
An accepting means for accepting text data input at any time;
When the received text data includes a predetermined keyword, an extraction means for extracting the keyword;
Each time the keyword is extracted by the extraction means, the query storage means is referred to, and it is determined whether or not to add the keyword to any query based on a predetermined criterion, and the query to which the keyword is added is selected. Or generating means for generating a new query including the keyword;
Updating means for storing the query to which the keyword is added or the generated new query in the query storage means.
本発明の情報処理装置のデータ処理方法は、
文書検索に用いるクエリを蓄積するクエリ蓄積装置を備えた情報処理装置が、
随時入力される文章データを受け付け、
受け付けた前記文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出し、
前記キーワードが抽出される毎に、前記クエリ蓄積装置を参照し、いずれのクエリに前記キーワードを追加するか否かを所定の判断基準で判断し、前記キーワードを追加するクエリを選択または前記キーワードを含む新たなクエリを生成し、
前記キーワードを追加した前記クエリまたは生成された前記新たなクエリを、前記クエリ蓄積装置に蓄積する。
The data processing method of the information processing apparatus of the present invention includes:
An information processing apparatus including a query storage device that stores queries used for document search is provided.
Accepts text data input from time to time,
When the received sentence data includes a predetermined keyword, the keyword is extracted,
Each time the keyword is extracted, the query storage device is referred to, it is determined whether or not to add the keyword to any query based on a predetermined criterion, and the query to add the keyword is selected or the keyword is selected. Generate a new query containing
The query to which the keyword is added or the generated new query is stored in the query storage device.
本発明のプログラムは、
情報処理装置を実現するためのプログラムであって、
前記情報処理装置が、文書検索に用いるクエリを蓄積するクエリ蓄積装置を備え、
随時入力される文章データを受け付ける受付手順と、
受け付けた前記文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出する抽出手順と、
前記抽出手順で前記キーワードが抽出される毎に、前記クエリ蓄積装置を参照し、いずれのクエリに前記キーワードを追加するか否かを所定の判断基準で判断し、前記キーワードを追加するクエリを選択または前記キーワードを含む新たなクエリを生成する生成手順と、
前記キーワードを追加した前記クエリまたは生成された前記新たなクエリを、前記クエリ蓄積装置に蓄積する更新手順と、をコンピュータに実行させるためのものである。
The program of the present invention
A program for realizing an information processing apparatus,
The information processing apparatus includes a query storage device that stores a query used for document search,
An acceptance procedure for accepting text data input from time to time;
An extraction procedure for extracting the keyword when the received text data includes a predetermined keyword;
Each time the keyword is extracted in the extraction procedure, the query storage device is referred to, it is determined whether or not the keyword is added to any query based on a predetermined criterion, and the query to which the keyword is added is selected. Or a generation procedure for generating a new query including the keyword,
An update procedure for storing the query to which the keyword is added or the generated new query in the query storage device is executed by a computer.
本発明の文書検索システムは、本発明の情報処理装置の前記クエリ蓄積手段に蓄積された前記クエリを用いて、前記文書検索を行う検索手段を備える。 The document search system of the present invention includes search means for performing the document search using the query stored in the query storage means of the information processing apparatus of the present invention.
本発明のコールセンターオペレータ支援システムは、本発明の文書検索システムを含む。 The call center operator support system of the present invention includes the document search system of the present invention.
本発明の会議支援システムは、本発明の文書検索システムを含む。 The conference support system of the present invention includes the document search system of the present invention.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。 The various components of the present invention do not necessarily have to be independent of each other. A plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.
また、本発明のデータ処理方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明のデータ処理方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。 In addition, although a plurality of procedures are described in order in the data processing method and the computer program of the present invention, the described order does not limit the order in which the plurality of procedures are executed. For this reason, when implementing the data processing method and computer program of this invention, the order of the several procedure can be changed in the range which does not interfere in content.
さらに、本発明のデータ処理方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。 Furthermore, the plurality of procedures of the data processing method and the computer program of the present invention are not limited to being executed at different timings. For this reason, another procedure may occur during the execution of a certain procedure, or some or all of the execution timing of a certain procedure and the execution timing of another procedure may overlap.
本発明によれば、適切なクエリを効率よく生成する情報処理装置、そのデータ処理方法、およびプログラム、ならびに、文書検索システム、コールセンターオペレータ支援システム、および会議支援システムが提供される。 ADVANTAGE OF THE INVENTION According to this invention, the information processing apparatus which produces | generates a suitable query efficiently, its data processing method, a program, a document search system, a call center operator assistance system, and a meeting assistance system are provided.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.
図1は、本発明の実施の形態に係る情報処理装置の構成を示す機能ブロック図である。
本発明の情報処理装置は、文書検索に用いるクエリを蓄積するクエリ蓄積部104と、随時入力される文章データを受け付ける受付部110と、受け付けた文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出する抽出部112と、抽出部112でキーワードが抽出される毎に、クエリ蓄積部104を参照し、いずれのクエリにキーワードを追加するか否かを所定の判断基準で判断し、キーワードを追加するクエリを選択またはキーワードを含む新たなクエリを生成する生成部114と、キーワードを追加したクエリまたは生成された新たなクエリを、クエリ蓄積部104に蓄積する更新部116と、を備える。
本実施形態において、情報処理装置は、検索対象の文書を検索するのに使用するクエリを生成するクエリ生成装置100を含む。
FIG. 1 is a functional block diagram showing the configuration of the information processing apparatus according to the embodiment of the present invention.
The information processing apparatus according to the present invention includes a
In the present embodiment, the information processing apparatus includes a
また、情報処理装置の各構成要素は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。 Each component of the information processing apparatus includes a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program that realizes the components of this figure loaded in the memory, a storage unit such as a hard disk that stores the program, It is realized by any combination of hardware and software, centering on the network connection interface. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus. Each figure described below shows functional unit blocks, not hardware unit configurations. In the following drawings, the configuration of parts not related to the essence of the present invention is omitted and is not shown.
具体的には、クエリ生成装置100は、キーワード辞書記憶部(図中、「キーワード辞書」と示す)102と、クエリ蓄積部104と、受付部110と、抽出部112と、生成部114と、更新部116と、を備える。また、クエリ生成装置100は、音声認識処理部10に接続される。
Specifically, the
これらのユニットはそれぞれ概略つぎのように動作する。
音声認識処理部10は、入力された音声信号に対し音声認識処理を行い、認識結果をクエリ生成装置100に出力する。本実施形態において、音声認識処理部10は、たとえば、コンタクトセンタにおける電話通話のように現在行なわれている発話の音声信号を入力する。
Each of these units generally operates as follows.
The speech
クエリ生成装置100において、キーワード辞書記憶部102には、文書検索の際に用いるキーワード、たとえば、「データベース」、「インターネット」、「ブラウザ」、「接続」、「できない」、「電話」、「料金」などが格納されており、検索対象の文書を元にする等して事前に用意しておく。クエリ蓄積部104には、文書検索に用いるクエリが格納される。キーワード辞書記憶部102およびクエリ蓄積部104は、必ずしもクエリ生成装置100に含まれなくてもよく、たとえば、ネットワークを介して接続された他の記憶装置に含まれてもよく、クエリ生成装置100から読み書きできるよう構成されていればよい。
In the
受付部110は、音声認識処理部10から出力された認識結果を受け付ける。
抽出部112では、キーワード辞書記憶部102を参照し、音声認識処理部10から出力された認識結果中にキーワードが含まれているか否かを調べ、キーワードが含まれている場合にそれを抽出する。
The accepting
The
本実施形態において、クエリは、たとえば、キーワードリストで表現される。クエリ蓄積部104に格納されたクエリは、たとえば、図2に示すような文書検索システム200において、クエリ生成装置100のクエリ蓄積部104に格納されたクエリを用いて、検索部212が文書データベース210に記憶された文書D1、D2、D3、・・・を検索し、提示部214が、その検索結果を随時ユーザに提示するために用いることができる。提示部214は、たとえば、ディスプレイ表示部(不図示)を含み、画面上に検索結果を表示してユーザに提示することができる。文書検索システム200は、検索部212と、提示部214と、文書データベース210と、備え、さらに、音声認識処理部10(図1)と、クエリ生成装置100(図1)と、を備えてもよい。
In the present embodiment, the query is expressed by a keyword list, for example. For example, in the document search system 200 as shown in FIG. 2, the query stored in the
クエリ生成装置100のクエリ蓄積部104に、クエリは複数格納され、それぞれについて文書検索を行なうことができる。クエリがキーワードリストの場合、たとえば、キーワードリスト中の全てのキーワードを含む文書を出力するような文書検索(いわゆるAND検索)を行なうことができる。たとえば、あるクエリは、「データベース、SQL」などのキーワードを含むクエリQ11や「インターネット、接続」などのキーワードを含むクエリQ12などである。検索部212により、これらのクエリを用いて文書データベース210の検索が行われ、たとえば、クエリQ12に対する検索結果としては、文書D2やD3が検出され、これらの文書が、提示部214によりユーザに提示される。
A plurality of queries are stored in the
図1に戻り、生成部114は、クエリ蓄積部104に格納されたクエリを参照し、抽出部112が抽出したキーワードを出力する毎に、クエリ蓄積部104に格納されるクエリを更新するよう動作する。クエリの更新とは、たとえば、クエリがキーワードリストの場合、新しく得られたキーワードを、既存のクエリのいずれか(複数であってもよい)に付け加えることや、新しく得られたキーワード単独からなるクエリを新たに追加することを含む。もちろん、新たなキーワードがクエリに反映されない、すなわち、クエリの更新が生じないことがあってもよい。
Returning to FIG. 1, the
生成部114は、新規キーワードをどの既存クエリに付け加えるかを判断する際の判断基準として時刻情報を用いることができる。すなわち、クエリ蓄積部104は、クエリにキーワードと、そのキーワードの時刻情報を関連付けて記憶するとともに、生成部114は、それぞれのクエリに含まれる最新のキーワードの時刻を比較し、一番新しいキーワードを含むクエリに新規キーワードを付け加えることができる。
The
また、それぞれのクエリに含まれる最古のキーワードの時刻を比較し、その中で一番新しいキーワードを含むクエリに新規キーワードを付け加えることもできる。それぞれの方式について、クエリに含まれるキーワードと、新規キーワードの時刻差が所定の閾値以上であれば、当該クエリへの新規キーワード追加を行なわないこともできる。 It is also possible to compare the time of the oldest keyword included in each query and add a new keyword to a query including the newest keyword among them. For each method, if the time difference between the keyword included in the query and the new keyword is equal to or greater than a predetermined threshold value, the new keyword can be not added to the query.
また、生成部114は、時刻情報の他に、検索対象から得られるキーワード間の関係を判断基準として用いることもできる。たとえば、検索対象のうち、一文書で同時に出現するという関係を用い、既存クエリに含まれるキーワードと新規キーワードがその関係にある場合に、当該クエリに新規キーワードを付け加えることが考えられる。また、既存クエリに新規キーワードを付け加えたクエリにより、検索結果が一つ以上得られる場合にはそのクエリを登録することも考えられる。
In addition to the time information, the
さらに、認識対象とする音声信号が複数話者による対話である場合、抽出されたキーワードの呼応関係を用いてクエリの更新を行なうことができる。これは、たとえば、コンタクトセンタのオペレータと顧客の対話を例にとった場合、オペレータが複数の質問を行い、顧客がそれに対し回答した場合に、それぞれの呼応関係にあるキーワードを結合してクエリを生成するものである。もちろん、これらを適宜組み合わせることが可能である。 Furthermore, when the speech signal to be recognized is a dialogue by a plurality of speakers, the query can be updated using the response relationship of the extracted keywords. For example, in the case of an interaction between a contact center operator and a customer, for example, when an operator asks a plurality of questions and a customer responds to the question, a query is made by combining keywords having respective responsive relationships. Is to be generated. Of course, it is possible to combine these appropriately.
具体的には、たとえば、予め、キーワード辞書記憶部102に、呼応関係にあるキーワードを関連付けて記憶しておき、抽出部112により、それらの呼応関係にあるキーワードが抽出されたとき、生成部114にそのことを通知することで判断することができる。
Specifically, for example, when keywords having a responsive relationship are stored in the keyword
本実施形態において、クエリ生成装置100を含む情報処理装置は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。
また、上述した文書検索システム200とクエリ生成装置100は、同じ装置に含まれていいし、別の装置であってもよい。
In this embodiment, the information processing apparatus including the
Further, the document search system 200 and the
本実施形態のコンピュータプログラムは、情報処理装置(クエリ生成装置100)を実現させるためのコンピュータに、随時入力される文章データを受け付ける受付手順と、受け付けた文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出する抽出手順と、抽出手順でキーワードが抽出される毎に、クエリ蓄積部104を参照し、いずれのクエリにキーワードを追加するか否かを所定の判断基準で判断し、キーワードを追加するクエリを選択またはキーワードを含む新たなクエリを生成する生成手順と、キーワードを追加したクエリまたは生成された新たなクエリを、クエリ蓄積部104に蓄積する更新手順と、を実行させるように記述されている。
The computer program of the present embodiment includes a reception procedure for receiving sentence data that is input as needed by a computer for realizing the information processing apparatus (query generation apparatus 100), and a predetermined keyword is included in the received sentence data. When a keyword is extracted, the
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。 The computer program of this embodiment may be recorded on a computer-readable recording medium. The recording medium is not particularly limited, and various forms can be considered. The program may be loaded from a recording medium into a computer memory, or downloaded to a computer through a network and loaded into the memory.
このように構成された本実施形態のクエリ生成装置100の動作について、以下に説明する。
図3および図4は、本実施形態のクエリ生成装置100の動作の一例を示すフローチャートである。
The operation of the
3 and 4 are flowcharts illustrating an example of the operation of the
本実施形態の情報処理装置(クエリ生成装置100)のデータ処理方法は、文書検索に用いるクエリを蓄積するクエリ蓄積部104を備えたクエリ生成装置100が、随時入力される文章データを受け付け(図3のステップS105)、受け付けた文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出し(図3のステップS107)、キーワードが抽出される毎に、クエリ蓄積部104を参照し、いずれのクエリにキーワードを追加するか否かを所定の判断基準で判断し(図4のステップS123)、キーワードを追加するクエリを選択またはキーワードを含む新たなクエリを生成し(図4のステップS127、S131)、キーワードを追加したクエリまたは新たに生成されたクエリを、クエリ蓄積部104に蓄積する(図4のステップS133)。
In the data processing method of the information processing apparatus (query generation apparatus 100) according to the present embodiment, the
図3は、本実施形態のクエリ生成装置100および文書検索システム200の動作の全体の流れの一例を示すフローチャートである。
まず、図1のクエリ生成装置100において、音声認識処理部10が、音声信号を入力し(ステップS101)、音声認識処理を行う(ステップS103)。そして、音声認識処理部10で得られた認識結果をクエリ生成装置100の受付部110が受け付け(ステップS105)、抽出部112がキーワード辞書記憶部102を参照し、所定のキーワードが含まれていれば(ステップS107のYES)、抽出して、生成部114に抽出したキーワードを受け渡し、図4のクエリ生成処理を呼び出す(ステップS109)。キーワードが含まれていなければ(ステップS107のNO)、ステップS109をバイパスし、ステップS111に進む。
FIG. 3 is a flowchart showing an example of the overall flow of operations of the
First, in the
そして、クエリ生成処理で更新され、クエリ生成装置100に格納されたクエリを用いて、図2の文書検索システム200において、検索部212が、文書データベース210を参照し、文書検索を行う(ステップS111)。検索結果を、提示部214が提示する(ステップS113)。なお、本処理の一連のステップは、音声入力が終了するまで、あるいは、ユーザなどにより終了指示されるまで、繰り返し実行される。また、上記ステップS107の判定でキーワードが抽出されなかった場合(ステップS107のNO)、一連の会話の中で、クエリ蓄積部104に記憶されているクエリによる文書検索が既に行われていて、検索結果が提示されており、新たな検索結果が得られない場合は、ステップS111およびステップS113もバイパスしてもよい。すなわち、すぐにステップS101に戻り、次のキーワード抽出に備えてもよい。
Then, using the query updated in the query generation process and stored in the
図4は、クエリ生成装置100において、認識結果からキーワードが抽出された際の、クエリ生成処理の流れの一例を示すフローチャートである。すなわち、図3のステップS107で認識結果からキーワードが抽出される度に、本処理が呼び出される。
FIG. 4 is a flowchart illustrating an example of the flow of query generation processing when a keyword is extracted from the recognition result in the
まず、生成部114が、クエリ蓄積部104を参照し、格納されているすべてのクエリに対して以下の処理を繰り返し行うものとする。クエリ蓄積部104に格納されているクエリの一つに対し、生成部114は、新たに得られたキーワードを追加するかどうかの判断を行なう(ステップS123)。この判断は、先に述べたような判断基準に従い判断が行なわれる。いずれの判断基準を用いて処理を行うかは、ユーザにより選択指定することができる。
First, it is assumed that the
そして、クエリにキーワードを追加するかどうかで処理を分岐する(ステップS125)。すなわち、クエリにキーワードを追加する場合(ステップS125のYES)、新規キーワードをクエリに追加した新しいクエリを生成する(ステップS127)。クエリにキーワードを追加しない場合(ステップS125のNO)、生成部114は、次のクエリがあるか否かで処理を分岐する(ステップS129)。
Then, the process branches depending on whether or not a keyword is added to the query (step S125). That is, when a keyword is added to the query (YES in step S125), a new query in which a new keyword is added to the query is generated (step S127). When a keyword is not added to the query (NO in step S125), the
すなわち、残っているクエリがある場合は(ステップS129のNO)、ステップS123に戻る。一方、全てのクエリに対して処理が終了し、残っているクエリがない場合は(ステップS129のYES)、その新規キーワード単独からなる新しいクエリを生成する(ステップS131)。 That is, when there is a remaining query (NO in step S129), the process returns to step S123. On the other hand, if the processing is completed for all the queries and there are no remaining queries (YES in step S129), a new query including only the new keyword is generated (step S131).
最後に、更新部116が、ステップS127でキーワードが追加されたクエリと、ステップS131で生成された新たなクエリをクエリ蓄積部104に反映する(ステップS133)。
Finally, the
以上説明した処理の流れは、キーワード一つに対し一つのクエリを更新する手順であるが、複数のクエリを更新するようにしてもよい。すなわち、たとえば、ステップS127でキーワードをクエリに追加した後、ステップS129に進み、すべてのクエリに対してキーワードを追加するか否かの判断を繰り返してもよい。 The flow of processing described above is a procedure for updating one query for one keyword, but a plurality of queries may be updated. That is, for example, after adding a keyword to a query in step S127, the process may proceed to step S129 to repeat the determination of whether or not to add a keyword to all queries.
また、新規キーワード単独からなる新しいクエリを生成するかどうかの判断をステップS131の前に行なうようにしてもよい。新規キーワード単独からなる新しいクエリを生成するか否かの判断の判断基準は、たとえば、そのキーワードの音声認識スコア(単語事後確率等の信頼度)を判断基準として用い、スコアが低い場合はクエリを生成しないようにすることにより、誤認識の影響を軽減することができる。なお、この判断基準は、ステップS125で、クエリにキーワードを追加するかどうかの判定を行う場合にも同様に利用できる。
このように、本実施形態のクエリ生成装置100で生成され、入力された音声信号の認識結果に基づいて随時更新されるクエリを用いて、文書検索システム200にて文書検索を行うことが可能になる。
Further, it may be determined before step S131 whether or not to generate a new query consisting of a new keyword alone. The criteria for determining whether or not to generate a new query consisting of a new keyword alone is, for example, using the speech recognition score (reliability of word posterior probabilities, etc.) of the keyword as a criterion, and if the score is low, the query is By avoiding the generation, the influence of misrecognition can be reduced. This criterion can also be used in the same manner when determining whether or not to add a keyword to the query in step S125.
As described above, it is possible to perform a document search in the document search system 200 using a query that is generated by the
以下、図5を用いて特許文献1に記載の技術との差異について説明する。上述したように、本発明の実施形態のクエリ生成装置100(図1)は、時系列に抽出されるキーワードに従い、クエリ蓄積部104(図1)に蓄積されたクエリとキーワードを参照し、新たなクエリを生成し、クエリ蓄積部104に蓄積する生成部114(図1)および更新部116(図1)を持つことが特徴である。
Hereinafter, differences from the technique described in Patent Document 1 will be described with reference to FIG. As described above, the query generation device 100 (FIG. 1) according to the embodiment of the present invention refers to the queries and keywords stored in the query storage unit 104 (FIG. 1) according to the keywords extracted in time series. It is characterized by having a generation unit 114 (FIG. 1) and an update unit 116 (FIG. 1) that generate a simple query and store it in the
図5(a)に示す通り、特許文献1に示す技術では、クエリ蓄積部および生成部を持たず、時系列に抽出されるキーワード列に対し、文書データベース210(図2)中に検索結果が含まれるような時間的に連続する最大の(部分)キーワード列をクエリとするよう動作するため、話題が入れ子になるような場合や、誤認識によって話題が誤って分割されてしまう場合に最適なクエリを生成することができない。 As shown in FIG. 5A, in the technique shown in Patent Document 1, a search result is obtained in the document database 210 (FIG. 2) for a keyword string extracted in time series without having a query storage unit and a generation unit. Because it operates as a query with the largest (partial) keyword sequence that is included in time as included, it is ideal when topics are nested or when topics are mistakenly divided due to misrecognition. The query cannot be generated.
たとえば、図5(a)であれば本来一つのクエリにまとめられるべき「データベース」と「SQL」の2つのキーワードが別々の2つのクエリになってしまう。これに対し本発明では、図5(b)に示すように、「データベース」と「SQL」の2つのキーワードが1つのクエリに結合されている。これは、本発明では、単に時間的に連続する部分キーワード列をクエリとするのではなく、新たなキーワードが抽出される毎に、その時点で蓄積されているクエリを参照し、どのクエリに結合するか、または、単独のキーワードで新しいクエリとするかを決定するため、特許文献1に記載の技術と異なり適切なクエリを生成することができる。 For example, in FIG. 5A, two keywords “database” and “SQL”, which should originally be combined into one query, become two separate queries. On the other hand, in the present invention, as shown in FIG. 5B, two keywords “database” and “SQL” are combined into one query. In the present invention, instead of simply using a partial keyword sequence that is continuous in time as a query, each time a new keyword is extracted, the query stored at that time is referred to and joined to which query. In order to determine whether to use a single keyword or a new query, an appropriate query can be generated unlike the technique described in Patent Document 1.
次に、本実施の形態の効果について説明する。
以上説明したように、本実施の形態では、クエリ生成装置100が、抽出部112と、クエリ蓄積部104と、生成部114と、更新部116とを備え、キーワードが得られる毎に、生成部114によって、出現キーワードの時間連続性だけでなく、キーワードの出現時間間隔や通話における話者間の関係といった情報を用いてクエリを更新することができるため、コンタクトセンタ等の通話に対する即時性を保ちながら、誤認識やさまざまな話題区間の出現の仕方によりよく対応できる文書検索システム200を提供することができる。
Next, the effect of this embodiment will be described.
As described above, in this embodiment, the
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
たとえば、上記実施形態の文書検索システム200を用いてコールセンターのオペレータを支援するシステムを実現することができる。すなわち、コールセンターのオペレータがカスタマーと電話で対話を行なう際に、その音声を認識した結果に含まれるキーワードをもとに生成されたクエリを用いて、随時タイムリーに対話に出てきた話題と関連する情報、たとえば、マニュアルの該当部分やFAQ(Frequently Asked Questions)、過去の類似の応対事例等を文書データベース210を検索し、その検索結果を提示することが可能である。
For example, a system that supports a call center operator can be realized using the document search system 200 of the above embodiment. In other words, when a call center operator has a conversation with a customer over the phone, it uses a query generated based on the keywords included in the result of recognizing the voice, and related to topics that appear in the conversation in a timely manner as needed. It is possible to search the
また、上記実施形態の文書検索システム200は、会議支援システムに用いることもできる。すなわち、会議の音声を認識し、その認識結果に含まれるキーワードをもとに随時タイムリーに会議中に出てきた話題と関連する情報、たとえば、社内資料やWWW(World Wide Web)の関連ページ等を提示することができる。 In addition, the document search system 200 of the above embodiment can be used for a conference support system. In other words, it recognizes the audio of the meeting and based on the keywords included in the recognition results, information related to topics that appear during the meeting in a timely manner as needed, for example, internal documents and related pages of the World Wide Web (WWW) Etc. can be presented.
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
10 音声認識処理部
100 クエリ生成装置
102 キーワード辞書記憶部
104 クエリ蓄積部
110 受付部
112 抽出部
114 生成部
116 更新部
200 文書検索システム
210 文書データベース
212 検索部
214 提示部
DESCRIPTION OF
Claims (10)
随時入力される文章データを受け付ける受付手段と、
受け付けた前記文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出する抽出手段と、
前記抽出手段で前記キーワードが抽出される毎に、前記クエリ蓄積手段を参照し、いずれのクエリに前記キーワードを追加するか否かを所定の判断基準で判断し、前記キーワードを追加するクエリを選択または前記キーワードを含む新たなクエリを生成する生成手段と、
前記キーワードを追加した前記クエリまたは生成された前記新たなクエリを、前記クエリ蓄積手段に蓄積する更新手段と、を備える情報処理装置。 Query storage means for storing queries used for document search;
An accepting means for accepting text data input at any time;
When the received text data includes a predetermined keyword, an extraction means for extracting the keyword;
Each time the keyword is extracted by the extraction means, the query storage means is referred to, and it is determined whether or not to add the keyword to any query based on a predetermined criterion, and the query to which the keyword is added is selected. Or generating means for generating a new query including the keyword;
An information processing apparatus comprising: an update unit that stores the query to which the keyword is added or the generated new query in the query storage unit.
前記受付手段が受け付ける前記文章データは、入力される音声信号を音声認識処理し、その認識結果データである情報処理装置。 The information processing apparatus according to claim 1,
The text data received by the receiving means is an information processing apparatus which performs voice recognition processing on an input voice signal and is recognition result data thereof.
前記クエリ蓄積手段は、前記キーワードとそのキーワードの時刻情報を関連付けて蓄積し、
前記生成手段は、前記時刻情報を前記判断基準として用いる情報処理装置。 The information processing apparatus according to claim 1 or 2,
The query storage means stores the keyword and time information of the keyword in association with each other,
The generating unit is an information processing apparatus that uses the time information as the determination criterion.
前記生成手段は、前記キーワード間の関係を前記判断基準として用いる情報処理装置。 The information processing apparatus according to claim 1,
The information processing apparatus uses the relationship between the keywords as the determination criterion.
前記生成手段は、前記キーワード間の呼応関係を前記判断基準として用いる情報処理装置。 The information processing apparatus according to claim 4,
The information processing apparatus uses the responsive relationship between the keywords as the determination criterion.
随時入力される文章データを受け付け、
受け付けた前記文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出し、
前記キーワードが抽出される毎に、前記クエリ蓄積装置を参照し、いずれのクエリに前記キーワードを追加するか否かを所定の判断基準で判断し、前記キーワードを追加するクエリを選択または前記キーワードを含む新たなクエリを生成し、
前記キーワードを追加した前記クエリまたは生成された前記新たなクエリを、前記クエリ蓄積装置に蓄積する情報処理装置のデータ処理方法。 An information processing apparatus including a query storage device that stores queries used for document search is provided.
Accepts text data input from time to time,
When the received text data includes a predetermined keyword, the keyword is extracted,
Each time the keyword is extracted, the query storage device is referred to, and it is determined based on a predetermined criterion whether or not the keyword is added to any query, and the query to which the keyword is added is selected or the keyword is selected. Generate a new query containing
A data processing method of an information processing apparatus for storing the query to which the keyword is added or the generated new query in the query storage apparatus.
前記情報処理装置が、文書検索に用いるクエリを蓄積するクエリ蓄積装置を備え、
随時入力される文章データを受け付ける受付手順と、
受け付けた前記文章データに、所定のキーワードが含まれているとき、そのキーワードを抽出する抽出手順と、
前記抽出手順で前記キーワードが抽出される毎に、前記クエリ蓄積装置を参照し、いずれのクエリに前記キーワードを追加するか否かを所定の判断基準で判断し、前記キーワードを追加するクエリを選択または前記キーワードを含む新たなクエリを生成する生成手順と、
前記キーワードを追加した前記クエリまたは生成された前記新たなクエリを、前記クエリ蓄積装置に蓄積する更新手順と、をコンピュータに実行させるためのプログラム。 A program for realizing an information processing apparatus,
The information processing apparatus includes a query storage device that stores a query used for document search,
An acceptance procedure for accepting text data input from time to time;
An extraction procedure for extracting the keyword when the received text data includes a predetermined keyword;
Each time the keyword is extracted in the extraction procedure, the query storage device is referred to, it is determined whether or not the keyword is added to any query based on a predetermined criterion, and the query to which the keyword is added is selected. Or a generation procedure for generating a new query including the keyword,
A program for causing a computer to execute an update procedure for storing the query to which the keyword is added or the generated new query in the query storage device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009215242A JP2011065401A (en) | 2009-09-17 | 2009-09-17 | Information processor and data processing method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009215242A JP2011065401A (en) | 2009-09-17 | 2009-09-17 | Information processor and data processing method and program thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011065401A true JP2011065401A (en) | 2011-03-31 |
Family
ID=43951579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009215242A Pending JP2011065401A (en) | 2009-09-17 | 2009-09-17 | Information processor and data processing method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011065401A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002470A (en) * | 2012-06-15 | 2014-01-09 | Ricoh Co Ltd | Processing device, processing system, output method and program |
-
2009
- 2009-09-17 JP JP2009215242A patent/JP2011065401A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002470A (en) * | 2012-06-15 | 2014-01-09 | Ricoh Co Ltd | Processing device, processing system, output method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
US10037758B2 (en) | Device and method for understanding user intent | |
KR101418163B1 (en) | Speech recognition repair using contextual information | |
US10917758B1 (en) | Voice-based messaging | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
EP3477638A2 (en) | Dialog system with self-learning natural language understanding | |
CN105723449B (en) | speech content analysis system and speech content analysis method | |
US9558740B1 (en) | Disambiguation in speech recognition | |
KR101770358B1 (en) | Integration of embedded and network speech recognizers | |
US10698654B2 (en) | Ranking and boosting relevant distributable digital assistant operations | |
US11016968B1 (en) | Mutation architecture for contextual data aggregator | |
JP6726354B2 (en) | Acoustic model training using corrected terms | |
EP3736807B1 (en) | Apparatus for media entity pronunciation using deep learning | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
US10152298B1 (en) | Confidence estimation based on frequency | |
WO2003010754A1 (en) | Speech input search system | |
JP4930379B2 (en) | Similar sentence search method, similar sentence search system, and similar sentence search program | |
US10102199B2 (en) | Corpus specific natural language query completion assistant | |
JP2011232619A (en) | Voice recognition device and voice recognition method | |
US10417345B1 (en) | Providing customer service agents with customer-personalized result of spoken language intent | |
CN110164416B (en) | Voice recognition method and device, equipment and storage medium thereof | |
CN112397053B (en) | Voice recognition method and device, electronic equipment and readable storage medium | |
CN114678027A (en) | Error correction method and device for voice recognition result, terminal equipment and storage medium | |
EP4352725A1 (en) | Error correction in speech recognition | |
JP2007304793A (en) | Document retrieval device |