JP2009282835A - Method and device for voice search - Google Patents

Method and device for voice search Download PDF

Info

Publication number
JP2009282835A
JP2009282835A JP2008135424A JP2008135424A JP2009282835A JP 2009282835 A JP2009282835 A JP 2009282835A JP 2008135424 A JP2008135424 A JP 2008135424A JP 2008135424 A JP2008135424 A JP 2008135424A JP 2009282835 A JP2009282835 A JP 2009282835A
Authority
JP
Japan
Prior art keywords
search
voice
recognition
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008135424A
Other languages
Japanese (ja)
Inventor
Kazunori Imoto
和範 井本
Takehide Yano
武秀 屋野
Kazuhiko Abe
一彦 阿部
Yukihiro Fukunaga
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008135424A priority Critical patent/JP2009282835A/en
Publication of JP2009282835A publication Critical patent/JP2009282835A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice search device allowing a user to easily search for a wanted data. <P>SOLUTION: The voice search device comprises a voice recognition part B11, a candidate management part B21, a result outputting part B31, a relevancy calculating part B41, a recognition dictionary grammar D101, a search database D201, and a candidate database D301. A search voice for searching which is vocalized by a user and a narrowing-down voice for narrowing down the search are voice-recognized to acquire a search candidate and a narrowing-down candidate. Based on the search candidate, the search database D201 is searched for acquiring a plurality of data and attribute information which the data have as search information. Based on the narrowing-down recognition candidate, the search database D201 is searched for acquiring a plurality of data and the attribute information which the data have as narrowing-down information. The relevancy whose value becomes larger as relevancy between a plurality of respective data contained in the search information and the plurality of respective data contained in the narrowing-down information rises is calculated from the attribute information of respective data contained in the search information and the attribute information of respective data contained in the narrowing-down information. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、複数の属性を持つ大規模なデータベースから利用者が望むデータを音声で選択する音声検索装置及び方法に関する。   The present invention relates to a speech search apparatus and method for selecting data desired by a user from a large database having a plurality of attributes.

近年の音声信号処理技術や半導体技術の進展により、車載機器のような小型機器にも
、システムと利用者が音声によるやり取りを繰り返すことで大規模な施設データベースから目的地を検索、設定できるカーナビゲーションシステムが実現されている。
With recent advances in audio signal processing technology and semiconductor technology, car navigation systems that allow users to search and set destinations from a large facility database by repeatedly exchanging voices between the system and users, even for small devices such as in-vehicle devices The system is realized.

現在市販されているカーナビゲーションでは、例えば、住所で目的地を指定する住所検索、郵便番号で目的地を指定する郵便番号検索、目的の施設を直接指定する施設検索などいくつかの目的地を設定する手段が提供されている。   In car navigation systems that are currently on the market, there are several destinations such as address search that specifies a destination by address, zip code search that specifies a destination by zip code, and facility search that directly specifies a target facility. Means are provided.

施設検索では、データベース上に登録された数十万規模の施設名を、都道府県名から順番に地域を限定する発話により語彙を絞り込んだ上で、施設名が入力できる設計になっていることが多い。これは、車載機器のような限られた計算リソースでは実時間で大規模な語彙を正しく認識できないことが原因で、実用的な性能と速度で動作させるために手間の多いやりとりを利用者に強要する設計となっている。   The facility search is designed so that facility names can be entered after narrowing the vocabulary of the facility names registered in the database to hundreds of thousands of facilities by utterances that limit the region in order from the prefecture name. Many. This is due to the fact that limited computational resources such as in-vehicle devices cannot correctly recognize large-scale vocabularies in real time, forcing users to take time and effort to operate at practical performance and speed. Designed to be

そのため特に利用者が施設名を明確に知っている場合には、施設名以外の属性を指定する発声が冗長となり、手間がかかって使いにくいインタフェースとなる問題点を含んでいる。   For this reason, particularly when the user knows the facility name clearly, the utterance for designating attributes other than the facility name becomes redundant, and it involves a problem that the interface is troublesome and difficult to use.

この問題点を解決する方法として、特許文献1では、大規模な認識語彙に対して複数の認識候補を取り出すように音声認識を動作させた上で、候補が十分に絞り込めなかった場合には、候補を絞り込むための関連質問の入力を促し、関連質問に対する発声を認識して絞り込みのための認識候補を取得し、絞り込み対象となる候補と、絞り込み条件となる候補の関係から絞込みを行う方法が提案されている。   As a method for solving this problem, in Patent Document 1, when speech recognition is operated to extract a plurality of recognition candidates for a large-scale recognition vocabulary and the candidates cannot be sufficiently narrowed down, , Prompting the input of related questions to narrow down candidates, recognizing utterances to related questions, obtaining recognition candidates for narrowing down, and narrowing down from the relationship between the candidates to be narrowed down and candidates as the narrowing conditions Has been proposed.

この方法ではさらに、絞り込み対象となる候補の認識尤度と、絞込み条件となる候補の認識尤度に基づいて、絞り込まれた候補を並び替えるという特徴を持っている。   Further, this method has a feature that the narrowed candidates are rearranged based on the recognition likelihood of candidates to be narrowed down and the recognition likelihood of candidates as narrowing conditions.

しかしながら、この方法では、利用者が関連質問に答えられないときには、対話が破綻してしまうという問題点がある。施設名検索を例に考えても、目的の施設名は知っているが住所や施設が属するジャンルは知らないために質問に答えられないという状況は起こる。すなわちこの方法は、検索したい目的のデータに関する多くの属性値を覚えていることを前提とした解決策であり、確実に絞り込みが行なえる方法とは言えない。
特許第3420965号公報
However, this method has a problem in that the dialogue is broken when the user cannot answer the related question. Considering the facility name search as an example, there is a situation in which the name of the target facility is known, but the address and the genre to which the facility belongs are not known, so the question cannot be answered. In other words, this method is a solution based on the premise that many attribute values related to the target data to be searched are remembered, and cannot be said to be a method that can reliably narrow down.
Japanese Patent No. 3420965

このように従来技術は、大語彙から目的のデータを絞り込む関連質問に答えるために、目的データに関して様々な属性値を覚えておかないといけないという問題点があった。   As described above, the conventional technique has a problem in that various attribute values must be remembered with respect to the target data in order to answer related questions that narrow down the target data from the large vocabulary.

そこで、本発明は上記問題点に鑑みて、最初の発声で十分に絞り込むことができなかった場合に、利用者が知っている関連情報だけを使って絞り込むことができる音声検索装置及びその方法を提供することにある。   Accordingly, in view of the above problems, the present invention provides a voice search device and method for narrowing down using only relevant information known by the user when the initial utterance cannot be sufficiently narrowed down. It is to provide.

本発明は、利用者から発声された検索のための検索音声及び前記検索を絞り込むための絞り込み音声をそれぞれ音声認識して、検索候補及び絞り込み候補を求める音声認識部と、複数のデータと、前記各データにそれぞれ対応した属性情報を格納する第1データベースと、(1)前記検索候補に基づいて前記第1データベースを検索して、複数の前記データと前記データに対応した前記属性情報を検索情報として取得し、(2)前記絞り込み認識候補に基づいて前記第1データベースを検索して複数の前記データと前記属性情報を絞り込み情報として取得する候補管理部と、前記検索情報に含まれる複数の前記データのそれぞれと、前記絞り込み情報に含まれる複数の前記データのそれぞれの間の関連性が高いほど大きい値となる関連度をそれぞれ、前記検索情報に含まれる前記各データの前記属性情報と、前記絞り込み情報に含まれる前記各データの前記属性情報とから算出する関連度算出部と、高い値の前記関連度を有する前記検索情報に含まれる一または複数の前記データを出力する出力部と、を有する音声検索装置である。   The present invention recognizes a search voice uttered by a user and a search voice for narrowing down the search, and obtains a search candidate and a search candidate, a plurality of data, A first database storing attribute information corresponding to each data; and (1) searching the first database based on the search candidates to search a plurality of the data and the attribute information corresponding to the data. (2) a candidate management unit that searches the first database based on the refinement recognition candidates and obtains a plurality of the data and the attribute information as refinement information, and a plurality of the search information included in the search information The degree of relevance that increases as the relevance between each of the data and each of the plurality of data included in the refinement information increases. Relevance calculation unit for calculating from the attribute information of each data included in the search information and the attribute information of each data included in the narrowing down information, and the relevance degree having a high value And an output unit that outputs one or a plurality of the data included in the search information.

本発明によれば、検索音声で絞り込むことができなかった場合でも、利用者が知っている目的のデータに関連する情報から簡単に絞り込むことができる。   According to the present invention, even when it is not possible to narrow down by the search voice, it is possible to easily narrow down from information related to the target data known by the user.

以下、本発明の一実施形態の音声検索装置について図面に基づいて説明する。   Hereinafter, a voice search device according to an embodiment of the present invention will be described with reference to the drawings.

(第1の実施形態)
本発明の第1の実施形態の音声検索装置について図1〜図11に基づいて説明する。
(First embodiment)
A voice search device according to a first embodiment of the present invention will be described with reference to FIGS.

本実施形態の音声検索装置は、複数の属性を持つ大規模なデータベースから利用者が望むデータを音声で選択するものである。   The voice search apparatus according to the present embodiment is for selecting data desired by a user by voice from a large-scale database having a plurality of attributes.

より詳細には、1)利用者の最初の発声で目的のデータを十分に絞り込めなかった場合に、2)利用者に関連質問を提示して次の発声で入力される属性を指定するのではなく、3)目的のデータに関連する発声を受け付けた上で、4)最初の発声に含まれる候補と次の発声に含まれる候補の意味的な関連性を表す関連度を算出し、5)最初の発声と次の発声それぞれの認識尤度と関連度を鑑みて候補の絞込みを行なう。   More specifically, 1) When the target data cannot be sufficiently narrowed down by the first utterance of the user, 2) The related question is presented to the user and the attribute input by the next utterance is designated. 3) After receiving an utterance related to the target data, 4) calculating a relevance level indicating the semantic relationship between the candidate included in the first utterance and the candidate included in the next utterance; ) Narrow down candidates in view of the recognition likelihood and relevance of each of the first utterance and the next utterance.

(1)音声検索装置の構成
図1は、本実施形態に係る音声検索装置の構成図である。
(1) Configuration of Voice Search Device FIG. 1 is a configuration diagram of a voice search device according to the present embodiment.

図1に示すように音声検索装置は、音声認識部B11、候補管理部B21、結果出力部B31、関連度算出部B41、認識辞書文法D101、検索データベースD201、候補データベースD301から構成される。   As shown in FIG. 1, the voice search apparatus includes a voice recognition unit B11, a candidate management unit B21, a result output unit B31, a relevance calculation unit B41, a recognition dictionary grammar D101, a search database D201, and a candidate database D301.

各部B11〜B41の機能は、コンピュータに伝達または格納されたプログラムによっても実現できる。   The function of each part B11-B41 is realizable also by the program transmitted or stored in the computer.

(2)各部の説明
以下、音声検索装置の各構成について説明する。
(2) Explanation of each part Hereinafter, each composition of a voice search device is explained.

(2−1)検索データベースD201
検索データベースD201は、音声検索装置において検索対象となる1つ以上のデータと、そのデータに対応した属性情報を格納したデータベースである。
(2-1) Search database D201
The search database D201 is a database that stores one or more data to be searched in the voice search device and attribute information corresponding to the data.

検索データベースとしては、カーナビゲーションシステムに格納されている、都道府県名、市区町村名、緯度経度、ジャンルなどの属性情報に持つ施設名データベースが一例として挙げられる。   An example of the search database is a facility name database stored in attribute information such as a prefecture name, city name, city name, latitude / longitude, and genre stored in the car navigation system.

ここで、「属性情報」とは、施設名などのデータを特定するために、そのデータ特有の所在地の都道府県、区町村名、緯度経度、そのデータのジャンルをいう。   Here, “attribute information” refers to the prefecture, city name, latitude / longitude, and genre of the data of the location unique to the data in order to specify the data such as the facility name.

(2−2)認識辞書文法D101
認識辞書文法D101は、検索データベースD201から目的のデータを選択するために利用者が検索キーとして入力する単語、複数単語系列、フレーズ、または、文などを受理するために語彙リストや文法などを記述したものである。
(2-2) Recognition dictionary grammar D101
The recognition dictionary grammar D101 describes a vocabulary list, grammar, etc. for accepting words, multiple word sequences, phrases, or sentences that a user inputs as search keys to select target data from the search database D201. It is a thing.

(2−3)音声認識部B11
音声認識部B11は、認識辞書文法D101に基づいて利用者から入力された音声を認識して認識候補を生成する。
(2-3) Speech recognition unit B11
The speech recognition unit B11 recognizes speech input from the user based on the recognition dictionary grammar D101 and generates recognition candidates.

入力された音声に雑音が重畳しているなどの理由で入力された音声に近い候補が一つも出力されない場合を除いて、音声認識部B11によって1つ以上の認識候補が生成される。   Except for the case where no candidate close to the input speech is output because the input speech has noise or the like, one or more recognition candidates are generated by the speech recognition unit B11.

また、認識候補の確からしさを表す認識スコアを候補それぞれに対して取得するように動作してもよい。   Moreover, you may operate | move so that the recognition score showing the probability of a recognition candidate may be acquired with respect to each candidate.

なお、音声認識部B11はマイクロフォンや音声を増幅させるアンプ、さらにはADコンバーターなどを前段に組み込んだ構成として、入力される音声をデジタル音声信号に変換してから音声認識をするように動作してもよく、デジタル音声信号を記録媒体に保存しておき、必要に応じて記録媒体から音声信号を読み出すように動作してもよい。   Note that the voice recognition unit B11 has a configuration in which a microphone, an amplifier that amplifies voice, an AD converter, and the like are incorporated in the previous stage, and operates so as to perform voice recognition after converting the input voice to a digital voice signal. Alternatively, the digital audio signal may be stored in a recording medium, and the audio signal may be read from the recording medium as necessary.

(2−4)候補管理部B21
候補管理部B21は、音声認識部B11によって生成された認識候補及び認識スコアを受け取ると、認識候補から検索キーを生成した上で検索データベースD201を検索し、検索条件に合致するデータを取得する。
(2-4) Candidate manager B21
When the candidate management unit B21 receives the recognition candidate and the recognition score generated by the speech recognition unit B11, the candidate management unit B21 generates a search key from the recognition candidate, searches the search database D201, and acquires data that matches the search condition.

また、このときにデータが持つ複数の属性情報を一緒に取得するように動作してもよい。   Further, at this time, it may operate so as to acquire a plurality of attribute information possessed by the data.

検索されたデータと認識候補は、履歴情報として候補データベースD301に格納される。   The retrieved data and recognition candidates are stored in the candidate database D301 as history information.

さらに、候補管理部B21は、候補データベースD301を参照して、複数の発声が履歴情報として管理されている場合には絞り込み対象となる発声と、絞込み条件となる発声を決定した上で、発声間の関係に基づいて候補を絞り込むために、各発声に含まれる候補同士の意味的な類似性を関連度算出部B41に問い合わせて関連度を取得する。   Further, the candidate management unit B21 refers to the candidate database D301, and when a plurality of utterances are managed as history information, the candidate management unit B21 determines the utterances to be narrowed down and the utterances to be narrowed down, and In order to narrow down the candidates based on the relationship, the relevance calculation unit B41 is inquired about the semantic similarity between candidates included in each utterance, and the relevance is acquired.

取得した関連度及び認識スコアを利用して、絞込み対象となる候補を絞り込むように動作する。   It operates to narrow down candidates to be narrowed down using the acquired degree of association and recognition score.

候補を絞込んだ場合には候補データベースD301を更新して、さらにその結果を結果出力部B31に通知する。   When candidates are narrowed down, the candidate database D301 is updated and the result is notified to the result output unit B31.

(2−5)関連度算出部B41
関連度算出部B41は、候補管理部B21から問い合わせのあった候補同士の意味的な類似性を関連度として算出して、算出結果を候補管理部B21に返すように動作する。
(2-5) Relevance calculation unit B41
The relevance calculation unit B41 operates to calculate the semantic similarity between candidates inquired from the candidate management unit B21 as the relevance and return the calculation result to the candidate management unit B21.

なお、関連度算出部B41及び候補管理部B21の詳細な動作については、具体例を使って後で詳しく述べる。   Detailed operations of the relevance calculation unit B41 and the candidate management unit B21 will be described later in detail using a specific example.

(2−6)結果出力部B31
結果出力部B31は、候補管理部B21から通知された検索結果を利用者に提示する。
(2-6) Result output unit B31
The result output unit B31 presents the search result notified from the candidate management unit B21 to the user.

結果出力部B31に表示装置を含む構成として、検索結果を画面に表示するように動作してもよく、音声合成及びスピーカーを含む構成として候補を順に読み上げるように動作してもよく、利用者に結果を提示すればどのような構成でもよい。   As a configuration including a display device in the result output unit B31, the search result may be displayed on the screen, or as a configuration including a speech synthesizer and a speaker, it may operate to read out candidates in order. Any configuration may be used as long as the result is presented.

(3)具体例
次に、具体的な音声検索装置の動作を説明する。
(3) Specific Example Next, a specific operation of the voice search device will be described.

具体例として、カーナビゲーションシステムをモチーフに目的地を設定するタスクを達成するために大規模な施設データベースから施設名を音声で検索する状況を例にとって説明を進める。   As a specific example, a description will be given by taking as an example a situation in which a facility name is retrieved by voice from a large-scale facility database in order to achieve a task of setting a destination using a car navigation system as a motif.

図2に検索対象となる施設名データベースの一例を示す。図2に示すように、施設名データベースには、10000個の施設データに関する名称、施設のある都道府県名と市区町村名、階層表現された施設のジャンル名及び緯度経度の属性情報が格納されている。   FIG. 2 shows an example of a facility name database to be searched. As shown in FIG. 2, in the facility name database, names of 10,000 facility data, names of prefectures and cities where the facilities are located, genre names of facilities expressed hierarchically, and attribute information of latitude and longitude are stored. ing.

また、図3は利用者から入力される音声を認識するための認識辞書文法の一例を示したものである。図3に示すように、施設データの施設名10000語が登録されており、施設名の単語発声を受理するように記述されている。   FIG. 3 shows an example of a recognition dictionary grammar for recognizing a voice input from a user. As shown in FIG. 3, a facility name of 10,000 words in the facility data is registered, and is described so as to accept a word utterance of the facility name.

これは施設検索タスクにおいて、利用者が、東京都にある「高尾山」を目的地として設定したい状況を例に詳細な動作を説明する。   This is a detailed operation of the facility search task, taking as an example a situation where the user wants to set “Mt. Takao” in Tokyo as a destination.

(4)音声認識部B11の動作
まず、音声認識部B11の動作について説明する。
(4) Operation of Voice Recognition Unit B11 First, the operation of the voice recognition unit B11 will be described.

ここで施設名の入力を促された利用者が、検索したい施設名である「高尾山(たかおさん)」と発声すると、音声認識部B11は図3に記述された認識辞書文法にしたがって入力された音声に合致する複数の単語を出力する。   When the user who is prompted to input the facility name utters “Takao”, which is the facility name to be searched, the speech recognition unit B11 is input according to the recognition dictionary grammar described in FIG. Output multiple words that match the voice.

出力する認識単語の候補数を設定する方法は様々考えられるが、例えば認識スコアが一定の閾値を越える候補のみを選定できる。本実施形態では認識スコアが50を越える単語を候補として出力する。   There are various methods for setting the number of recognition word candidates to be output. For example, only candidates whose recognition score exceeds a certain threshold can be selected. In this embodiment, words whose recognition score exceeds 50 are output as candidates.

図4に音声認識部B11によって100個の候補が出力された認識結果を例示する。ここで図4には同じ施設名を持った単語が認識候補として表示されているが、音声認識で等価に扱われる同じ読みを持つエントリーに関しては、認識辞書文法ではまとめあげて認識結果として出力するときに同じ読みを持つ候補を生成するのが効率的である。   FIG. 4 illustrates a recognition result in which 100 candidates are output by the speech recognition unit B11. Here, in FIG. 4, words having the same facility name are displayed as recognition candidates. However, when entries having the same reading that are treated equivalently in speech recognition are collectively output in the recognition dictionary grammar as a recognition result, It is efficient to generate candidates with the same reading.

(5)候補管理部B21、候補データベースD301の動作
次に、候補管理部B21の動作について図5のフローチャートを用いて説明する。図5は、受け取った認識結果を使って検索データベースD201を検索し、複数発声から候補を絞り込む候補管理部B21のフローチャートを示している。
(5) Operations of Candidate Management Unit B21 and Candidate Database D301 Next, operations of the candidate management unit B21 will be described with reference to the flowchart of FIG. FIG. 5 shows a flowchart of the candidate management unit B21 that searches the search database D201 using the received recognition result and narrows down candidates from a plurality of utterances.

まず、候補管理部B21は、図4に例示した音声認識結果を取得する(ステップS2101)。   First, the candidate management unit B21 acquires the speech recognition result illustrated in FIG. 4 (step S2101).

次に、取得した音声認識結果から、検索データベースD201を検索するための検索キーを抽出する(ステップS2102)。本実施形態では、利用者から受理する単語を施設名としているため、認識結果そのものが検索データベースD201の属性である施設名を引くための検索キーとなり、重複を含めて述べ100個の検索キーが生成される。   Next, a search key for searching the search database D201 is extracted from the acquired speech recognition result (step S2102). In this embodiment, since the word received from the user is the facility name, the recognition result itself becomes a search key for subtracting the facility name that is an attribute of the search database D201, and 100 search keys including duplicates are described. Generated.

次に、生成された複数の検索キーを使って、検索データベースD201を検索し、検索条件に合致するデータ及びその属性を取得し(ステップS2103)、認識結果と検索結果をリンクして候補データベースD301に履歴情報として記録する(ステップS2104)。図6は、候補データベースD301に書き込まれた履歴情報の一例を示しており、結果を取得した順番、認識結果(スコア及び順位)、対応する検索データベースD201の属性情報などが対応付けられている。なお、候補データベースD301にはデータの属性情報を全て格納する例を示したが、検索データベースD201へのポインタのみを保持するようにしてもよい。   Next, the search database D201 is searched using a plurality of generated search keys, data that matches the search condition and its attributes are acquired (step S2103), and the recognition result and the search result are linked to obtain the candidate database D301. Is recorded as history information (step S2104). FIG. 6 shows an example of history information written in the candidate database D301, and the order in which results are acquired, recognition results (scores and ranks), attribute information of the corresponding search database D201, and the like are associated with each other. Although the candidate database D301 shows an example in which all attribute information of data is stored, only the pointer to the search database D201 may be held.

次に、新しく取得した認識結果が絞り込みのための発声であるか、新しく入力された発声であるかの判定を行なう(S2105)。ここでは最初に認識結果が取得されたため絞込み発声ではなく新しく入力された発声であると判断され、候補管理部B21の動作を終える。   Next, it is determined whether the newly acquired recognition result is an utterance for narrowing down or a newly input utterance (S2105). Here, since the recognition result is acquired first, it is determined that the utterance is not a narrowed utterance but a newly input utterance, and the operation of the candidate management unit B21 is finished.

(6)結果出力及び絞込み発声
利用者の発声から取得されたキーを使って検索データベースD201を検索する候補管理部B21の処理が終わると、結果出力部B31は更新された候補リストを受け取って、その結果を利用者に通知する。
(6) Result output and refined utterance When the candidate management unit B21 that searches the search database D201 using the key acquired from the user's utterance finishes, the result output unit B31 receives the updated candidate list, The result is notified to the user.

例えば、候補の結果を可能性の高いものから順に読み上げることで利用者への通知を行なう場合には、次のようなプロンプト「100件の候補が見つかりました。1件目は熊本県にある中尾山、2件目は茨城県にある武生山・・・」を出す。また画面を利用して利用者への通知を行なう場合には、候補の上位を画面にリストとして表示できる。   For example, when notifying users by reading the candidate results in order from the most likely, the prompt “100 candidates found. The first is in Kumamoto Prefecture. Nakaoyama, the second is Mt. Takefu in Ibaraki Prefecture. When notification is made to the user using the screen, the top candidates can be displayed as a list on the screen.

複数候補の上位に目的とするデータが入っている場合には、それを指定する入力により目的を達成することができるが、本実施形態ではすぐには見つからないと仮定する。   When the target data is included in the upper rank of a plurality of candidates, it is possible to achieve the purpose by input specifying it, but in the present embodiment, it is assumed that the target data is not found immediately.

出力結果を確認することで、利用者は最初の発声では目的のデータまで絞り込めなかったことを把握して、絞込みのために更なる入力を行なう。   By confirming the output result, the user grasps that the target data could not be narrowed down by the first utterance, and performs further input for narrowing down.

例えば、利用者は高尾山の近くにある相模湖を記憶していて、関連情報として「相模湖」を絞込みのための発声として入力した場合を考える。   For example, consider a case in which the user remembers Lake Sagami near Mt. Takao and inputs “Lake Sagami” as the utterance for narrowing down as related information.

音声認識部B11は、図3に書かれた認識辞書文法にしたがって入力された音声に合致する複数の単語を出力する。図7に音声認識部B11によって30個の候補が出力された認識結果を例示する。   The speech recognition unit B11 outputs a plurality of words that match the input speech according to the recognition dictionary grammar written in FIG. FIG. 7 illustrates a recognition result in which 30 candidates are output by the speech recognition unit B11.

(7)候補管理部B21、候補データベースD301の動作
次に、絞込み発声に対する認識結果が生成された場合の、候補管理部B21の動作について図5のフローチャートを用いて説明する。
(7) Operations of Candidate Manager B21 and Candidate Database D301 Next, operations of the candidate manager B21 when a recognition result for the narrowed utterance is generated will be described with reference to the flowchart of FIG.

まず、候補管理部B21は図7に例示した音声認識結果を取得する(ステップS2101)。   First, the candidate management unit B21 acquires the speech recognition result illustrated in FIG. 7 (step S2101).

次に、取得した音声認識結果から、検索データベースD201を検索するための検索キーを抽出する(ステップS2102)。本実施形態では、利用者から受理する単語を施設名としているため、認識結果そのものが検索データベースD201の属性である施設名に対する検索キーとなり、重複を含めて述べ30個の検索キーが生成される。   Next, a search key for searching the search database D201 is extracted from the acquired speech recognition result (step S2102). In this embodiment, since the word received from the user is the facility name, the recognition result itself becomes a search key for the facility name that is an attribute of the search database D201, and 30 search keys including duplicates are generated. .

次に、生成された複数の検索キーを使って、検索データベースD201を検索し、検索条件に合致するデータ及びその属性を取得し(ステップS2103)、認識結果と検索結果をリンクして候補データベースD301に履歴情報として記録する(ステップS2104)。図8は、候補データベースD301に書き込まれた履歴情報の一例を示しており、結果を取得した順番、認識結果(スコア及び順位)、対応する検索データベースD201の属性情報などが対応付けられている。なお、候補データベースD301にはデータの属性情報を全て格納するような例を示したが、検索データベースD201へのポインタのみを保持するようにしてもよい。   Next, the search database D201 is searched using a plurality of generated search keys, data that matches the search condition and its attributes are acquired (step S2103), and the recognition result and the search result are linked to obtain the candidate database D301. Is recorded as history information (step S2104). FIG. 8 shows an example of history information written in the candidate database D301, in which the order in which results are acquired, recognition results (scores and ranks), attribute information of the corresponding search database D201, and the like are associated with each other. Although an example in which all the attribute information of data is stored in the candidate database D301 is shown, only a pointer to the search database D201 may be held.

次に、新しく取得した認識結果が絞り込みのための発声であるか、新しく入力された発声であるかの判定を行なう(S2105)。   Next, it is determined whether the newly acquired recognition result is an utterance for narrowing down or a newly input utterance (S2105).

そして、ここでは入力された認識結果群が2つあるため、2回目に入力された発声が絞込み発声であると判断して、発声間の候補それぞれに対する関連度を関連度算出部B41に問い合わせるように動作する(S2106)。本実施形態では、絞込み対象となる最初の発声から100候補、絞り込み条件となる次の発声から30候補が候補データベースD301に記録されているため、100x30=3000の候補間の関連度を計算する。具体的な関連度の計算方法については、引き続いて詳細に説明する。   Since there are two recognition result groups input here, it is determined that the utterance input for the second time is a narrowed utterance, and the degree of association for each candidate between utterances is inquired to the association degree calculation unit B41. (S2106). In the present embodiment, 100 candidates from the first utterance to be narrowed down and 30 candidates from the next utterance to be narrowed down are recorded in the candidate database D301, so the degree of association between 100 × 30 = 3000 candidates is calculated. A specific method of calculating the degree of association will be described in detail subsequently.

(8)関連度算出部B41の動作
次に、関連度算出部B41の動作について説明する。
(8) Operation of Relevance Calculation Unit B41 Next, the operation of the relevance calculation unit B41 will be described.

関連度算出部B41では、候補管理部B21から問い合わせのあった候補対毎に、データの属性情報を比較して意味的な類似性を表す関連度を算出する。   The degree-of-association calculation unit B41 calculates the degree of association representing the semantic similarity by comparing data attribute information for each candidate pair inquired from the candidate management unit B21.

関連度算出に必要な属性情報は、候補とセットにして候補管理部B21から受け取るようにしても、関連度算出部B41が検索データベースD201へのポインタから直接参照するようにしてもよい。   The attribute information necessary for calculating the relevance may be received from the candidate management unit B21 as a set with the candidate, or the relevance calculation unit B41 may directly refer to it from the pointer to the search database D201.

具体的な関連度の計算方法は、例えば、一つの地点に存在する目標物、例えば、施設名の検索においては関連情報として緯度経度が接近する施設、すなわち近い施設が発声されるとの前提を置き、様々な属性の中で緯度経度の属性情報に着目して関連度を計算する。候補の緯度経度を比較することで、例えばユークリッド距離を求めることができる。求めたユークリッド距離に基づき、距離が大きいほど関連度が小さく、距離が小さいほど関連度が大きくなるように正規化することで候補間の関連度を計算する。   The specific calculation method of the degree of association is based on the assumption that, for example, a target existing at one point, for example, a facility with a close latitude and longitude, that is, a nearby facility is uttered as related information when searching for a facility name. The degree of relevance is calculated by paying attention to the latitude and longitude attribute information among various attributes. By comparing the latitude and longitude of the candidates, for example, the Euclidean distance can be obtained. Based on the obtained Euclidean distance, the relevance level between candidates is calculated by normalizing the relevance level so that the relevance level decreases as the distance increases and the relevance level increases as the distance decreases.

この計算を全ての候補間100x30に対して行なった結果の例を図9に示す。   An example of the result of performing this calculation for all candidates 100 × 30 is shown in FIG.

(9)候補管理部B21による絞込み動作
再び、図5を参照しながら候補管理部B21の動作に戻る。
(9) Narrowing Operation by Candidate Manager B21 Returning to the operation of candidate manager B21 again with reference to FIG.

(9−1)ステップS2107
関連度算出部B41によって図9のように候補間の関連度が計算され、その結果が候補管理部B21に通知されると、算出された関連度を利用して、絞込み対象となる候補を絞り込むための絞込みスコアを算出する(S2107)。
(9-1) Step S2107
As shown in FIG. 9, the degree of association between candidates is calculated by the degree-of-association calculation unit B41, and when the result is notified to the candidate management unit B21, the candidate to be narrowed down is narrowed down using the calculated degree of association. The narrowing-down score is calculated (S2107).

i番目の絞込みスコアDi(0<i<=100)を関連度Wij(i番目の絞込み対象候補とj番目の絞込み条件候補の間の関連度)とj番目の認識スコアRjから算出する方法としては、下記の方法がある。   As a method of calculating the i th narrowing score Di (0 <i <= 100) from the relevance degree Wij (relationship between the i th narrowing target candidate and the j th narrowing condition candidate) and the j th recognition score Rj. There are the following methods.


Di=Σj(Wij)x(Rj)

但し、0<j<=30である。上の式にしたがって絞り込みスコアを算出した結果を図10に示す。ここで絞り込むか否かを判断するためのスコアを上記の例に示すように、意味的な関連度だけでなく絞込みのための発声における認識の信頼度を加味することで、信頼性の高い絞込みを行なうことを目的としている。

Di = Σj (Wij) x (Rj)

However, 0 <j <= 30. FIG. 10 shows the result of calculating the narrowing score according to the above formula. As shown in the example above, the score for determining whether or not to narrow down is not limited to the semantic relevance, but the reliability of recognition in the utterance for narrowing down is used to narrow down the reliability. The purpose is to do.

(9−2)ステップS2108
このように絞込みスコアを算出すると、絞込みスコアと認識スコアを鑑みて最初の絞込み対象となる100個の施設候補を絞り込む(S2108)。
(9-2) Step S2108
When the narrowing score is calculated in this way, the first 100 facility candidates to be narrowed down are narrowed down in view of the narrowing score and the recognition score (S2108).

例えば、絞込みとして、絞り込みスコアが0となる候補を除去して認識スコアと絞り込みスコアの合計値でリソートするように動作させると、図11に例示する3施設が候補として残り、これを候補データベースD301に履歴情報として書き込む。   For example, if a candidate for which the refinement score is 0 is removed as a refinement and an operation is performed so as to perform a resort with the total value of the recognition score and the refinement score, the three facilities illustrated in FIG. 11 remain as candidates, and these are stored in the candidate database D301. Is written as history information.

(10)結果出力
利用者の発声から取得されたキーを使って検索データベースD201を検索し、最初の発声に対する絞込みの処理が終わると、結果出力部B31は更新された候補リストを受け取って、その結果を利用者に通知する。
(10) Result output When the search database D201 is searched using the key acquired from the user's utterance and the process of narrowing down the first utterance is completed, the result output unit B31 receives the updated candidate list, Notify the user of the result.

例えば、候補の結果を可能性の高いものから順に読み上げることで利用者への通知を行なう場合には、次のようなプロンプト「3件の候補が見つかりました。1件目は東京都にある高尾山、2件目は・・・」を出す。   For example, when notifying users by reading the candidate results in order from the most likely one, the following prompt “Three candidates were found. The first one is in Tokyo. Mt. Takao, the second is ... "

ここで利用者は目的とする施設が最初の候補として読上げられたことを聞いて、目的の候補が検索されたことを確認でき、最初の候補を指定する発声または画面指定などの入力によって目的のデータを指定できる。   Here, the user can confirm that the target facility has been read out as the first candidate and confirm that the target candidate has been searched, and can input the target target by utterance or designating the screen to specify the first candidate. Data can be specified.

(11)効果
本実施形態によれば、1)複数の属性を持つ大規模なデータベースから利用者が望むデータを音声で選択するときに、2)最初の発声で目的のデータを十分に絞り込めなかった場合に、3)利用者に関連質問を提示して次の発声で入力される属性を指定するのではなく、4)目的のデータに関連する発声を受け付けた上で、5)最初の発声に含まれる候補と次の発声に含まれる候補の意味的な関連性を表す関連度を算出し、6)最初の発声と次の発声それぞれの認識尤度と関連度を鑑みて候補の絞込みを行なう。
(11) Effects According to the present embodiment, 1) When selecting data desired by a user from a large-scale database having a plurality of attributes, 2) sufficiently narrowing down target data by the first utterance If not, 3) present the related question to the user and not specify the attribute to be input in the next utterance; 4) accept the utterance related to the target data; The degree of association representing the semantic relation between the candidate included in the utterance and the candidate included in the next utterance is calculated, and 6) narrowing down candidates in consideration of the recognition likelihood and the degree of association of the first utterance and the next utterance, respectively. To do.

したがって、利用者がシステムからの関連質問に答えられずに対話が破綻といった状況を回避して、大規模なデータベースから目的のデータを選択できる。   Therefore, it is possible to avoid the situation where the user fails to answer the related question from the system and the dialogue is broken, and the target data can be selected from a large-scale database.

(第2の実施形態)
本発明の第2の実施形態の音声検索装置について図12〜図13に基づいて説明する。
(Second Embodiment)
A voice search device according to a second embodiment of the present invention will be described with reference to FIGS.

(1)音声検索装置の構成
図12は、本実施形態に係る音声検索装置の概略構成図である。
(1) Configuration of Voice Search Device FIG. 12 is a schematic configuration diagram of a voice search device according to the present embodiment.

本実施形態に係る音声検索装置は、関連度算出部B42が第1の実施形態における関連度算出部B41と動作が異なり、加えて関連度計算方法決定部B51と関連度計算方法データベースD401が新しく追加された構成になっている。   In the speech search apparatus according to the present embodiment, the relevance calculation unit B42 operates differently from the relevance calculation unit B41 in the first embodiment, and the relevance calculation method determination unit B51 and the relevance calculation method database D401 are new. It has been added.

なお、第1の実施形態における構成図と同じ番号が付与されたものは同じ動作をするために説明を省略する。   In addition, since the thing to which the same number as the block diagram in 1st Embodiment was attached | subjected performs the same operation | movement, description is abbreviate | omitted.

本実施形態では、関連度の計算方法を、関連度計算方法データベースD401を参照して動的に切り替える点が以前の実施形態と異なっている。   This embodiment is different from the previous embodiment in that the relevance calculation method is dynamically switched with reference to the relevance calculation database D401.

関連度計算方法データベースD401には、データ間の関連度を計算するための方法と計算方法を採用するための条件が1つ以上格納されている。   The degree of association calculation method database D401 stores a method for calculating the degree of association between data and one or more conditions for adopting the calculation method.

関連度計算方法決定部B51は、関連度算出部B42が関連度を計算するための方法を、計算対象となる候補の属性情報や関連度計算方法データベースD401を参照して決定する。   The relevance calculation method determination unit B51 determines a method for the relevance calculation unit B42 to calculate the relevance with reference to candidate attribute information to be calculated and the relevance calculation method database D401.

(2)関連度計算方法決定部B51
図13には、関連度計算方法データベースD401の一例を示す。本実施形態で扱うカーナビゲーションにおける施設検索タスクでは、検索データベースD201には施設のジャンルが属性に存在しており、このジャンルの属性情報によって適用される計算方法を切り分けるような条件となっている。
(2) Relevance calculation method determination unit B51
FIG. 13 shows an example of the relevance calculation method database D401. In the facility search task in the car navigation handled in this embodiment, the genre of the facility exists in the attribute in the search database D201, and the condition is such that the calculation method to be applied is determined by the attribute information of this genre.

具体的な計算方法は、次の通りである。   A specific calculation method is as follows.

第1に、駅のような利用者の行動基点となる施設では、徒歩圏内のような範囲の狭い施設に関してのみ関連度の値を持つように算出する。   First, a facility such as a station that serves as a user's action base point is calculated so as to have a relevance value only for a facility with a narrow range such as a walking distance.

第2に、道路や河川など地点ではなく一定の範囲にわたって存在する施設では、同じ施設名を持つ施設データとして登録された複数の地点を直線で補完して、絞込み対象の候補と補完された直線との最短距離が一定範囲に入っている施設のみ関連度の値を持つように算出する。   Second, for facilities that exist over a certain area rather than points such as roads and rivers, a plurality of points registered as facility data with the same facility name are complemented with straight lines, and the straight lines supplemented with candidates for narrowing down Only the facilities where the shortest distance from is within a certain range are calculated so as to have a relevance value.

このように絞り込み条件として入力する施設と直感的な近さを対応させて計算方法を切り替えることで、意図しない候補の関連度が高くなって十分に絞り込めないといった状況を回避できる。   In this way, by switching the calculation method in correspondence with the facility that is input as the narrowing-down condition and intuitive proximity, it is possible to avoid a situation in which the degree of association of unintended candidates becomes high and cannot be narrowed down sufficiently.

そして、関連度計算方法データベースD401は、上記のような計算方法について、属性情報を入力情報、関連度を出力情報とした計算関数で格納しておき、ジャンルの属性情報によって計算関数を選択する。   Then, the relevance calculation method database D401 stores the calculation information as described above using a calculation function with the attribute information as input information and the relevance as output information, and selects the calculation function according to the genre attribute information.

(3)効果
本実施形態によれば、関連度の計算方法を複数保持しておき、比較する候補によって計算方法を切り替えることで、利用者の直感に近い方法で関連度の計算をすることが可能となり、結果として利用者が効率よく候補を絞り込むことができる。
(3) Effect According to the present embodiment, it is possible to calculate the relevance by a method close to the user's intuition by holding a plurality of relevance calculation methods and switching the calculation method according to the candidates to be compared. As a result, the user can narrow down candidates efficiently.

(第3の実施形態)
本発明の第3の実施形態の音声検索装置について図14〜図16に基づいて説明する。
(Third embodiment)
A voice search device according to a third embodiment of the present invention will be described with reference to FIGS.

(1)音声検索装置の構成
図14は、本実施形態に係る音声検索装置の概略構成図である。
(1) Configuration of Voice Search Device FIG. 14 is a schematic configuration diagram of a voice search device according to the present embodiment.

本実施形態に係る音声検索装置は、第2の実施形態における認識辞書文法D102、候補管理部B22、関連度算出部B43、関連度計算方法決定部B52の動作が異なり、加えてフレーズ解析部B61が新しく追加された構成になっている。   The speech search apparatus according to this embodiment is different in the operations of the recognition dictionary grammar D102, the candidate management unit B22, the relevance calculation unit B43, and the relevance calculation method determination unit B52 in the second embodiment, and additionally includes a phrase analysis unit B61. Is a newly added configuration.

以前の実施形態における構成図と同じ番号が付与されたものは、同じ動作をするために説明を省略する。   Components having the same reference numerals as those in the previous embodiment have the same operations, and thus description thereof is omitted.

本実施形態では、発声間の関係を示唆するフレーズを含む発声を受理した上でフレーズを解析し、解析結果から得られたフレーズに応じて関連度の計算方法を切り替える点が以前の実施形態と異なっている。   In the present embodiment, the point that the utterance including the phrase suggesting the relationship between utterances is received, the phrase is analyzed, and the calculation method of the degree of association is switched according to the phrase obtained from the analysis result is different from the previous embodiment. Is different.

(2)認識辞書文法D102
図15に、本実施形態に最適のフレーズを含む発声を受理するための認識辞書文法D102の一例を示す。
(2) Recognition dictionary grammar D102
FIG. 15 shows an example of a recognition dictionary grammar D102 for accepting an utterance including a phrase optimal for the present embodiment.

図15に示すように、施設データの施設名10000語単独か、または施設名に続いて発声間の関係を示唆するフレーズが連続する発声を受理するように記述されている。   As shown in FIG. 15, the facility data is described so as to accept the utterance in which the facility name is 10,000 words alone or the facility name is followed by a phrase suggesting the relationship between utterances.

(3)フレーズ解析部B61
フレーズ解析部B61は、音声認識から得られた複数の認識結果を受け取って、認識結果の中に含まれる施設名と、「発声間の関係を示唆するフレーズ」を分離した上で、フレーズが示唆する属性の同定を行なう。
(3) Phrase analysis unit B61
The phrase analysis unit B61 receives a plurality of recognition results obtained from the speech recognition, separates the facility name included in the recognition result and the “phrase suggesting the relationship between utterances”, and then the phrase suggests The attribute to be identified is identified.

ここで「発声間の関係を示唆するフレーズ」とは、検索のための音声と絞り込みのための音声について、両音声間、すなわち、両発声間の関係を示すフレーズといい、例えば、「近い」とかの言葉である。   Here, the phrase “suggesting a relationship between utterances” refers to a phrase indicating a relationship between both sounds, that is, a relationship between both utterances, for example, a search sound and a sound for narrowing down. It is a word like that.

分離された施設名の候補は検索データベースD201を検索するために候補管理部B22に渡され、また分類されたフレーズは関連度算出方法決定部B52に渡される。   The separated facility name candidates are transferred to the candidate management unit B22 to search the search database D201, and the classified phrases are transferred to the relevance calculation method determination unit B52.

(4)候補管理部B22
候補管理部B22は、まず、フレーズ解析部B61によって生成された認識候補及び認識スコアを受け取る。次に、認識候補から検索キーを生成した上で検索データベースD201D201を検索する。次に、検索条件に合致するデータを取得する。次に、検索されたデータと認識候補は履歴情報として候補データベースD301D301に格納される。
(4) Candidate manager B22
The candidate management unit B22 first receives the recognition candidate and the recognition score generated by the phrase analysis unit B61. Next, the search database D201D201 is searched after generating a search key from the recognition candidates. Next, data matching the search condition is acquired. Next, the retrieved data and recognition candidates are stored in the candidate database D301D301 as history information.

また、候補管理部B22は、候補データベースD301を参照して、複数の発声が履歴情報として管理されている場合には絞り込み対象となる発声と、絞込み条件となる発声を決定した上で、発声間の関係に基づいて候補を絞り込むために、各発声に含まれる候補同士の意味的な類似性を関連度算出部B43に問い合わせて関連度を取得する。   Further, the candidate management unit B22 refers to the candidate database D301, and when a plurality of utterances are managed as history information, the candidate management unit B22 determines utterances to be narrowed down and utterances to be narrowed down, and In order to narrow down the candidates based on the relationship, the relevance calculation unit B43 is inquired about the semantic similarity between the candidates included in each utterance, and the relevance is acquired.

次に、取得した関連度及び認識スコアを利用して、絞込み対象となる候補を絞り込むように動作する。次に、候補を絞込んだ場合には候補データベースD301を更新して、さらにその結果を結果出力部B31B31に通知する。   Next, an operation is performed to narrow down candidates to be narrowed down using the acquired degree of association and recognition score. Next, when candidates are narrowed down, the candidate database D301 is updated, and the result is notified to the result output unit B31B31.

(5)関連度算出部B43
関連度算出部B43は、候補管理部B22から問い合わせのあった候補同士の意味的な類似性を表す関連度を、その算出方法を関連度計算方法決定部B52に問い合わせた上で算出し、算出結果を候補管理部B22に返す。
(5) Relevance calculation unit B43
The degree-of-association calculating unit B43 calculates the degree of relevance representing the semantic similarity between the candidates inquired from the candidate managing unit B22 after inquiring the degree-of-calculation method to the degree-of-association calculating method determining unit B52. A result is returned to candidate management part B22.

(6)関連度計算方法決定部B52
関連度計算方法決定部B52は、関連度算出部B43が関連度を計算するための方法を、計算対象となる候補の属性情報やフレーズ解析部61が出力するフレーズを元に関連度計算方法データベースD401を参照して決定する。
(6) Relevance calculation method determination unit B52
The relevance calculation method determination unit B52 uses a relevance calculation method database based on candidate attribute information to be calculated and a phrase output by the phrase analysis unit 61, as a method for the relevance calculation unit B43 to calculate relevance. This is determined with reference to D401.

(7)具体例
より具体的に説明するために、第1の実施形態と同じタスクの元で、施設名の入力を促された利用者が、検索したい施設名である「高尾山(たかおさん)」と発声して、施設名の候補が100個に絞り込まれて、候補を絞り込むために「相模湖(さがみこ)の近く」と発声した状況を考える。
(7) Specific Example In order to explain more specifically, a user who is prompted to enter a facility name under the same task as in the first embodiment is the name of the facility to be searched for, “Takao ) ”, The facility name candidates are narrowed down to 100, and“ near Sagamiko ”is said to narrow down the candidates.

(8)音声認識部B11の動作
音声認識部B11は、図15に書かれた認識辞書文法にしたがって、入力された音声に合致する複数の認識結果を出力する。
(8) Operation of Speech Recognition Unit B11 The speech recognition unit B11 outputs a plurality of recognition results that match the input speech according to the recognition dictionary grammar written in FIG.

図16に音声認識部B11によって30個の候補が出力された認識結果を例示する。説明を簡単にするため、音声認識部B11から第1の実施形態の絞込み発声と同じ施設名に、「の近く」が連続した結果が取得されたとする。   FIG. 16 illustrates a recognition result in which 30 candidates are output by the speech recognition unit B11. In order to simplify the explanation, it is assumed that a result of “Nearby” continuously acquired from the voice recognition unit B11 with the same facility name as that of the narrowed utterance in the first embodiment.

(9)フレーズ解析部B61の動作
フレーズ解析部B61は、取得した30個の認識結果を受け取ると、各認識候補の中から施設名と発声間の関係を示唆するフレーズを分離する。
(9) Operation | movement of phrase analysis part B61 The phrase analysis part B61 will isolate | separate the phrase which suggests the relationship between a facility name and utterance from each recognition candidate, if 30 recognition results acquired are received.

本実施形態では、認識辞書文法D102に記述した受理する単語系列が{施設名}+{発声間の関係を示唆するフレーズ}に限定している。そのため、認識結果の境界情報「/」から前者を施設名、後者をフレーズと割り当てることができる。   In the present embodiment, the accepted word sequence described in the recognition dictionary grammar D102 is limited to {facility name} + {phrase suggesting the relationship between utterances}. Therefore, the former can be assigned as the facility name and the latter as the phrase from the boundary information “/” of the recognition result.

ここで施設名に関する認識結果を更新し、結果として図7と同じ認識結果を候補管理部B21に渡す。続いてフレーズ「の近く」を解析して、データが持つ、どの属性に着目すれば発声間の関係を求めることができるか判断する。   Here, the recognition result related to the facility name is updated, and as a result, the same recognition result as in FIG. 7 is passed to the candidate management unit B21. Subsequently, the phrase “near” is analyzed to determine which attribute of the data is focused on to determine the relationship between utterances.

フレーズの解析方法としては、文法に記述されたフレーズと着目すべき属性を対応付けたテーブルを保持しておいて、テーブルを参照して着目する属性を決定する方法が考えられる。例えばテーブルにある「近く/緯度経度」のエントリーから、着目すべき属性を「緯度経度」と決定して、その結果を関連度計算方法決定部B51に通知する。   As a method for analyzing a phrase, a method in which a table in which a phrase described in the grammar is associated with an attribute to be noticed is held and an attribute to be noticed is determined with reference to the table can be considered. For example, from the “near / latitude / longitude” entry in the table, the attribute to be noted is determined as “latitude / longitude”, and the result is notified to the relevance calculation method determination unit B51.

(10)候補管理部B22の動作
次に、絞込み発声に対する認識結果が生成された場合の、候補管理部B22の動作について図5のフローチャートを用いて説明する。
(10) Operation of Candidate Management Unit B22 Next, the operation of the candidate management unit B22 when a recognition result for the narrowed utterance is generated will be described with reference to the flowchart of FIG.

まず、候補管理部B22は図7に例示した音声認識結果を取得する(ステップS2101)。   First, the candidate management unit B22 acquires the speech recognition result illustrated in FIG. 7 (step S2101).

次に、取得した音声認識結果の中にある、検索データベースD201を検索するための検索キーを抽出する(ステップS2102)。本実施形態では重複を含めて述べ施設名に関する30個の検索キーが生成される。   Next, a search key for searching the search database D201 in the acquired speech recognition result is extracted (step S2102). In the present embodiment, thirty search keys relating to facility names described including duplicates are generated.

次に、生成された複数の検索キーを使って、検索データベースD201を検索し、検索条件に合致するデータ及びその属性を取得し(ステップS2103)、認識結果と検索結果をリンクして候補データベースD301に履歴情報として記録する(ステップS2104)。図8は、候補データベースD301に書き込まれた履歴情報の一例を示しており、結果を取得した順番、認識結果(スコア及び順位)、対応する検索データベースD201の属性情報などが対応付けられている。   Next, the search database D201 is searched using a plurality of generated search keys, data that matches the search condition and its attributes are acquired (step S2103), and the recognition result and the search result are linked to obtain the candidate database D301. Is recorded as history information (step S2104). FIG. 8 shows an example of history information written in the candidate database D301, in which the order in which results are acquired, recognition results (scores and ranks), attribute information of the corresponding search database D201, and the like are associated with each other.

次に、新しく取得した認識結果が絞り込みのための発声であるか、新しく入力された発声であるかの判定を行なう(S2105)。   Next, it is determined whether the newly acquired recognition result is an utterance for narrowing down or a newly input utterance (S2105).

そして、ここでは入力された認識結果群が2つあるため、2回目に入力された発声が絞込み発声であると判断して、発声間の候補それぞれに対する関連度を関連度算出部B43に問い合わせるように動作する(S2106)。本実施形態では、絞込み対象となる最初の発声から100候補、絞り込み条件となる次の発声から30候補が候補データベースD301に記録されているため、100x30=3000の候補間の関連度を計算することになる。具体的な関連度の計算方法については、引き続いて詳細に説明する。   Here, since there are two input recognition result groups, it is determined that the utterance input the second time is a narrowed utterance, and the degree of association for each candidate between utterances is inquired to the association degree calculation unit B43. (S2106). In the present embodiment, 100 candidates from the first utterance to be narrowed down and 30 candidates from the next utterance to be narrowed down are recorded in the candidate database D301, so the degree of association between 100 × 30 = 3000 candidates is calculated. become. A specific method of calculating the degree of association will be described in detail subsequently.

(11)関連度算出部B43の動作
関連度算出部B43では、候補管理部B22から問い合わせのあった候補対毎に、データの属性情報を比較して意味的な類似性を表す関連度を算出する。
(11) Operation of Relevance Level Calculation Unit B43 The relevance level calculation unit B43 calculates the relevance level representing the semantic similarity by comparing the attribute information of the data for each candidate pair inquired from the candidate management unit B22. To do.

具体的な関連度の計算方法は、関連度計算方法決定部B52に問い合わせて関連度を計算する。   As a specific calculation method of the degree of association, the degree of association is calculated by inquiring to the degree-of-association calculation determination unit B52.

関連度計算方法決定部B52は、フレーズ解析部B61から通知された着目すべき属性「緯度経度」に着目して、緯度経度が接近する施設、すなわち近い施設が発声されるとの前提を置き、様々な属性の中で緯度経度の属性情報に着目して関連度を計算する。候補の緯度経度を比較することで、例えばユークリッド距離を求めることができる。求めたユークリッド距離に基づき、距離が大きいほど関連度が小さく、距離が小さいほど関連度が大きくなるように正規化することで候補間の関連度を計算できる。この計算を全ての候補間100x30に対して行なった結果の例を図9に示す。   The relevance calculation method determination unit B52 pays attention to the attribute “latitude / longitude” to be noticed notified from the phrase analysis unit B61, and puts on the premise that the facility where the latitude and longitude are approached, that is, the near facility is uttered, Relevance is calculated by paying attention to the latitude and longitude attribute information among various attributes. By comparing the latitude and longitude of the candidates, for example, the Euclidean distance can be obtained. Based on the obtained Euclidean distance, the degree of association can be calculated by normalizing so that the degree of association is smaller as the distance is larger and the degree of association is larger as the distance is smaller. An example of the result of performing this calculation for all candidates 100 × 30 is shown in FIG.

(12)候補管理部B22による絞込み動作
再び、候補管理部B22の動作に戻る。
(12) Narrowing operation by candidate management unit B22 The operation returns to the operation of candidate management unit B22 again.

(12−1)ステップS2107
関連度算出部B43によって図9のように候補間の関連度が計算されその結果が候補管理部B22に通知されると、算出された関連度を利用して、絞込み対象となる候補を絞り込むための絞込みスコアを算出する(S2107)。
(12-1) Step S2107
When the degree of association between candidates is calculated by the association degree calculation unit B43 as shown in FIG. 9 and the result is notified to the candidate management unit B22, the candidate to be narrowed down is narrowed down using the calculated degree of association. The narrowing score is calculated (S2107).

i番目の絞込みスコアDi(0<i<=100)を関連度Wij(i番目の絞込み対象候補とj番目の絞込み条件候補の間の関連度)とj番目の認識スコアRjから算出する方法としては、次の通りである。   As a method of calculating the i th narrowing score Di (0 <i <= 100) from the relevance degree Wij (relationship between the i th narrowing target candidate and the j th narrowing condition candidate) and the j th recognition score Rj. Is as follows.


Di=Σj(Wij)x(Rj)

但し、0<j<=30である。上の式にしたがって絞り込みスコアを算出した結果を図10に示す。

Di = Σj (Wij) x (Rj)

However, 0 <j <= 30. FIG. 10 shows the result of calculating the narrowing score according to the above formula.

ここで絞り込むか否かを判断するためのスコアを上記の例に示すように、意味的な関連度だけでなく絞込みのための発声における認識の信頼度を加味することで、信頼性の高い絞込みを行なうことを目的としている。   As shown in the example above, the score for determining whether or not to narrow down is not limited to the semantic relevance, but the reliability of recognition in the utterance for narrowing down is used to narrow down the reliability. The purpose is to do.

(12−2)ステップS2108
このように絞込みスコアを算出すると、絞込みスコアと認識スコアを鑑みて最初の絞込み対象となる100個の施設候補を絞り込む(S2108)。
(12-2) Step S2108
When the narrowing score is calculated in this way, the first 100 facility candidates to be narrowed down are narrowed down in view of the narrowing score and the recognition score (S2108).

例えば、絞込みとして、絞り込みスコアが0となる候補を除去して認識スコアと絞り込みスコアの合計値でリソートするように動作させると、図11に例示する3施設が候補として残り、これを候補データベースD301に履歴情報として書き込む。   For example, if a candidate for which the refinement score is 0 is removed as a refinement and an operation is performed so as to perform a resort with the total value of the recognition score and the refinement score, the three facilities illustrated in FIG. 11 remain as candidates, and these are stored in the candidate database D301. Is written as history information.

(13)結果出力
利用者の発声から取得されたキーを使って検索データベースD201を検索し、最初の発声に対する絞込みの処理が終わると、結果出力部B31は更新された候補リストを受け取って、その結果を利用者に通知する。
(13) Result output When the search database D201 is searched using the key acquired from the user's utterance and the narrowing process for the first utterance is completed, the result output unit B31 receives the updated candidate list, Notify the user of the result.

例えば、候補の結果を可能性の高いものから順に読み上げることで利用者への通知を行なう場合には、次のようなプロンプト「3件の候補が見つかりました。1件目は東京都にある高尾山、2件目は・・・」を出す。ここで利用者は目的とする施設が最初の候補として読上げられたことを聞いて、目的の候補が検索されたことを確認でき、最初の候補を指定する発声または画面指定などの入力によって目的のデータを指定できる。   For example, when notifying users by reading the candidate results in order from the most likely one, the following prompt “Three candidates were found. The first one is in Tokyo. Mt. Takao, the second is ... " Here, the user can confirm that the target facility has been read out as the first candidate and confirm that the target candidate has been searched, and can input the target target by utterance or designating the screen to specify the first candidate. Data can be specified.

(14)変更例
本実施形態では、利用者から絞込みの発声を受け付けるときに、同時に発声間の関係性を示唆するフレーズを受け付けて、関連度の計算方法を動的に変更する。
(14) Modification Example In the present embodiment, when a narrowed utterance is received from a user, a phrase suggesting a relationship between utterances is simultaneously received, and the calculation method of the degree of association is dynamically changed.

上記の例では、「の近く」を解析して得られた着目する属性が、第1の実施形態と同じ緯度経度になったため同じ結果が得られた。   In the above example, since the attribute of interest obtained by analyzing “near” is the same latitude and longitude as in the first embodiment, the same result was obtained.

(14−1)変更例1
上記の変更例1を説明する。
(14-1) Modification 1
The modification example 1 will be described.

第1発声「東芝旅館」に対して、「善光寺と同じ町」といった絞込み発声が入力されるとする。そして、「と同じ町」とのフレーズから市区町村名に着目して、候補間の市区町村名が合致すれば関連度を1、合致しなければ関連度0と計算する。これにより、異なる属性の類似性から候補を絞り込みできる。   It is assumed that a narrowed utterance such as “same town as Zenkoji” is input to the first utterance “Toshiba Ryokan”. Then, paying attention to the city name from the phrase “same town”, the degree of association is calculated as 1 if the city names between candidates match, and the degree of association is calculated as 0 if they do not match. Thereby, candidates can be narrowed down from the similarity of different attributes.

(14−2)変更例2
上記の変更例2を説明する。
(14-2) Modification 2
The modification example 2 will be described.

第1発声「ショッピングモール川崎」に対して、「百貨店みたいな」といった絞込み発声からジャンル属性に着目するなど、フレーズに応じて関連度の計算方法を切り替えることで、利用者に意図にあった絞り込み方法を実現できる。   For the first utterance “Shopping Mall Kawasaki”, focus on the genre attribute from the refined utterance such as “Department Store-like”, and by switching the relevance calculation method according to the phrase, narrow down to the user's intention The method can be realized.

(15)効果
本実施形態によれば、1)複数の属性を持つ大規模なデータベースから利用者が望むデータを音声で選択するときに、2)最初の発声で目的のデータを十分に絞り込めなかった場合に、3)利用者に関連質問を提示して次の発声で入力される属性を指定するのではなく、4)目的のデータに関連する発声を関連性を示唆するフレーズと共に受け付けた上で、5)最初の発声に含まれる候補と次の発声に含まれる候補の意味的な関連性を表す関連度を、フレーズを解析した結果を元に計算方法を切り替えながら算出し、6)最初の発声と次の発声それぞれの認識尤度と関連度を鑑みて候補の絞込みを行なう。
(15) Effects According to the present embodiment, 1) When selecting data desired by a user from a large-scale database having a plurality of attributes, 2) sufficiently narrowing down target data by the first utterance If not, 3) Rather than presenting relevant questions to the user and specifying the attributes to be input in the next utterance 4) Accepting utterances related to the target data with phrases suggesting relevance In the above, 5) the degree of relevance representing the semantic relevance between the candidate included in the first utterance and the candidate included in the next utterance is calculated based on the result of analyzing the phrase while switching the calculation method, and 6) The candidates are narrowed down in consideration of the recognition likelihood and the relevance of each of the first utterance and the next utterance.

したがって、利用者がシステムからの関連質問に答えられずに対話が破綻といった状況を回避して、大規模なデータベースから効率よく目的のデータを選択できる。   Therefore, it is possible to efficiently select target data from a large-scale database by avoiding a situation where the user fails to answer a related question from the system and the dialogue is broken.

(第4の実施形態)
本発明の第4の実施形態の音声検索装置について図17〜図19に基づいて説明する。
(Fourth embodiment)
A voice search device according to a fourth embodiment of the present invention will be described with reference to FIGS.

(1)音声検索装置の構成
図17は、本実施形態に係る音声検索装置の概略構成図である。
(1) Configuration of Voice Search Device FIG. 17 is a schematic configuration diagram of a voice search device according to this embodiment.

本実施形態に係る音声検索装置は、第2の実施形態における音声認識部B12と候補管理部B23の動作が異なり、加えて類似度判定部B71と入力データベースD501が新しく追加された構成になっている。   The speech search apparatus according to the present embodiment has a configuration in which the operations of the speech recognition unit B12 and the candidate management unit B23 in the second embodiment are different, and in addition, a similarity determination unit B71 and an input database D501 are newly added. Yes.

以前の実施形態における構成図と同じ番号が付与されたものは、同じ動作をするために説明を省略する。   Components having the same reference numerals as those in the previous embodiment have the same operations, and thus description thereof is omitted.

本実施形態では、入力された音声または音声を認識した結果を入力データベースD501に保持しておき、新しく入力された音声または音声を認識した結果を類似度判定部B71で比較することによって、以前の発声の上書き発声なのか、絞込み発声なのかを判断する点が以前の実施形態と異なっている。   In the present embodiment, the input voice D or voice recognition result is held in the input database D501, and the newly input voice or voice recognition result is compared by the similarity determination unit B71, so that the previous voice or voice recognition result is compared. It is different from the previous embodiment in that it is determined whether the utterance is overwritten utterance or narrowed utterance.

(2)音声認識部B12
音声認識部B12は、認識辞書文法D101に基づいて利用者から入力された音声を認識して認識候補を生成する。
(2) Voice recognition unit B12
The speech recognition unit B12 recognizes speech input from the user based on the recognition dictionary grammar D101 and generates recognition candidates.

入力された音声に雑音が重畳しているなどの理由で入力された音声に近い候補が一つも出力されない場合を除いて、音声認識部B12によって1つ以上の認識候補が生成される。   Except for the case where no candidate close to the input speech is output because the input speech has noise or the like, one or more recognition candidates are generated by the speech recognition unit B12.

また、後に発声間の類似性を見るための入力された音声または認識された結果を入力データベースD501に格納する。認識された結果の一例として、ここでは音声認識の途中仮定で得られる音素系列を保持するようにする。保持された入力データベースD501の一例を図18に示す。   In addition, the input speech for recognizing the similarity between utterances later or the recognized result is stored in the input database D501. As an example of the recognized result, here, a phoneme sequence obtained in the midway of speech recognition is held. An example of the stored input database D501 is shown in FIG.

(3)候補管理部B23
候補管理部B23は入力された認識結果を図19に示したフローチャートにしたがって検索データベースD201の検索から候補の絞込みまでを行なう。
(3) Candidate manager B23
The candidate management unit B23 performs the input recognition result from the search of the search database D201 to the narrowing down of candidates according to the flowchart shown in FIG.

しかし、本実施形態は、2回目以降の認識結果が取得された場合に、新しく取得した結果が絞込み発声か否かを判断するステップ(S2105)及び絞込み発声でなかった場合のステップ(S2109)が図5のフローチャートと異なる。   However, in the present embodiment, when the second and subsequent recognition results are acquired, the step of determining whether the newly acquired result is a narrowed utterance (S2105) and the step of not being a narrowed utterance (S2109) Different from the flowchart of FIG.

本実施形態では絞込み発声か否かの判断を行なうときに、類似度算出部B71に問い合わせるように動作する。   In the present embodiment, when determining whether or not the voice is narrowed down, the similarity calculation unit B71 is inquired.

ここで最初の認識音素系列が図18に示すように、{N,a,k,a,o,s,a}であり、2回目の発声に対応する認識音素系列が{T,a,k,a,o,s,a,N}だった場合を考える。   Here, as shown in FIG. 18, the first recognized phoneme sequence is {N, a, k, a, o, s, a}, and the recognized phoneme sequence corresponding to the second utterance is {T, a, k. , A, o, s, a, N}.

類似度判定部B71は、二つの音素系列の距離を、例えば編集距離などの距離尺度にしたがって測定し、結果が閾値を越えるか否かによって二つの発声が類似するか否かを判断する。   The similarity determination unit B71 measures the distance between two phoneme sequences according to a distance scale such as an edit distance, and determines whether the two utterances are similar depending on whether the result exceeds a threshold.

今回のように閾値を越えて類似する音素系列であると判断された場合には、最初の発声に対応する候補を消去して、上書き発声である2回目の発声の候補のみを残すように動作する。   If it is determined that the phoneme series is similar to the threshold, the operation corresponding to the first utterance is deleted, and only the second utterance candidate that is overwritten utterance is left To do.

このように上書き発声に対しては対応する過去の発声に対応する候補を消去することで、不自然な発声によって、意図とは異なる候補ばかりが上位に含まれる場合にも自然に絞込み対話を継続できる。   In this way, by eliminating candidates corresponding to past utterances corresponding to overwrite utterances, even if unnatural utterances contain only candidates that are different from the intended ones, the narrowed dialogue continues naturally it can.

(4)変更例
なお、本実施形態では、発声間の類似性を測定する方法として、音素系列の編集距離という尺度を採用したがこれに限定するものではない。
(4) Modified example In the present embodiment, a measure of phoneme sequence editing distance is adopted as a method for measuring the similarity between utterances, but the present invention is not limited to this.

例えば、音素対の置換しやすさを事前に観測しておき、これをコストとしたDPマッチングにより音素間距離を算出するといった方法などが適用できる。   For example, it is possible to apply a method in which the ease of replacement of phoneme pairs is observed in advance and the distance between phonemes is calculated by DP matching using this as a cost.

(5)効果
本実施形態によれば、複数回の発声で大規模なデータベースからの絞込みを行なうときに、新たに入力された音声が過去の発声の上書きなのか絞込み発声なのかを自動的に判断することで、利用者が目的のデータ施設名を繰り返し発声する場合でも不自然な絞込みを行なうことなく動作する。
(5) Effect According to this embodiment, when narrowing down from a large-scale database with multiple utterances, it is automatically determined whether the newly input voice is an overwrite of a past utterance or a narrowed utterance. By determining, even when the user repeatedly utters the target data facility name, the operation is performed without unnatural narrowing down.

(第5の実施形態)
本発明の第5の実施形態の音声検索装置について図20〜図21に基づいて説明する。
(Fifth embodiment)
A voice search device according to a fifth embodiment of the present invention will be described with reference to FIGS.

(1)音声検索装置の構成
図20は、本実施形態に係る音声検索装置の概略構成図である。
(1) Configuration of Voice Search Device FIG. 20 is a schematic configuration diagram of a voice search device according to this embodiment.

本実施形態に係る音声検索装置は以前の実施形態における候補管理部B24と認識辞書文法D103の動作が異なる構成になっている。   The speech search apparatus according to this embodiment has a configuration in which the operations of the candidate management unit B24 and the recognition dictionary grammar D103 in the previous embodiment are different.

以前の実施形態における構成図と同じ番号が付与されたものは、同じ動作をするために説明を省略する。   Components having the same reference numerals as those in the previous embodiment have the same operations, and thus description thereof is omitted.

本実施形態では、絞込み発声において既に候補に挙がっている施設を認識候補から除去することで、認識対象の語彙を小さくして認識性能を高めるように動作する点が以前の実施形態と異なっている。   This embodiment is different from the previous embodiment in that it operates to reduce the vocabulary to be recognized and improve the recognition performance by removing facilities already listed as candidates in the refined utterance from the recognition candidates. .

(2)具体例
具体例で説明すると、第1の実施形態と同様に最初の発声を図3に示す認識辞書文法103に対する認識候補として図4に示す100個の認識結果が得られたとする。
(2) Specific Example To explain with a specific example, it is assumed that 100 recognition results shown in FIG. 4 are obtained for the first utterance as recognition candidates for the recognition dictionary grammar 103 shown in FIG. 3 as in the first embodiment.

(3)候補管理部B24
候補管理部B24は、第1の実施形態と同様に検索データベースD201の計算、候補データベースD301の更新を行なうと同時に、図4に示す100個の候補を認識辞書文法103から除去するように変更して、図21に示すように規模の小さな認識辞書文法103を生成する。
(3) Candidate manager B24
The candidate management unit B24 changes the calculation so as to remove the 100 candidates shown in FIG. 4 from the recognition dictionary grammar 103 at the same time as calculating the search database D201 and updating the candidate database D301 as in the first embodiment. Thus, a small-scale recognition dictionary grammar 103 is generated as shown in FIG.

小さな語彙で絞込み発声を待ち受けるため、認識性能が高まることが期待できる。   Because it listens for narrowed vocabulary and narrowed utterances, it can be expected that recognition performance will improve.

(4)効果
本実施形態によれば、既に候補に挙がっている施設を認識候補から除去することで、認識対象の語彙を小さくすることができ、結果として認識性能を高めることができ、結果として効率よく候補を絞り込むことができる。
(4) Effect According to the present embodiment, by removing the facilities already listed as candidates from the recognition candidates, the vocabulary to be recognized can be reduced, and as a result, the recognition performance can be improved. Can narrow down candidates efficiently.

(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更できる。
(Example of change)
The present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the gist thereof.

本発明の第1の実施形態に係る音声検索装置の概略構成例を表す図である。It is a figure showing the schematic structural example of the speech search device which concerns on the 1st Embodiment of this invention. 第1の実施形態に係る検索データベースの一例を表す図である。It is a figure showing an example of the search database which concerns on 1st Embodiment. 第1の実施形態に係る認識辞書文法の一例を表す図である。It is a figure showing an example of the recognition dictionary grammar which concerns on 1st Embodiment. 第1の実施形態に係る音声認識部から出力される認識結果の一例を表す図である。It is a figure showing an example of the recognition result output from the speech recognition part which concerns on 1st Embodiment. 第1の実施形態に係る候補管理部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the candidate management part which concerns on 1st Embodiment. 第1の実施形態に係る候補データベースに格納されたデータの一例を表す図である。It is a figure showing an example of the data stored in the candidate database which concerns on 1st Embodiment. 第1の実施形態に係る音声認識部から出力される認識結果の一例を表す図である。It is a figure showing an example of the recognition result output from the speech recognition part which concerns on 1st Embodiment. 第1の実施形態に係る候補データベースに格納されたデータの一例を表す図である。It is a figure showing an example of the data stored in the candidate database which concerns on 1st Embodiment. 第1の実施形態に係る関連度の計算結果の一例を表す図である。It is a figure showing an example of the calculation result of the related degree which concerns on 1st Embodiment. 第1の実施形態に係る絞込みスコアの計算結果の一例を示す図である。It is a figure which shows an example of the calculation result of the narrowing score which concerns on 1st Embodiment. 第1の実施形態に係る更新された候補データベースの一例を示す図である。It is a figure which shows an example of the updated candidate database which concerns on 1st Embodiment. 第2の実施形態に係る音声検索装置の概略構成例を表す図である。It is a figure showing the example of schematic structure of the speech search device which concerns on 2nd Embodiment. 第3の実施形態に係る関連度計算方法データベースに格納されたデータの一例を表す図である。It is a figure showing an example of the data stored in the relevance calculation method database which concerns on 3rd Embodiment. 第3の実施形態に係る音声検索装置の概略構成例を表す図である。It is a figure showing the schematic structural example of the speech search device which concerns on 3rd Embodiment. 第3の実施形態に係る認識辞書文法の一例を表す図である。It is a figure showing an example of the recognition dictionary grammar which concerns on 3rd Embodiment. 第3の実施形態に係る音声認識部から出力される認識結果の一例を表す図である。It is a figure showing an example of the recognition result output from the speech recognition part which concerns on 3rd Embodiment. 第4の実施形態に係る音声検索装置の概略構成例を表す図である。It is a figure showing the schematic structural example of the speech search device which concerns on 4th Embodiment. 第4の実施形態に係る入力データベースの一例を表す図である。It is a figure showing an example of the input database which concerns on 4th Embodiment. 第4の実施形態に係る候補管理部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the candidate management part which concerns on 4th Embodiment. 第五の実施形態に係る音声検索装置の概略構成例を表す図である。It is a figure showing the example of schematic structure of the speech search device which concerns on 5th embodiment. 第五の実施形態に係る認識辞書文法の一例を表す図である。It is a figure showing an example of the recognition dictionary grammar which concerns on 5th embodiment.

符号の説明Explanation of symbols

B11 音声認識部
B21 候補管理部
B31 結果出力部
B41 関連度算出部
D101 認識辞書文法
D201 検索データベース
B11 Speech recognition unit B21 Candidate management unit B31 Result output unit B41 Relevance calculation unit D101 Recognition dictionary grammar D201 Search database

Claims (9)

利用者から発声された検索のための検索音声及び前記検索を絞り込むための絞り込み音声をそれぞれ音声認識して、検索候補及び絞り込み候補を求める音声認識部と、
複数のデータと、前記各データにそれぞれ対応した属性情報を格納する第1データベースと、
(1)前記検索候補に基づいて前記第1データベースを検索して、複数の前記データと前記データに対応した前記属性情報を検索情報として取得し、(2)前記絞り込み認識候補に基づいて前記第1データベースを検索して複数の前記データと前記属性情報を絞り込み情報として取得する候補管理部と、
前記検索情報に含まれる複数の前記データのそれぞれと、前記絞り込み情報に含まれる複数の前記データのそれぞれの間の関連性が高いほど大きい値となる関連度をそれぞれ、前記検索情報に含まれる前記各データの前記属性情報と、前記絞り込み情報に含まれる前記各データの前記属性情報とから算出する関連度算出部と、
高い値の前記関連度を有する前記検索情報に含まれる一または複数の前記データを出力する出力部と、
を有する音声検索装置。
A voice recognition unit for recognizing a search voice and a search voice for narrowing down the search, and obtaining a search candidate and a search candidate,
A first database for storing a plurality of data and attribute information corresponding to each of the data;
(1) Search the first database based on the search candidates to obtain a plurality of the data and the attribute information corresponding to the data as search information, and (2) the first data based on the refinement recognition candidates. A candidate management unit that searches one database and acquires a plurality of the data and the attribute information as narrowing information;
Each of the plurality of pieces of data included in the search information and each of the plurality of pieces of data included in the narrowing information includes a degree of relevance that increases as the relevance increases. A degree-of-association calculation unit that calculates from the attribute information of each data and the attribute information of each data included in the narrowing-down information;
An output unit that outputs one or a plurality of the data included in the search information having the high degree of relevance;
A voice search device.
前記属性情報が入力情報であり、前記関連度を出力結果とする計算関数が、少なくとも1つ格納された第2データベースをさらに有し、
前記関連度算出部は、
前記検索情報、または、前記絞り込み情報に含まれる前記データに対応する複数の前記属性情報の中から着目する前記属性情報を決定し、
前記決定した前記属性情報に基づいて前記第2データベースの中から一つの前記計算関数を選択し、
前記選択した計算関数に基づいて前記関連度を計算する、
請求項1記載の音声検索装置。
The attribute information is input information, and a calculation function having the relevance as an output result further includes a second database in which at least one is stored;
The relevance calculation unit
Determining the attribute information of interest from among the plurality of attribute information corresponding to the data included in the search information or the refinement information;
One calculation function is selected from the second database based on the determined attribute information,
Calculating the relevance based on the selected calculation function;
The voice search device according to claim 1.
前記検索音声と前記絞り込み音声との間の関係を示唆するフレーズを、前記絞り込み候補から抽出するフレーズ解析部をさらに有し、
前記関連度算出部は、前記検索情報に含まれる前記各データの前記属性情報、前記絞り込み情報に含まれる前記各データの前記属性情報、前記フレーズに基づいて前記関連度を算出する、
請求項1記載の音声検索装置。
A phrase analysis unit that extracts a phrase suggesting a relationship between the search voice and the refined voice from the refinement candidates;
The relevance calculation unit calculates the relevance based on the attribute information of each data included in the search information, the attribute information of each data included in the refinement information, and the phrase.
The voice search device according to claim 1.
前記利用者から入力された音声、または、前記認識候補を格納する第3データベースと、
前記第3データベースに格納された前記音声、または、前記認識候補を比較して、前記利用者の発声間の類似度を求める類似度判定部と、
をさらに有し、
前記候補管理部は、
前記類似度が閾値より低いときには、前記利用者の前記音声に基づいて絞り込みを行い、
前記類似度が閾値より高いときには、前記利用者の前記音声に関する前記認識候補を前記検索候補、または、前記絞り込み候補に対し上書きする、
請求項1記載の音声検索装置。
A third database that stores voice input from the user or the recognition candidates;
A similarity determination unit that compares the speech stored in the third database or the recognition candidates to obtain a similarity between the utterances of the user;
Further comprising
The candidate management unit
When the similarity is lower than a threshold, narrowing down based on the voice of the user,
When the similarity is higher than a threshold value, the recognition candidate related to the voice of the user is overwritten on the search candidate or the refinement candidate.
The voice search device according to claim 1.
前記音声認識部は、前記検索候補、及び、前記絞り込み候補について、前記音声認識に用いる認識辞書から削除する、
請求項1記載の音声検索装置。
The voice recognition unit deletes the search candidates and the narrowing candidates from a recognition dictionary used for the voice recognition.
The voice search device according to claim 1.
前記検索したいデータが、一つの地点に存在する目標物であり、
前記属性情報が、前記地点の緯度と経度、または、住所であり、
前記関連度は、前記地点を中心とした距離である、
請求項1記載の音声検索装置。
The data to be searched is a target existing at one point,
The attribute information is the latitude and longitude of the point, or an address,
The relevance is a distance centered on the point.
The voice search device according to claim 1.
前記音声認識部は、
前記音声認識に用いる認識辞書を参照して、前記検索音声を認識して一以上の前記検索候補と、前記認識の確からしさを表す検索認識スコアを求め、また、前記絞り込み音声を認識して一以上の前記絞り込み候補と、前記認識の確からしさを表す絞り込み認識スコアを求め、
前記関連度算出部は、
前記検索情報に含まれる前記各データの前記属性情報、前記絞り込み情報に含まれる前記各データの前記属性情報、前記検索認識スコア、前記絞り込み認識スコアに基づいて、前記関連度を算出する、
請求項1記載の音声検索装置。
The voice recognition unit
By referring to the recognition dictionary used for the speech recognition, the search speech is recognized to obtain one or more search candidates and a search recognition score indicating the probability of the recognition. The above-mentioned narrowing-down candidates and a narrowing-down recognition score representing the certainty of the recognition are obtained,
The relevance calculation unit
Calculating the relevance based on the attribute information of each data included in the search information, the attribute information of each data included in the narrowing information, the search recognition score, and the narrowing recognition score;
The voice search device according to claim 1.
利用者から発声された検索のための検索音声及び前記検索を絞り込むための絞り込み音声をそれぞれ音声認識して、検索候補及び絞り込み候補を求める音声認識ステップと、
(1)前記検索候補に基づいて、複数のデータと、前記各データにそれぞれ対応した属性情報を格納する第1データベースを検索して、複数の前記データと前記データに対応した前記属性情報を検索情報として取得し、(2)前記絞り込み認識候補に基づいて前記第1データベースを検索して複数の前記データと前記属性情報を絞り込み情報として取得する候補管理ステップと、
前記検索情報に含まれる複数の前記データのそれぞれと、前記絞り込み情報に含まれる複数の前記データのそれぞれの間の関連性が高いほど大きい値となる関連度をそれぞれ、前記検索情報に含まれる前記各データの前記属性情報と、前記絞り込み情報に含まれる前記各データの前記属性情報とから算出する関連度算出ステップと、
高い値の前記関連度を有する前記検索情報に含まれる一または複数の前記データを出力する出力ステップと、
を有する音声検索方法。
A voice recognition step for recognizing a search voice and a search voice for narrowing down the search, and obtaining a search candidate and a search candidate.
(1) Based on the search candidates, search a first database that stores a plurality of data and attribute information corresponding to each data, and search the plurality of data and the attribute information corresponding to the data. (2) a candidate management step of searching the first database based on the refinement recognition candidates and obtaining a plurality of the data and the attribute information as refinement information;
Each of the plurality of pieces of data included in the search information and each of the plurality of pieces of data included in the narrowing information includes a degree of relevance that increases as the relevance increases. A relevance calculation step of calculating from the attribute information of each data and the attribute information of each data included in the refinement information;
An output step of outputting one or a plurality of the data included in the search information having the high degree of relevance;
A voice search method comprising:
利用者から発声された検索のための検索音声及び前記検索を絞り込むための絞り込み音声をそれぞれ音声認識して、検索候補及び絞り込み候補を求める音声認識機能と、
(1)前記検索候補に基づいて、複数のデータと、前記各データにそれぞれ対応した属性情報を格納する第1データベースを検索して、複数の前記データと前記データに対応した前記属性情報を検索情報として取得し、(2)前記絞り込み認識候補に基づいて前記第1データベースを検索して複数の前記データと前記属性情報を絞り込み情報として取得する候補管理機能と、
前記検索情報に含まれる複数の前記データのそれぞれと、前記絞り込み情報に含まれる複数の前記データのそれぞれの間の関連性が高いほど大きい値となる関連度をそれぞれ、前記検索情報に含まれる前記各データの前記属性情報と、前記絞り込み情報に含まれる前記各データの前記属性情報とから算出する関連度算出機能と、
高い値の前記関連度を有する前記検索情報に含まれる一または複数の前記データを出力する出力機能と、
をコンピュータによって実現するための音声検索プログラム。
A voice recognition function for recognizing a search voice and a search voice for a search uttered by a user and a search voice for narrowing down the search;
(1) Based on the search candidates, search a first database that stores a plurality of data and attribute information corresponding to each data, and search the plurality of data and the attribute information corresponding to the data. (2) a candidate management function for searching the first database based on the refinement recognition candidates and obtaining a plurality of the data and the attribute information as refinement information;
Each of the plurality of pieces of data included in the search information and each of the plurality of pieces of data included in the narrowing information includes a degree of relevance that increases as the relevance increases. A relevance calculation function for calculating from the attribute information of each data and the attribute information of each data included in the narrowing-down information;
An output function for outputting one or a plurality of the data included in the search information having the high degree of association;
Voice search program for realizing the above with a computer.
JP2008135424A 2008-05-23 2008-05-23 Method and device for voice search Pending JP2009282835A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008135424A JP2009282835A (en) 2008-05-23 2008-05-23 Method and device for voice search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008135424A JP2009282835A (en) 2008-05-23 2008-05-23 Method and device for voice search

Publications (1)

Publication Number Publication Date
JP2009282835A true JP2009282835A (en) 2009-12-03

Family

ID=41453214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008135424A Pending JP2009282835A (en) 2008-05-23 2008-05-23 Method and device for voice search

Country Status (1)

Country Link
JP (1) JP2009282835A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011074033A1 (en) * 2009-12-16 2011-06-23 三菱電機株式会社 Data processing device
JP2012022070A (en) * 2010-07-13 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, and device and program for the same
JP2016057508A (en) * 2014-09-10 2016-04-21 シャープ株式会社 Voice interactive device, control method and control program for the voice interactive device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011074033A1 (en) * 2009-12-16 2011-06-23 三菱電機株式会社 Data processing device
JP2012022070A (en) * 2010-07-13 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, and device and program for the same
JP2016057508A (en) * 2014-09-10 2016-04-21 シャープ株式会社 Voice interactive device, control method and control program for the voice interactive device

Similar Documents

Publication Publication Date Title
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US10037758B2 (en) Device and method for understanding user intent
JP5334178B2 (en) Speech recognition apparatus and data update method
US20190370398A1 (en) Method and apparatus for searching historical data
CN102549652B (en) Information retrieving apparatus
US9805722B2 (en) Interactive speech recognition system
US8380505B2 (en) System for recognizing speech for searching a database
US20140365221A1 (en) Method and apparatus for speech recognition
JP2008097082A (en) Voice interaction apparatus
JP5274711B2 (en) Voice recognition device
JP5753769B2 (en) Voice data retrieval system and program therefor
JP2002123279A (en) Institution retrieval device and its method
KR20060070605A (en) Using domain dialogue model and language model in intelligent robot speech recognition service device and method
JP2002123290A (en) Speech recognition device and speech recognition method
JP5606951B2 (en) Speech recognition system and search system using the same
JP2014146260A (en) Voice input/output database search method, program and device
JP2018045127A (en) Speech recognition computer program, speech recognition device, and speech recognition method
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP5326549B2 (en) Speech recognition apparatus and method
JP2009282835A (en) Method and device for voice search
JP5378907B2 (en) Spoken dialogue apparatus and spoken dialogue program
JP5201973B2 (en) Voice search device
JP6097776B2 (en) Word selection device, method, and program
JP3663012B2 (en) Voice input device
JP5246512B2 (en) Voice reading system and voice reading terminal