JP6363478B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents

Speech recognition apparatus, speech recognition method, and speech recognition program Download PDF

Info

Publication number
JP6363478B2
JP6363478B2 JP2014236529A JP2014236529A JP6363478B2 JP 6363478 B2 JP6363478 B2 JP 6363478B2 JP 2014236529 A JP2014236529 A JP 2014236529A JP 2014236529 A JP2014236529 A JP 2014236529A JP 6363478 B2 JP6363478 B2 JP 6363478B2
Authority
JP
Japan
Prior art keywords
user
information
user information
voice
date
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014236529A
Other languages
Japanese (ja)
Other versions
JP2016099501A (en
Inventor
麻衣子 井元
麻衣子 井元
丈二 中山
丈二 中山
山田 智広
智広 山田
滋 藤村
滋 藤村
えりか 足利
えりか 足利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014236529A priority Critical patent/JP6363478B2/en
Publication of JP2016099501A publication Critical patent/JP2016099501A/en
Application granted granted Critical
Publication of JP6363478B2 publication Critical patent/JP6363478B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識技術に関する。   The present invention relates to speech recognition technology.

近年、スマートフォンやタブレットのようなモバイル端末向けの音声認識サービスが普及しつつあり、今後、音声認識機能を提供するサービスが拡大することが予測される。   In recent years, voice recognition services for mobile terminals such as smartphones and tablets are becoming widespread, and it is expected that services that provide voice recognition functions will expand in the future.

従来の音声認識技術は、入力された音声を4つのステップでテキスト化する(非特許文献1参照)。第1のステップでは、入力された音声を分析し、音声信号から雑音を除去し、音声認識の手掛かりとなる音響特徴を抽出する。第2のステップでは、各音素の特徴を蓄積した音響モデルを用いて、入力された音声を言葉の最小単位である音素を表す記号に変換する。第3のステップでは、音素列と単語の対応関係を蓄積した認識辞書を用いて音素列を単語に変換する。第4のステップでは、言葉遣いや言い回しを蓄積した言語モデルを用いて、各変換候補に対して妥当性の指標となるスコアを算出する。言語モデルは、単語のつながりのルールを統計値として保持している。音声認識結果として出力される変換候補は、最も妥当な変換候補のみを出力することもあれば、N−Best解といわれる妥当性の高い順のN個の変換候補を出力することもあり、変換候補の出力数は音声認識サービスに依存する。   Conventional speech recognition technology converts input speech into text in four steps (see Non-Patent Document 1). In the first step, input speech is analyzed, noise is removed from the speech signal, and acoustic features that are clues for speech recognition are extracted. In the second step, the input speech is converted into a symbol representing a phoneme, which is the minimum unit of words, using an acoustic model in which the features of each phoneme are accumulated. In the third step, the phoneme string is converted into a word using a recognition dictionary in which the correspondence between the phoneme string and the word is accumulated. In the fourth step, a score serving as a validity index is calculated for each conversion candidate using a language model in which wording and phrases are accumulated. The language model holds a word connection rule as a statistical value. The conversion candidates output as the speech recognition result may output only the most appropriate conversion candidates, or may output N conversion candidates in order of high validity called N-Best solutions. The number of candidate outputs depends on the speech recognition service.

“音声認識ソリューション 認識精度の向上で実用段階に入った音声認識技術”、[online]、2012年10月30日、株式会社インプレス、[2014年9月26日検索]、インターネット〈 URL:http://it.impressbm.co.jp/articles/-/10240/〉"Voice recognition solution: Voice recognition technology that has entered the practical stage with improved recognition accuracy", [online], October 30, 2012, Impress Inc., [searched September 26, 2014], Internet <URL: http: //it.impressbm.co.jp/articles /-/ 10240 />

変換候補の妥当性は、発話時の発話者の置かれた状況や背景(コンテキスト)に依存するが、発話者のコンテキストを考慮しない場合は、適切でない音声認識結果を提示するという問題があった。例えば、「おいしいかきをたべたい」という音声が入力されたときに、「かき」という言葉に対して果物の「柿」と貝類の「牡蠣」のどちらが適切であるかの判別が難しい。   The validity of the conversion candidate depends on the situation and background (context) of the speaker at the time of utterance, but there is a problem that an inappropriate speech recognition result is presented if the context of the speaker is not considered. . For example, when a voice saying “I want to eat delicious oysters” is input, it is difficult to determine which of the words “oysters” is appropriate for the fruit “柿” or the shellfish “oysters”.

本発明は、上記に鑑みてなされたものであり、より適切な音声認識結果を提示することを目的とする。   The present invention has been made in view of the above, and an object thereof is to present a more appropriate speech recognition result.

第1の本発明に係る音声認識装置は、日付または日時と当該日付または当該日時におけるユーザの状況を示す情報とを関連付けたユーザ情報を格納したユーザ情報蓄積手段と、複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段と、前記ユーザの音声を入力して音声認識を実行し、変換候補を得るとともに、前記ユーザが入力した音声入力内容の示す時制を判定する音声認識手段と、前記ユーザ情報蓄積手段から前記音声入力内容の示す時制に対応する前記ユーザ情報を取得して当該ユーザ情報に含まれる単語を抽出するとともに、前記変換候補に含まれる単語を抽出し、それぞれから抽出した単語を含む前記共起頻度情報の共起頻度に基づいて前記変換候補を並べ替える変換候補整列手段と、を有することを特徴とする。 The speech recognition apparatus according to the first aspect of the present invention includes a user information storage unit that stores user information in which a date or date and date and information indicating a user's situation on the date or date and time are associated , a plurality of words, and between the words Co-occurrence frequency storage means storing co-occurrence frequency information including the co-occurrence frequency of the user, voice of the user is input to perform speech recognition, conversion candidates are obtained , and voice input content input by the user is indicated. Voice recognition means for determining tense, and the user information corresponding to the tense indicated by the voice input content is acquired from the user information storage means, and a word included in the user information is extracted, and is included in the conversion candidate Conversion candidate alignment means for extracting words and rearranging the conversion candidates based on the co-occurrence frequency of the co-occurrence frequency information including the word extracted from each And features.

上記音声認識装置において、 前記ユーザ情報は、音声認識結果を除くものであることを特徴とする。 In the above speech recognition apparatus, the user information is one that excludes a speech recognition result .

上記音声認識装置において、前記ユーザ情報は、前記ユーザがサービスに登録または更新した情報であることを特徴とする。 In the voice recognition apparatus, the user information is information registered or updated by the user in a service .

第2の本発明に係る音声認識方法は、コンピュータにより実行される音声認識方法であって、ユーザの音声を入力して音声認識を実行し、変換候補を得るとともに、前記ユーザが入力した音声入力内容の示す時制を判定するステップと、日付または日時と当該日付または当該日時におけるユーザの状況を示す情報とを関連付けたユーザ情報を格納したユーザ情報蓄積手段から、前記音声入力内容の示す時制に対応する前記ユーザ情報を取得し、当該ユーザ情報に含まれる単語を抽出するステップと、前記変換候補に含まれる単語を抽出するステップと、複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段から、前記ユーザ情報と前記変換候補のそれぞれから抽出した単語が含まれる前記共起頻度情報を取得し、当該共起頻度情報の共起頻度に基づいて前記変換候補を並べ替えるステップと、を有することを特徴とする。 A speech recognition method according to a second aspect of the present invention is a speech recognition method executed by a computer, which performs speech recognition by inputting a user's speech, obtains conversion candidates, and inputs the speech input by the user. Corresponding to the tense indicated by the voice input content from the step of determining the tense indicated by the content and the user information storage means storing the user information associating the date or date and the information indicating the user status on the date or the date and time Acquiring the user information, extracting a word included in the user information, extracting a word included in the conversion candidate, and a co-occurrence frequency including a plurality of words and a co-occurrence frequency between the words The co-occurrence frequency information including words extracted from each of the user information and the conversion candidates is acquired from the co-occurrence frequency storage unit storing the information. And having the steps of: rearranging the conversion candidates based on the occurrence frequency of the co-occurrence frequency information.

第3の本発明に係る音声認識プログラムは、上記音声認識装置の各手段としてコンピュータを動作させることを特徴とする。   A speech recognition program according to a third aspect of the present invention is characterized by operating a computer as each means of the speech recognition apparatus.

本発明によれば、より適切な音声認識結果を提示することができる。   According to the present invention, a more appropriate speech recognition result can be presented.

本実施の形態における音声認識システムの構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the speech recognition system in this Embodiment. ユーザ情報データベースが保持するデータの例を示す図である。It is a figure which shows the example of the data which a user information database hold | maintains. コンテキスト情報データベースが保持するデータの例を示す図である。It is a figure which shows the example of the data which a context information database hold | maintains. 本実施の形態における音声認識システムの処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the speech recognition system in this Embodiment. 本実施の形態におけるリランキング実行部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the re-ranking execution part in this Embodiment. リランキング実行部の処理を具体的に説明する図である。It is a figure explaining the process of a reranking execution part concretely.

以下、本発明の実施の形態について図面を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本実施の形態における音声認識システムの構成を示す機能ブロック図である。同図に示す音声認識システムは、クライアント端末1とサーバ3を備える。本音声認識システムは、ユーザが利用するサービスからユーザのコンテキストを推定するためのユーザに関するユーザ情報を取得して格納しておき、ユーザが音声を入力したときに、その音声を認識して変換候補を得た後、得られた変換候補を、ユーザ情報に基づいてユーザのコンテキストにあった適切な順序に並べ替えて提示する音声認識システムである。以下、クライアント端末1とサーバ3について説明する。   FIG. 1 is a functional block diagram showing the configuration of the speech recognition system in the present embodiment. The voice recognition system shown in the figure includes a client terminal 1 and a server 3. This speech recognition system acquires and stores user information related to a user for estimating the user's context from the service used by the user, and recognizes the speech when the user inputs speech, and converts it into a conversion candidate. After obtaining, the obtained conversion candidates are rearranged in an appropriate order suitable for the user's context based on the user information and presented. Hereinafter, the client terminal 1 and the server 3 will be described.

クライアント端末1は、ユーザ情報格納部11、ユーザ情報データベース(DB)12、音声入力部13、情報送信部14、認識結果受信部15、および表示部16を備える。   The client terminal 1 includes a user information storage unit 11, a user information database (DB) 12, a voice input unit 13, an information transmission unit 14, a recognition result reception unit 15, and a display unit 16.

ユーザ情報格納部11は、ユーザが利用するサービスからユーザ情報を取得し、ユーザ情報DB12に格納する。ユーザ情報の例としては、例えば、スケジュール管理サービスから取得できるユーザのスケジュールに関する情報、コメント投稿サービスから取得できるユーザの投稿したコメントに関する情報がある。ユーザ情報を取得する対象のサービスは予め登録して本音声認識システムに連携させておく。ユーザ情報格納部11は、連携させたサービスでユーザ情報が更新されたタイミングで処理を実行し、ユーザ情報DB12に格納されたユーザ情報を随時更新する。例えば、スケジュール管理サービスで新たなスケジュールが追加されたときはレコードを追加してユーザ情報を新規登録し、スケジュールが更新されたときはユーザ情報DB12に格納した情報を書き換える。   The user information storage unit 11 acquires user information from the service used by the user and stores it in the user information DB 12. Examples of user information include, for example, information related to a user's schedule that can be acquired from the schedule management service and information related to a user's posted comment that can be acquired from the comment posting service. The service for which user information is acquired is registered in advance and linked to the voice recognition system. The user information storage unit 11 executes processing at the timing when the user information is updated by the linked service, and updates the user information stored in the user information DB 12 as needed. For example, when a new schedule is added by the schedule management service, a record is added to newly register user information, and when the schedule is updated, information stored in the user information DB 12 is rewritten.

ユーザ情報DB12は、各サービスから取得したユーザ情報を保持する。図2に、ユーザ情報DB12が保持するデータの例を示す。図2の例では、ユーザ情報DB12は、項目カラム、日にちカラム、時間カラムで構成されたレコードを保持している。項目カラムには、ユーザの状況を示す情報が格納される。例えば、連携させるサービスとして、スケジュール管理サービスが設定されているときは、ユーザ情報格納部11は、スケジュール管理サービスに登録されている予定の項目と日時を取得して、ユーザ情報DB12の項目カラム、日にちカラム、時間カラムに格納する。また、連携させるサービスとして、コメント投稿サービスが設定されているときは、ユーザ情報格納部11は、ユーザによってコメント投稿サービスに投稿された投稿内容と日時を取得して、ユーザ情報DB12の項目カラム、日にちカラム、時間カラムに格納する。   The user information DB 12 holds user information acquired from each service. FIG. 2 shows an example of data held in the user information DB 12. In the example of FIG. 2, the user information DB 12 holds records composed of item columns, date columns, and time columns. The item column stores information indicating the user status. For example, when the schedule management service is set as the service to be linked, the user information storage unit 11 acquires the scheduled item and date and time registered in the schedule management service, and the item column of the user information DB 12 Store in date column and time column. When the comment posting service is set as a service to be linked, the user information storage unit 11 acquires the posting content and date / time posted by the user to the comment posting service, and the item column of the user information DB 12 Store in date column and time column.

連携しているサービスからユーザ情報を取得する方法として、例えばOAuthを用いることができる(参考URL http://oauth.net/)。OAuthとは、あるウェブサービスAにおいてユーザが持つリソースとユーザがアクセス権限を持つ各種機能に対し、ユーザの許可を受けた他のウェブサービスBがアクセスするための仕組みである。ユーザがウェブサービスBにウェブサービスAへのアクセスの許可を与えておくことで、ウェブサービスBは許可を与えられた範囲で、ウェブサービスAの提供するAPI(Application Programming Interface)にアクセスできる。   For example, OAuth can be used as a method for acquiring user information from a linked service (reference URL http://oauth.net/). OAuth is a mechanism for another web service B that has received permission from the user to access various resources that the user has in the web service A and various functions to which the user has access authority. When the user grants the web service B permission to access the web service A, the web service B can access an API (Application Programming Interface) provided by the web service A within a given range.

音声入力部13は、音声認識すべきユーザの音声を入力し、入力した音声情報を情報送信部14に送信する。   The voice input unit 13 inputs a user's voice to be voice-recognized and transmits the input voice information to the information transmission unit 14.

情報送信部14は、音声入力部13から音声情報を受信するとともに、音声入力部13に音声が入力された時刻である音声入力時刻に対応するユーザ情報をユーザ情報DB12から取得し、取得したユーザ情報と音声情報をサーバ3に送信する。ユーザ情報を取得するときは、ユーザ情報DB12の日にちカラム、時間カラムが音声入力時刻を含むレコードの項目カラムをユーザ情報として取得する。例えば、図2に示すデータがユーザ情報DB12に格納されており、音声入力時刻が「2014/9/27 18:40」であるとき、情報送信部14は、音声入力時刻を含むレコードの項目カラムに格納されている情報(図2では「家族と広島旅行」)をユーザ情報I={家族と広島旅行}とする。このとき、日にちカラムが音声入力時刻の日にちと同じレコードの項目カラムに格納されている情報(図2では「厳島神社すごい。」)を取得し、ユーザ情報I={家族と広島旅行,厳島神社すごい。}としてもよい。音声入力時刻に対してユーザ情報DB12から取得するレコードのルールは予め設定しておく。 The information transmission unit 14 receives the voice information from the voice input unit 13, acquires user information corresponding to the voice input time that is the time when the voice is input to the voice input unit 13 from the user information DB 12, and acquires the acquired user Information and voice information are transmitted to the server 3. When acquiring the user information, the date column and the time column of the user information DB 12 acquire the item column of the record including the voice input time as the user information. For example, when the data shown in FIG. 2 is stored in the user information DB 12 and the voice input time is “2014/9/27 18:40”, the information transmission unit 14 includes the item column of the record including the voice input time. The user information I u = {Family and Hiroshima trip} in FIG. At this time, the information stored in the item column of the record whose date column is the same as the date of the voice input time (“Itsukushima Shrine is amazing” in FIG. 2) is obtained, and the user information I u = {Family and Hiroshima trip, Itsukushima The shrine is amazing. }. The rule of the record acquired from the user information DB 12 with respect to the voice input time is set in advance.

認識結果受信部15は、サーバ3から音声情報の音声認識結果である変換候補を受信して表示部16に表示させる。   The recognition result receiving unit 15 receives a conversion candidate that is a voice recognition result of the voice information from the server 3 and causes the display unit 16 to display the conversion candidate.

表示部16は、入力した音声の変換候補を所定の位置に表示する。   The display unit 16 displays input speech conversion candidates at predetermined positions.

サーバ3は、情報受信部31、音声認識部32、リランキング実行部33、およびコンテキスト情報DB34を備える。   The server 3 includes an information receiving unit 31, a voice recognition unit 32, a reranking execution unit 33, and a context information DB 34.

情報受信部31は、クライアント端末1から音声情報とユーザ情報を受信し、音声認識部32に送信する。   The information receiving unit 31 receives voice information and user information from the client terminal 1 and transmits them to the voice recognition unit 32.

音声認識部32は、受信した音声情報に対して音声認識を実行して変換候補を得て、得られた変換候補とユーザ情報をリランキング実行部33に送信する。各変換候補には、候補の妥当性を示すスコアが付与される。音声認識の実行には、周知の音声認識技術を用いる。   The voice recognition unit 32 performs voice recognition on the received voice information to obtain conversion candidates, and transmits the obtained conversion candidates and user information to the reranking execution unit 33. Each conversion candidate is given a score indicating the validity of the candidate. A well-known speech recognition technique is used to execute speech recognition.

また、音声認識部32は、音声情報の時制を判定し、判定した時制が「未来」の特定の時間もしくは「過去」の特定の時間である場合は、クライアント端末1のユーザ情報DB12からその時間に対応するユーザ情報を取得してリランキング実行部33に送信する。例えば、音声情報に「明日」や「昨日」などの具体的な未来や過去を示す表現が含まれているときは、その表現が示す日時に対応するユーザ情報をユーザ情報DB12から取得し、取得したユーザ情報をリランキング実行部33に送信する。   In addition, the voice recognition unit 32 determines the tense of the voice information. If the determined tense is a specific time of “future” or a specific time of “past”, the time is read from the user information DB 12 of the client terminal 1. Is acquired and transmitted to the reranking execution unit 33. For example, when the voice information includes an expression indicating a specific future or the past such as “Tomorrow” or “Yesterday”, the user information corresponding to the date and time indicated by the expression is acquired from the user information DB 12 and acquired. The user information is transmitted to the reranking execution unit 33.

リランキング実行部33は、コンテキスト情報DB34に格納された単語の組合せの共起関係に関する情報を参照し、変換候補に含まれる単語とユーザ情報に含まれる単語の共起関係に基づいて変換候補のスコアを再計算する。リランキング実行部33の具体的な処理については後述する。   The reranking execution unit 33 refers to the information on the co-occurrence relationship of the word combinations stored in the context information DB 34, and determines the conversion candidate based on the co-occurrence relationship between the word included in the conversion candidate and the word included in the user information. Recalculate the score. Specific processing of the reranking execution unit 33 will be described later.

コンテキスト情報DB34は、2つの単語の組合せの共起関係に関する情報を保持する。図3に、コンテキスト情報DB34が保持するデータの例を示す。同図の例では、単語1カラム、単語2カラム、共起頻度カラムで構成されたレコードを保持している。例えば、既知の共起頻度計算プログラムN−gram(参考URL http://oscar.gsid.nagoya−u.ac.jp/project/elc/genkou/ngrampaper2/node8.html)、単語共起頻度データベース(参考URL https://alaginrc.nict.go.jp)を用いて2つの単語同士の共起頻度を算出し、その値を共起頻度カラムに格納する。   The context information DB 34 holds information regarding the co-occurrence relationship between two word combinations. FIG. 3 shows an example of data held in the context information DB 34. In the example of the figure, a record composed of a word 1 column, a word 2 column, and a co-occurrence frequency column is held. For example, the known co-occurrence frequency calculation program N-gram (reference URL http://oscar.gsid.nagoya-u.ac.jp/project/elc/genkou/ngrmapper2/node8.html), word co-occurrence frequency database ( The co-occurrence frequency between two words is calculated using the reference URL https://alaginrc.nict.go.jp), and the value is stored in the co-occurrence frequency column.

クライアント端末1、サーバ3が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはクライアント端末1、サーバ3が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。ここでは、各機能をクライアント端末1とサーバ3に分けたが、本システムを一つの装置で実現してもよい。   Each unit included in the client terminal 1 and the server 3 may be configured by a computer including an arithmetic processing device, a storage device, and the like, and the processing of each unit may be executed by a program. This program is stored in a storage device included in the client terminal 1 and the server 3, and can be recorded on a recording medium such as a magnetic disk, an optical disk, or a semiconductor memory, or provided through a network. Here, although each function is divided into the client terminal 1 and the server 3, this system may be implement | achieved by one apparatus.

次に、本実施の形態における音声認識システムの動作について説明する。   Next, the operation of the speech recognition system in this embodiment will be described.

図4は、本実施の形態における音声認識システムの処理の流れを示すフローチャートである。なお、ユーザ情報格納部11は、連携されたサービスからユーザ情報を随時収集してユーザ情報DB12に格納しているとする。   FIG. 4 is a flowchart showing the flow of processing of the speech recognition system in the present embodiment. It is assumed that the user information storage unit 11 collects user information from linked services as needed and stores it in the user information DB 12.

音声入力部13が音声を入力すると、情報送信部14は、音声入力時刻に対応するユーザ情報をユーザ情報DB12から取得し、音声情報とユーザ情報をサーバ3に送信する(ステップS11)。   When the voice input unit 13 inputs a voice, the information transmission unit 14 acquires user information corresponding to the voice input time from the user information DB 12, and transmits the voice information and the user information to the server 3 (step S11).

情報受信部31は、クライアント端末1から受信した音声情報とユーザ情報を音声認識部32に送信し、音声認識部32は、音声情報に対して音声認識を実行して変換候補を得る(ステップS12)。   The information receiving unit 31 transmits the voice information and user information received from the client terminal 1 to the voice recognition unit 32, and the voice recognition unit 32 performs voice recognition on the voice information to obtain conversion candidates (step S12). ).

音声認識部32は、音声認識を実行した結果から時制を判定し(ステップS13)、判定した時制が「未来」又は「過去」の特定の時間である場合は(ステップS14のYES)、その時間に対応するユーザ情報をユーザ情報DB12から取得する(ステップS15)。   The voice recognition unit 32 determines the tense from the result of executing the voice recognition (step S13). If the determined tense is a specific time of “future” or “past” (YES in step S14), the time Is acquired from the user information DB 12 (step S15).

リランキング実行部33は、ユーザ情報に含まれる単語と変換候補に含まれる単語との共起関係をコンテキスト情報DB34から検索し、その共起関係に基づいて変換候補のスコアを再計算し、再計算したスコアに基づいて変換候補をリランキングする(ステップS16)。クライアント端末1は、スコアの高い順にリランキングした変換候補をユーザに提示する。   The reranking execution unit 33 searches the context information DB 34 for a co-occurrence relationship between the word included in the user information and the word included in the conversion candidate, recalculates the conversion candidate score based on the co-occurrence relationship, The conversion candidates are reranked based on the calculated score (step S16). The client terminal 1 presents the conversion candidates reranked in descending order of score to the user.

次に、変換候補のリランキングの処理の流れについて説明する。   Next, the flow of the conversion candidate reranking process will be described.

図5は、本実施の形態におけるリランキング実行部33の処理の流れを示すフローチャートである。図6は、図5の処理を具体的に説明するための図である。リランキング実行部33は、音声認識部32から変換候補Rとユーザ情報Iを受信すると以下の処理を実行する。図6に示すように、音声認識部32が音声認識を実行した結果である変換候補Rにはスコアが付与されている。 FIG. 5 is a flowchart showing the flow of processing of the reranking execution unit 33 in the present embodiment. FIG. 6 is a diagram for specifically explaining the processing of FIG. 5. Reranking execution unit 33 executes the following process upon reception of conversion candidates R 1 and the user information I u from the voice recognition unit 32. As shown in FIG. 6, a score is assigned to the conversion candidate R 1 that is the result of the voice recognition unit 32 executing voice recognition.

リランキング実行部33は、ユーザ情報Iを形態素解析して名詞Nを抽出する(ステップS21)。例えば、ユーザ情報I={家族と広島旅行,厳島神社すごい}のときは、N={家族,広島,旅行,厳島,神社}が抽出される。形態素解析には、例えば、既知の形態素解析エンジンであるMeCabを用いることができる(参考URL https://code.google.com/p/mecab/)。 Reranking execution unit 33 extracts a noun N user information I u to morphological analysis (step S21). For example, when user information I u = {family and Hiroshima trip, Itsukushima Shrine is amazing}, N = {family, Hiroshima, trip, Itsukushima, shrine} is extracted. For example, MeCab, which is a known morphological analysis engine, can be used for the morphological analysis (reference URL https://code.google.com/p/mecab/).

リランキング実行部33は、ステップS21で抽出した名詞Nそれぞれに対して、その名詞がコンテキスト情報DB34の単語1カラムもしくは単語2カラムに格納されているレコードを検索し、単語の共起頻度の組Sを取得する(ステップS22)。例えば、N={家族,広島,旅行,厳島,神社}でコンテキスト情報DB34に図3に示すデータが格納されているときは、図6に示すように、リランキング実行部33は単語の共起頻度の組S={[広島,柿,2],[広島,牡蠣,5]}を取得する。   For each of the nouns N extracted in step S21, the reranking execution unit 33 searches for records in which the nouns are stored in the word 1 column or the word 2 column of the context information DB 34, and sets the word co-occurrence frequencies. S is acquired (step S22). For example, when N = {family, Hiroshima, travel, Itsukushima, shrine} and the data shown in FIG. 3 is stored in the context information DB 34, as shown in FIG. A set of frequencies S = {[Hiroshima, 柿, 2], [Hiroshima, oyster, 5]} is acquired.

リランキング実行部33は、変換候補Rそれぞれのスコアを再計算する(ステップS23)。具体的には、例えば、ステップS22で取得した単語の共起頻度の組Sの中から、変換候補Rのn番目の変換候補R(n)に含まれる名詞を含む単語の共起頻度の組S’を抽出する。そして、スコアrescore(R(n))を次式(1)で算出する。 Reranking execution unit 33 recalculates the conversion candidate R 1 each score (step S23). Specifically, for example, the co-occurrence frequency of words including nouns included in the n-th conversion candidate R 1 (n) of the conversion candidate R 1 from the set S of word co-occurrence frequencies acquired in step S22. A set S ′ is extracted. Then, the score rescore (R 1 (n)) is calculated by the following equation (1).

Figure 0006363478
ここで、S’(i)は、i番目の単語の共起頻度の組S’の共起頻度カラムに格納されている数値を表し、mは単語の共起頻度の組S’の要素の数を表す。また、α>0である。
Figure 0006363478
Here, S ′ (i) represents a numerical value stored in the co-occurrence frequency column of the co-occurrence frequency set S ′ of the i-th word, and m is an element of the co-occurrence frequency set S ′ of the word Represents a number. Also, α> 0.

リランキング実行部33は、ステップ23で算出したスコアrescore(R(n))の降順に変換候補Rを並び替えて変換候補Rを生成する(ステップS24)。図6に示す例では、変換候補Rが変換候補Rのように並べ替えられてクライアント端末1に送信される。 The reranking execution unit 33 rearranges the conversion candidates R 1 in descending order of the score rescore (R 1 (n)) calculated in step 23 to generate a conversion candidate R 2 (step S 24). In the example illustrated in FIG. 6, the conversion candidate R 1 is rearranged like the conversion candidate R 2 and transmitted to the client terminal 1.

以上説明したように、本実施の形態によれば、ユーザ情報格納部11が、ユーザの利用するサービスからユーザの状況を示すユーザ情報を取得してユーザ情報DB12に格納しておき、音声入力部13がユーザの音声を入力したときに情報送信部14が音声入力時刻に対応するユーザ情報を取得し、リランキング実行部33がユーザ情報に含まれる単語を抽出するとともに、2つの単語の組合せの共起関係に関する情報を格納したコンテキスト情報DB34からリランキング実行部33が抽出した単語を含む単語の共起頻度の組Sを検索し、単語の共起頻度の組Sの中から音声認識部32の音声認識結果である変換候補それぞれに含まれる単語を含む単語の共起頻度の組S’を抽出し、その共起頻度に基づいて変換候補を並べ替えることにより、ユーザのコンテキストを考慮した、より適切な音声認識結果を提示することが可能となる。   As described above, according to the present embodiment, the user information storage unit 11 acquires user information indicating the user status from the service used by the user, stores the user information in the user information DB 12, and stores the user information in the voice input unit. When 13 inputs a user's voice, the information transmission unit 14 acquires user information corresponding to the voice input time, the reranking execution unit 33 extracts a word included in the user information, and the combination of two words A set S of word co-occurrence frequencies including the word extracted by the reranking execution unit 33 is retrieved from the context information DB 34 storing information related to the co-occurrence relationship, and the speech recognition unit 32 is searched from the set S of word co-occurrence frequencies. By extracting a set S ′ of co-occurrence frequencies of words including words included in each of the conversion candidates that are the speech recognition results, and rearranging the conversion candidates based on the co-occurrence frequencies , Considering the context of the user, it is possible to present more appropriate speech recognition result.

本実施の形態によれば、音声認識部32がユーザの音声が示す特定の時間を判定し、リランキング実行部33が特定の時間に対応するユーザ情報を取得することにより、ユーザの音声の示す時間に対応するコンテキストに基づいて、より適切な音声認識結果を提示することが可能となる。   According to the present embodiment, the voice recognition unit 32 determines a specific time indicated by the user's voice, and the reranking execution unit 33 acquires user information corresponding to the specific time, thereby indicating the user's voice. Based on the context corresponding to time, it is possible to present a more appropriate speech recognition result.

1…クライアント端末
11…ユーザ情報格納部
12…ユーザ情報DB
13…音声入力部
14…情報送信部
15…認識結果受信部
16…表示部
3…サーバ
31…情報受信部
32…音声認識部
33…リランキング実行部
34…コンテキスト情報DB
DESCRIPTION OF SYMBOLS 1 ... Client terminal 11 ... User information storage part 12 ... User information DB
DESCRIPTION OF SYMBOLS 13 ... Voice input part 14 ... Information transmission part 15 ... Recognition result receiving part 16 ... Display part 3 ... Server 31 ... Information receiving part 32 ... Voice recognition part 33 ... Reranking execution part 34 ... Context information DB

Claims (7)

日付または日時と当該日付または当該日時におけるユーザの状況を示す情報とを関連付けたユーザ情報を格納したユーザ情報蓄積手段と、
複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段と、
前記ユーザの音声を入力して音声認識を実行し、変換候補を得るとともに、前記ユーザが入力した音声入力内容の示す時制を判定する音声認識手段と、
前記ユーザ情報蓄積手段から前記音声入力内容の示す時制に対応する前記ユーザ情報を取得して当該ユーザ情報に含まれる単語を抽出するとともに、前記変換候補に含まれる単語を抽出し、それぞれから抽出した単語を含む前記共起頻度情報の共起頻度に基づいて前記変換候補を並べ替える変換候補整列手段と、
を有することを特徴とする音声認識装置。
User information accumulating means for storing user information in which date or date and date and information indicating the status of the user at the date or date and time are associated ;
Co-occurrence frequency accumulating means storing co-occurrence frequency information including a plurality of words and the co-occurrence frequency between the words;
Voice recognition means for performing voice recognition by inputting the user's voice, obtaining conversion candidates, and determining the tense indicated by the voice input content input by the user ;
The user information corresponding to the tense indicated by the voice input content is acquired from the user information storage means, and the words included in the user information are extracted, and the words included in the conversion candidates are extracted and extracted from each. Conversion candidate alignment means for rearranging the conversion candidates based on the co-occurrence frequency of the co-occurrence frequency information including a word;
A speech recognition apparatus comprising:
前記ユーザ情報は、音声認識結果を除くものであることを特徴とする請求項1に記載の音声認識装置。The voice recognition apparatus according to claim 1, wherein the user information excludes a voice recognition result. 前記ユーザ情報は、前記ユーザがサービスに登録または更新した情報であることを特徴とする請求項1又は2に記載の音声認識装置。The voice recognition apparatus according to claim 1, wherein the user information is information registered or updated by the user in a service. コンピュータにより実行される音声認識方法であって、
ユーザの音声を入力して音声認識を実行し、変換候補を得るとともに、前記ユーザが入力した音声入力内容の示す時制を判定するステップと、
日付または日時と当該日付または当該日時におけるユーザの状況を示す情報とを関連付けたユーザ情報を格納したユーザ情報蓄積手段から、前記音声入力内容の示す時制に対応する前記ユーザ情報を取得し、当該ユーザ情報に含まれる単語を抽出するステップと、
前記変換候補に含まれる単語を抽出するステップと、
複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段から、前記ユーザ情報と前記変換候補のそれぞれから抽出した単語が含まれる前記共起頻度情報を取得し、当該共起頻度情報の共起頻度に基づいて前記変換候補を並べ替えるステップと、
を有することを特徴とする音声認識方法。
A speech recognition method executed by a computer,
Inputting a user's voice to perform voice recognition, obtaining conversion candidates, and determining a tense indicated by the voice input content input by the user ;
The user information corresponding to the tense indicated by the voice input content is acquired from user information storage means storing user information in which date or date and information indicating the user status on the date or date are stored, and the user Extracting words contained in the information;
Extracting words included in the conversion candidates;
The co-occurrence frequency information including words extracted from each of the user information and the conversion candidate is acquired from a co-occurrence frequency storage unit storing co-occurrence frequency information including a plurality of words and co-occurrence frequencies between the words. Rearranging the conversion candidates based on the co-occurrence frequency of the co-occurrence frequency information;
A speech recognition method comprising:
前記ユーザ情報は、音声認識結果を除くものであることを特徴とする請求項4に記載の音声認識方法。The voice recognition method according to claim 4, wherein the user information excludes a voice recognition result. 前記ユーザ情報は、前記ユーザがサービスに登録または更新した情報であることを特徴とする請求項4又は5に記載の音声認識方法。6. The voice recognition method according to claim 4, wherein the user information is information registered or updated by the user in a service. 請求項1乃至3のいずれかに記載の音声認識装置の各手段としてコンピュータを動作させることを特徴とする音声認識プログラム。   A speech recognition program for operating a computer as each means of the speech recognition apparatus according to claim 1.
JP2014236529A 2014-11-21 2014-11-21 Speech recognition apparatus, speech recognition method, and speech recognition program Active JP6363478B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014236529A JP6363478B2 (en) 2014-11-21 2014-11-21 Speech recognition apparatus, speech recognition method, and speech recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014236529A JP6363478B2 (en) 2014-11-21 2014-11-21 Speech recognition apparatus, speech recognition method, and speech recognition program

Publications (2)

Publication Number Publication Date
JP2016099501A JP2016099501A (en) 2016-05-30
JP6363478B2 true JP6363478B2 (en) 2018-07-25

Family

ID=56077793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014236529A Active JP6363478B2 (en) 2014-11-21 2014-11-21 Speech recognition apparatus, speech recognition method, and speech recognition program

Country Status (1)

Country Link
JP (1) JP6363478B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017206739A (en) 2016-05-18 2017-11-24 住友電気工業株式会社 Aluminum alloy and method for producing aluminum alloy
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
JP6866731B2 (en) * 2017-03-31 2021-04-28 大日本印刷株式会社 Speech recognition device, speech recognition method, and program
KR20220111574A (en) 2021-02-02 2022-08-09 삼성전자주식회사 Electronic apparatus and controlling method thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007187975A (en) * 2006-01-16 2007-07-26 Nissan Motor Co Ltd Voice recognition apparatus and voice recognition method
JP2011203434A (en) * 2010-03-25 2011-10-13 Fujitsu Ltd Voice recognition device and voice recognition method
JP5772585B2 (en) * 2011-12-28 2015-09-02 トヨタ自動車株式会社 Speech recognition apparatus, method, and program

Also Published As

Publication number Publication date
JP2016099501A (en) 2016-05-30

Similar Documents

Publication Publication Date Title
US10083690B2 (en) Better resolution when referencing to concepts
US20190311709A1 (en) Computerized system and method for formatted transcription of multimedia content
US20160188292A1 (en) System and method for interpreting natural language inputs based on storage of the inputs
JP6007088B2 (en) Question answering program, server and method using a large amount of comment text
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
US20180232752A1 (en) Administering a digital survey over voice-capable devices
US8682661B1 (en) Robust speech recognition
US11762926B2 (en) Recommending web API&#39;s and associated endpoints
US20110314003A1 (en) Template concatenation for capturing multiple concepts in a voice query
JP4722195B2 (en) Database message analysis support program, method and apparatus
JP6363478B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
US20220027563A1 (en) Encoder with double decoder machine learning models
WO2012165529A1 (en) Language model construction support device, method and program
JP5068225B2 (en) Audio file search system, method and program
JP2020521246A (en) Automated classification of network accessible content
JPWO2018173943A1 (en) Data structuring device, data structuring method and program
JP6347939B2 (en) Utterance key word extraction device, key word extraction system using the device, method and program thereof
JP2015084047A (en) Text set creation device, text set creating method and text set create program
JP6115487B2 (en) Information collecting method, dialogue system, and information collecting apparatus
JP5547030B2 (en) Information analysis apparatus, method and program
JP2010257085A (en) Retrieval device, retrieval method, and retrieval program
JP2006209173A (en) Modification structure analyzing device and computer program
WO2018190128A1 (en) Information processing device and information processing method
KR102422844B1 (en) Method of managing language risk of video content based on artificial intelligence

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180628

R150 Certificate of patent or registration of utility model

Ref document number: 6363478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150