JP2009075582A - Terminal device, language model creation device, and distributed speech recognition system - Google Patents
Terminal device, language model creation device, and distributed speech recognition system Download PDFInfo
- Publication number
- JP2009075582A JP2009075582A JP2008219820A JP2008219820A JP2009075582A JP 2009075582 A JP2009075582 A JP 2009075582A JP 2008219820 A JP2008219820 A JP 2008219820A JP 2008219820 A JP2008219820 A JP 2008219820A JP 2009075582 A JP2009075582 A JP 2009075582A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- model creation
- speech recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、メール送信を行うとともに言語モデルを用いて音声認識を行う音声認識装置に音声データを送信する端末装置と、言語モデルを作成する言語モデル作成装置と、これらの装置を用いた分散型音声認識システムとに関する。 The present invention relates to a terminal device that transmits voice data to a speech recognition device that performs voice recognition and performs speech recognition using a language model, a language model creation device that creates a language model, and a distributed type using these devices The present invention relates to a speech recognition system.
近年、携帯電話機などの各種端末装置において、キースイッチを用いた文字入力ではなく、マイクロフォンを用いた音声入力によって文字列を作成することが行われている(例えば特許文献1および特許文献2参照)。 In recent years, in various terminal devices such as mobile phones, character strings are created by voice input using a microphone instead of character input using a key switch (see, for example, Patent Document 1 and Patent Document 2). .
特許文献1および特許文献2記載の技術では、ネットワーク上に、音声認識により音声データを文章化する音声認識装置を配置する。端末装置は、音声データを音声認識装置に送信する。音声認識装置は、音響モデル、辞書、および言語モデルを含む音声認識データベースを参照して音声データから文字列を作成し、端末装置に返信する。これにより、端末装置では、メール本文などの文字列を簡単に作成することが可能となる。 In the techniques described in Patent Document 1 and Patent Document 2, a speech recognition device that converts speech data into text by speech recognition is arranged on a network. The terminal device transmits voice data to the voice recognition device. The voice recognition device creates a character string from the voice data by referring to a voice recognition database including an acoustic model, a dictionary, and a language model, and returns the character string to the terminal device. As a result, the terminal device can easily create a character string such as a mail text.
また、特許文献1および特許文献2には、音声認識データベースを更新する技術が記載されている。 Patent Documents 1 and 2 describe techniques for updating a speech recognition database.
特許文献1および特許文献2記載の技術では、音声認識装置は、音声認識データベースの辞書を参照して、端末装置から受信した音声データを文字列に変換し、端末装置に返信する。端末装置は、音声認識装置により作成された文字列に対するユーザ修正を受け付け、修正された文字列を音声認識装置に送信する。音声認識装置は、受信した文字列をメール本文とするメールを作成して送信するとともに、修正部分に基づいて音声認識データベースの辞書を修正する。これにより、読み仮名に対する単語表記の認識精度を向上させることができる。 In the techniques described in Patent Literature 1 and Patent Literature 2, the speech recognition device refers to the dictionary of the speech recognition database, converts speech data received from the terminal device into a character string, and returns the character string to the terminal device. The terminal device accepts user correction for the character string created by the voice recognition device, and transmits the corrected character string to the voice recognition device. The voice recognition device creates and transmits a mail having the received character string as a mail text, and corrects the dictionary of the voice recognition database based on the correction portion. Thereby, the recognition accuracy of the word notation with respect to the reading kana can be improved.
更に、特許文献1および特許文献2には、ユーザ別に辞書を作成する技術が記載されている。 Furthermore, Patent Literature 1 and Patent Literature 2 describe a technique for creating a dictionary for each user.
特許文献1および特許文献2記載の技術では、端末装置は、音声データおよび文字列を、発信者番号と対応付けて音声認識装置に送信する。音声認識装置は、発信者電話番号に対応付けた複数の辞書を作成する。そして、音声認識装置は、音声データの送信元の発信者電話番号に対応する辞書を用いて音声認識を行うとともに、文字列の送信元の発信者電話番号に対応する辞書を修正する。これにより、ユーザ属性ごとに異なる単語表記の傾向を反映したユーザ別の辞書を作成することができ、音声認識の精度を向上させることができる。
ところで、音声認識データベースに含まれる言語モデルは、通常、学習対象として用意された文字列に対して、所定の統計情報処理を行うことにより作成される。言語モデルは、辞書に記述された各単語について、出現確率や接続確率をデータ化したものである。 By the way, the language model included in the speech recognition database is usually created by performing predetermined statistical information processing on a character string prepared as a learning target. The language model is obtained by converting the appearance probability and connection probability into data for each word described in the dictionary.
文脈の特徴はユーザごとに異なるため、各単語の出現確率や接続確率もユーザごとに異なる。したがって、音声認識の精度の向上を図るには、このような違いを考慮して音声認識を行うことが望ましい。 Since context features differ from user to user, the appearance probability and connection probability of each word also vary from user to user. Therefore, in order to improve the accuracy of speech recognition, it is desirable to perform speech recognition in consideration of such differences.
ところが、特許文献1および特許文献2記載の技術では、文字列に対する修正部分から辞書を修正するのみであるため、ユーザごとの文脈の違いを考慮して言語モデルを作成することはできない。すなわち、特許文献1および特許文献2記載の技術では、文脈に依存して異なる表記についての音声認識の精度を向上させることは困難である。 However, with the techniques described in Patent Document 1 and Patent Document 2, since the dictionary is only corrected from the corrected portion of the character string, a language model cannot be created in consideration of the difference in context for each user. That is, with the techniques described in Patent Literature 1 and Patent Literature 2, it is difficult to improve the accuracy of speech recognition for different notations depending on the context.
そこで、特許文献1および特許文献2の音声認識装置で、端末装置から送られてきた文字列を利用して、ユーザ別の言語モデルを作成することが考えられる。これにより、言語モデルを作成するのに十分な量の文字列を、各ユーザから容易に取得することが可能となる。 Therefore, it is conceivable to create a language model for each user using the character strings sent from the terminal device in the speech recognition devices of Patent Literature 1 and Patent Literature 2. Thereby, it is possible to easily obtain a sufficient amount of character strings from each user to create a language model.
しかしながら、特許文献1および特許文献2記載の技術を用いた場合、メールサーバに音声認識装置を設けるなど、送信メールの経路上に音声認識装置が位置するようなシステム構成としなければならず、既存のシステムへの適用が困難である。すなわち、システム構築にコストや手間が掛かることから、文脈に依存して異なる表記についての音声認識の精度を向上させることは難しい。 However, when the techniques described in Patent Literature 1 and Patent Literature 2 are used, a system configuration in which the voice recognition device is positioned on the route of the outgoing mail, such as providing a voice recognition device in the mail server, is required. It is difficult to apply to the system. In other words, since it takes time and effort to construct a system, it is difficult to improve the accuracy of speech recognition for different notations depending on the context.
本発明は、かかる点に鑑みてなされたものであり、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムを提供することを目的とする。 The present invention has been made in view of such points, and a terminal device, a language model creation device, and a distributed speech recognition system that can easily improve the accuracy of speech recognition for different notations depending on the context. The purpose is to provide.
本発明の端末装置は、音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信手段と、通常の送信メールのメール本文を、言語モデル作成用メールとして、前記言語モデルを作成する言語モデル作成装置に送信するメール送信手段とを有する構成を採る。 The terminal device according to the present invention includes voice data transmitting means for transmitting voice data to a voice recognition device that performs voice recognition processing using a language model, and a mail text of a normal outgoing mail as a language model creation mail, A configuration having a mail transmitting means for transmitting to a language model creating apparatus for creating a language model is adopted.
本発明の言語モデル作成装置は、端末装置から受信した言語モデル作成用メールを用いて、音声認識処理に用いる言語モデルを作成する言語モデル作成装置であって、ID情報とメール本文とを含む前記言語モデル作成用メールを受信するメール受信手段と、受信した前記言語モデル作成用メールから、メール本文とID情報とを抽出するメール処理手段と、抽出した前記メール本文を学習し、前記ID情報毎に前記言語モデルを作成する言語モデル作成手段とを有する構成を採る。 The language model creation device of the present invention is a language model creation device that creates a language model used for speech recognition processing using a language model creation mail received from a terminal device, and includes the ID information and a mail text. Mail receiving means for receiving language model creation mail, mail processing means for extracting mail text and ID information from the received language model creation mail, learning the extracted mail text, and for each ID information And a language model creating means for creating the language model.
本発明の分散型音声認識システムは、言語モデルを用いて音声データに対する音声認識処理を行う音声認識装置と、前記音声認識装置に音声データを送信する端末装置と、文字列の学習により前記言語モデルを作成する言語モデル作成装置と、を具備する分散型音声認識システムであって、前記端末装置は、通常の送信メールの宛先を編集して言語モデル作成用メールを生成し、前記言語モデル作成装置に送信し、前記言語モデル作成装置は、受信した前記言語モデル作成用メールのメール本文を学習して前記言語モデルを作成し、前記音声認識装置は、前記端末装置から受信した前記音声データに対し、前記言語モデルを用いて音声認識処理を行う構成を採る。 The distributed speech recognition system of the present invention includes a speech recognition device that performs speech recognition processing on speech data using a language model, a terminal device that transmits speech data to the speech recognition device, and the language model by learning a character string. A distributed speech recognition system comprising: a language model creation device that creates a language model creation email by editing a destination of a normal transmission email, and the language model creation device The language model creation device learns the received mail body of the language model creation email to create the language model, and the speech recognition device applies the speech data received from the terminal device to the speech data The speech recognition process is performed using the language model.
本発明によれば、メールにより送信メールのメール本文を収集するので、既存のシステムに変更を加えることなく、ユーザ別の言語モデルを作成するのに十分な量の文字列を各ユーザから収集することができる。これにより、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる。 According to the present invention, since the mail body of the outgoing mail is collected by mail, a sufficient amount of character strings for creating a language model for each user is collected from each user without changing the existing system. be able to. Thereby, the accuracy of speech recognition for different notations depending on the context can be easily improved.
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(実施の形態1)
図1は、本発明の実施の形態1に係る分散型音声認識システムとしての音声認識システムの構成の一例を示すシステム構成図である。本実施の形態は、本発明を、音声認識を用いて携帯電話機でメール本文を作成するシステムに適用した例である。
(Embodiment 1)
FIG. 1 is a system configuration diagram showing an example of a configuration of a speech recognition system as a distributed speech recognition system according to Embodiment 1 of the present invention. The present embodiment is an example in which the present invention is applied to a system for creating a mail text on a mobile phone using voice recognition.
図1において、音声認識システム100は、携帯電話機200−1〜200−M、メールサーバ300、および音声認識サーバ400を有する。これらの装置は、無線または有線により通信網500に接続されている。携帯電話機200−1〜200−Mは、同一の構成を有し、本発明の端末装置を含むものである。また、音声認識サーバ400は、本発明の言語モデル作成装置と、音声認識データベースとを含むものである。
In FIG. 1, the
携帯電話機200は、携帯電話機能およびメール送受信機能を有し、更に、音声認識サーバ400を利用して音声入力によりメール本文の作成を行う音声入力機能を有している。具体的には、携帯電話機200は、入力音声の特徴を示す音声データを、自装置のID(identifier)情報と対応付けて音声認識サーバ400に送信する。そして、携帯電話機200は、音声認識サーバ400による音声認識の結果である文字列のデータ(以下「テキストデータ」という)を受信する。携帯電話機200は、このようにして音声入力機能により作成したメール本文を、メールサーバ300を介して、任意の宛先にメールで送信する。
The
また、携帯電話機200は、メールを送信するごとに、その送信メールのメール本文の文字列を、自装置のID情報と対応付けて、メールにより音声認識サーバ400に送信する。このメール本文は、音声認識サーバ400において、携帯電話機200のユーザ別の言語モデル(以下「ユーザ別言語モデル」という)を作成するのに用いられる。
In addition, each time the
メールサーバ300は、携帯電話機200のメールの送受信を管理する。
The
音声認識サーバ400は、音声認識データベースを有し、この音声認識データベースに基づいて、所定の音声認識処理を行う。音声認識サーバ400は、音声データを、携帯電話機200のID情報と対応付けて受信し、対応するユーザ別言語モデルが存在する場合には、そのユーザ別言語モデルを用いて音声認識処理を行う。そして、音声認識サーバ400は、音声認識の結果として作成したテキストデータを、音声データの送信元に返信する。
The
また、音声認識サーバ400は、携帯電話機200から、メールにより、携帯電話機200のID情報と対応付けて送られてきた文字列を受信する。そして、音声認識サーバ400は、受信した文字列を学習し、携帯電話機200のID情報に対応付けたユーザ別言語モデルを作成する。
The
通信網500は、例えば、インターネットである。携帯電話機200、メールサーバ300、および音声認識サーバ400は、TCP/IP(transmission control protocol)などの通信プロトコルを用いて、通信網500を介して互いに通信を行う。また、携帯電話機200、メールサーバ300、および音声認識サーバ400は、SMTP(simple mail transfer protocol)やPOP3(post office protocol version 3)を用いて、メールの送受信を行う。
The
このような音声認識システム100によれば、携帯電話機200からメールが送信されるごとに、送信メールのメール本文と同一内容の文字列が、メールにより音声認識サーバ400に送信される。この結果、携帯電話機200のユーザにより作成されたメール本文と同一の文字列が、音声認識サーバ400に自動的に送信される。すなわち、ユーザに特別な意識や操作をさせることなく、また、煩雑な処理を伴うことなく、ユーザ別言語モデルの作成に十分な量のテキストデータを、音声認識サーバ400に収集することができる。また、ユーザが音声認識の機能を使用してメール本文を作成するに従って、次第にユーザ固有のメール本文の特徴を文脈情報と共に学習し、音声認識精度を向上させることができる。
According to such a
次に、携帯電話機200の構成について説明する。
Next, the configuration of the
図2は、携帯電話機200の構成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of the
図2に示すように、携帯電話機200は、ID記憶部201、無線部202、アンテナ部203、操作部204、メール処理部205、マイクロフォン206、特徴量抽出部207、音声データ送信部208、テキストデータ受信部209、ディスプレイ210、スピーカ211、および制御部212を有する。メール処理部205は、BCC(blind carbon copy)生成部213を有する。
As shown in FIG. 2, the
ID記憶部201は、携帯電話機200に固有のID情報を記憶する。ID記憶部201は、例えば、多くの携帯電話機200に搭載されているSIM(subscriber identity module)である。この場合のID情報は、例えば、加入者識別番号(IMSI:international mobile subscriber identity)や、SIMに割り当てられた識別番号(SIMNO)である。
The
無線部202は、アンテナ部203を介して、通信網500に配置された無線基地局(図示せず)と無線通信を行い、通信網500に接続する。
The
操作部204は、キースイッチ(図示せず)を備え、文字入力操作や、音声認識によるメール作成の開始の指示操作を含む各種のユーザ操作を受け付ける。
The
メール処理部205は、ユーザの文字入力操作、および音声認識サーバ400から受信されたテキストデータに基づいて、メール本文を作成する。そして、メール処理部205は、作成したメール本文を、任意のメールアドレスを宛先に指定して、無線部202を介してメールサーバ300に送信する。
The
BCC生成部213は、メールが送信されるごとに、その送信メールのメール本文と同一の文字列を、ID記憶部201に記憶されたID情報と対応付けて、メールにより音声認識サーバ400に送信する。具体的には、BCC生成部213は、BCCの機能を用いて、送信メールのメール本文の宛先に音声認識サーバ400を追加し、送信メールのコピーメールを、音声認識サーバ400に送信する。
Each time a mail is transmitted, the
マイクロフォン206は、ユーザの発話音声を含む音声を入力し、音声信号に変換する。
The
特徴量抽出部207は、マイクロフォン206から出力される音声信号を分析し、音声認識サーバ400での音声認識で用いられる特徴量を抽出する。具体的には、特徴量抽出部207は、音声信号に対してフレーム処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、ケプストラムパラメータなどの音声特徴量(以下単に「特徴量」という)を抽出する。そして、特徴量抽出部207は、解析結果からユーザの音声が含まれている音声区間を検出し、音声区間の特徴量のみによる時系列データを生成する。
The feature
音声データ送信部208は、音声認識によるメール本文の作成が開始されると、無線部202を介して、音声認識サーバ400との間で音声データおよびテキストデータを送受信するためのセッションを確立し、ID記憶部201に記憶されたID情報を音声認識サーバ400に送信する。そして、音声データ送信部208は、特徴量抽出部207から出力される音声データをパケット化し、音声認識サーバ400に送信する。
The voice
テキストデータ受信部209は、音声データに対する音声認識結果として音声認識サーバ400から返信されるテキストデータを、無線部202を介して受信する。
The text
ディスプレイ210は、ユーザによる文字入力操作、および音声認識サーバ400から受信したテキストデータに基づいて、テキスト文書をメール本文の候補として表示する。また、ディスプレイ210は、携帯電話機200の操作に関する各種情報を表示する。
The
スピーカ211は、例えば、携帯電話機能において相手先から送られてくる音声データを音声出力する。
The
制御部212は、CPU(central processing unit)、制御プログラムを格納したROM(read only memory)などの記憶媒体、RAM(random access memory)などの作業用メモリなどを含んで構成され、携帯電話機200の各部を制御する。また、携帯電話機200の各部は、例えば、ASIC(application specific integrated circuit)や、通信回路を含んで構成される。
The
次に、音声認識サーバ400の構成について説明する。
Next, the configuration of the
図3は、音声認識サーバ400の構成を示すブロック図である。
FIG. 3 is a block diagram showing a configuration of the
図3に示すように、音声認識サーバ400は、ネットワークインタフェース(I/F:interface)部410、ユーザ別言語モデル作成部420、音声認識データベース(DB:database)430、および音声認識部440を有する。
As illustrated in FIG. 3, the
ネットワークインタフェース部410は、通信網500に有線接続する。
The
ユーザ別言語モデル作成部420は、携帯電話機200からメールサーバ300経由で送られてきた、携帯電話機200のID情報と対応付けられた文字列を、ネットワークインタフェース部410を介して受信する。そして、ユーザ別言語モデル作成部420は、受信した文字列を解析し、ID情報に対応付けてユーザ別言語モデルを作成して、音声認識データベース430を更新する。このユーザ別言語モデル作成部420は、メール受信部421、データベース(DB)切換部422、および言語モデル作成部423を有する。メール受信部421は、文書抽出部424およびID抽出部425を有する。
The user-specific language
メール受信部421は、自装置宛のメールを受信する。具体的には、メール受信部421は、メールサーバ300から、音声認識サーバ400のドメイン名を宛先とするメールを取得する。
The
文書抽出部424は、受信メールのメール本文を学習対象の文字列として抽出し、言語モデル作成部423に出力する。
The
言語モデル作成部423は、メール受信部421で抽出されたメール本文に対して所定の統計情報処理を行い、ユーザ別言語モデルを作成する。具体的には、既に存在するユーザ別言語モデルが処理の対象である場合には、新たに受信したメール本文の統計情報処理結果に応じて言語モデルを作成し、ユーザ別言語モデル434を修正する。また、新たなユーザ別言語モデルを作成する場合には、作成した言語モデルを、基となる受信メールから抽出されたID情報に対応付けて、ユーザ別言語モデル434に登録する。
The language
一方、ID抽出部425は、受信メールに対応付けられた、送信元の携帯電話機200のID情報を抽出し、データベース切換部422に出力する。具体的には、ID抽出部425は、受信メールの宛先アドレスのアカウント名から、送信元のID情報を抽出する。携帯電話機200が音声認識サーバ400にメールを送信する際の宛先アドレスの構成については後述する。
On the other hand, the
データベース切換部422は、言語モデル作成部423による登録処理および更新処理の対象となるユーザ別言語モデルを切り換える。具体的には、データベース切換部422は、音声認識データベース430から、ID抽出部425が受信メールから抽出したID情報に対応するユーザ別言語モデルを、言語モデル作成部423の処理対象として選択する。
The
ここで、言語モデルについて説明する。言語モデルは、学習対象の文字列における文脈のパターンを、関連語彙数によりモデル化したものであり、トライグラムモデル、バイグラムモデル、およびユニグラムなどのNグラムモデルを含む。 Here, the language model will be described. The language model is obtained by modeling a context pattern in a character string to be learned by the number of related vocabularies, and includes N-gram models such as a trigram model, a bigram model, and a unigram.
Nグラムは、連続するN個の単語の組み合わせである。Nグラムモデルは、学習対象の文字列からNグラムを抽出し、抽出されたNグラムのそれぞれについて出現確率を算出したものである。実際には、Nグラムモデルの作成では、機能語や固有名詞の無視など、学習対象として扱う語彙の制限や、出現頻度の少ないNグラムのカットオフが行われる。これにより、計算量を削減することができる。また、出現していないNグラムを考慮した確率の平滑化などが行われる。これにより、学習の初期段階において、統計量の不足により音声認識精度が低下するのを防ぐことができる。 An N-gram is a combination of N consecutive words. The N-gram model is obtained by extracting N-grams from a character string to be learned and calculating the appearance probability for each of the extracted N-grams. In actuality, in the creation of an N-gram model, the vocabulary handled as a learning target is restricted, such as ignoring function words and proper nouns, and N-grams with a low appearance frequency are cut off. Thereby, the amount of calculation can be reduced. Moreover, smoothing of the probability in consideration of N-grams that do not appear is performed. Thereby, it is possible to prevent the voice recognition accuracy from being deteriorated due to a lack of statistics in the initial stage of learning.
すなわち、ユーザ別言語モデルは、ユーザ別にそのユーザが作成した文字列のみに基づいて作成されるため、ユーザの文脈のパターンをより反映させた内容となる。例えば、ある携帯電話機200から「尾田さんに連絡」という文字列を含むメールが何度か送信された場合、対応するユーザ別言語モデル434では、「小田さんに連絡」や「織田さんに連絡」の出現確率よりも、「尾田さんに連絡」という文字列の出現確率が高くなる。
That is, since the language model for each user is created based on only the character string created by the user for each user, the user language model more reflects the context pattern of the user. For example, when a mail including a character string “Contact Ms. Oda” is transmitted several times from a certain
音声認識データベース430は、音声認識部440が所定の音声認識処理で用いる各種データを格納する。音声認識データベース430は、音響モデル431、辞書432、共通言語モデル433、およびユーザ別言語モデル434を格納する。ここでは、言語モデル作成部423によって、携帯電話機200−1〜200−Mに対応するM個のユーザ別言語モデル434−1〜434−Mが既に作成された状態を示している。
The
音響モデル431は、携帯電話機200で入力音声から得られる特徴量と発音記号との確率的な対応付けをデータ化したものである。音響モデル431は、例えば、新聞記事の文字列とその新聞記事を読み上げたときの音声とをデータ化して蓄積した、読み上げ音声データベースに基づいて作成される。
The
辞書432は、音声認識の対象となる単語の発音記号をデータ化したものである。辞書432は、例えば、上記した読み上げ音声データベースに基づいて作成される。
The
共通言語モデル433は、辞書432に記述された単語のそれぞれについて、一般的な出現確率や接続確率をデータ化したものである。共通言語モデル433は、例えば、上記した読み上げ音声データベースのうち、テキストデータから作成される。ここでは、上記音響モデル431、辞書432、および共通言語モデル433は、全てのユーザに対して共通して使用されるものとして説明するが、勿論、これらの一部または全てをユーザ別に設けた構成としてもよい。
The
ユーザ別言語モデル434は、ユーザ別言語モデル作成部420によって、携帯電話機200からの受信メール、つまり携帯電話機200の送信メールに含まれるメール本文の文字列に基づいて作成される言語モデルである。ユーザ別言語モデル434は、上記したように携帯電話機200のユーザごとに作成され、それぞれ携帯電話機200のID情報に対応付けられている。
The user-
音声認識部440は、携帯電話機200から受信した音声データに対し、音響モデル431、辞書432、および共通言語モデル433を用いて、所定の音声認識処理を行う。そして、音声認識部440は、音声認識結果として作成したテキストデータを、音声データの送信元に返信する。また、音声認識部440は、音声データを携帯電話機200のID情報と対応付けて受信し、対応するユーザ別言語モデル434が存在する場合には、そのユーザ別言語モデル434も併せて用いる。この音声認識部440は、音声データ受信部441、データベース切換部442、文章作成部443、およびテキストデータ送信部444を有する。音声データ受信部441は、ID受信部445を有する。
The
音声データ受信部441は、携帯電話機200からの要求に応じて携帯電話機200とのセッションを確立し、携帯電話機200から送られてくる音声データを受信する。
The voice
ID受信部445は、セッション確立の際に携帯電話機200から送られてくるID情報を受信する。
The
データベース切換部442は、文章作成部443による処理の対象となるユーザ別言語モデル434を切り換える。具体的には、データベース切換部442は、音声認識データベース430から、ID受信部445が受信したID情報に対応するユーザ別言語モデル434を、文章作成部443の処理対象として選択する。
The
文章作成部443は、音声データに対し、音響モデル431、辞書432、および共通言語モデル433を用いて所定の音声認識処理を行い、テキストデータを生成する。具体的には、文章作成部443は、音響モデル431から各発音記号の尤度を、辞書432から各発音記号の組み合わせに対応する単語を、共通言語モデル433およびユーザ別言語モデル434からNグラムによる文脈上の各単語の出現確率をそれぞれ求める。そして、文章作成部443は、例えば、発音記号の尤度と単語の出現確率との積が最大となる単語列を探索する処理を音声データに対して行い、探索された単語列から、テキストデータを作成する。
The
また、文章作成部443は、受信したID情報に対応するユーザ別言語モデル434が存在する場合には、そのユーザ別言語モデル434も併せて参照する。具体的には、文章作成部443は、共通言語モデル433とユーザ別言語モデル434とに重み付けを行い、両方の出現確率のそれぞれに重みを乗じた値の加算値を、各Nグラムの出現確率として採用する。なお、文章作成部443は、ユーザ別言語モデル434の作成過程における統計量の不足を考慮して、ユーザ別言語モデル434が作成されてからの経過時間やユーザ別言語モデル434に対する更新回数等に応じて、上記重み付けを変化させるようにしてもよい。
In addition, when there is a user-
このようにユーザ別言語モデル434を用いることにより、ユーザの文脈のパターンをより反映させて、音声認識を行うことができ、音声認識の精度を向上させることができる。例えば、上記の「尾田さんに連絡」の例でいうと、「オダサンニレンラク」という音声データに対して、「小田さんに連絡」や「織田さんに連絡」ではなく、「尾田さんに連絡」というテキストデータを生成することになる。ユーザに尾田さんという友人がおり、なんらかの連絡先としてメールで他者に伝達される回数が多い場合、「オダサンニレンラク」という音声が、「尾田さんに連絡」を意味する可能性が高い。すなわち、ユーザの所望の文字列をより高い確率で選択することができ、このことは、音声認識精度が向上したことを示す。
By using the user-
テキストデータ送信部444は、文章作成部443から出力されるテキストデータをパケット化し、ネットワークインタフェース部410を介して、携帯電話機200に送信する。
The text
音声認識サーバ400は、図示しないが、CPU、制御プログラムを格納したHDD(hard disc drive)およびROMなどの記憶媒体、RAMなどの作業用メモリなどを有する。CPUによる制御プログラムの実行により、上記した各部の機能は実現される。
Although not shown, the
以下、上記構成を有する携帯電話機200および音声認識サーバ400の動作について説明する。
Hereinafter, operations of the
まず、携帯電話機200の動作について、フローチャートを用いて説明する。ここでは、メール作成に関する動作のみについて説明を行う。
First, the operation of the
図4は、携帯電話機200のメール作成に関する動作の流れを示すフローチャートである。
FIG. 4 is a flowchart showing a flow of operations related to mail creation of the
ステップS1100で、制御部212は、操作部204の操作などにより音声認識によるメール作成の開始が指示されたか否かを判断する。音声認識によるメール作成の開始が指示されていない場合には(S1100:NO)、処理はステップS1200に進み、音声認識によるメール作成の開始が指示された場合には(S1100:YES)、処理はステップS1300に進む。
In step S <b> 1100, the
ステップS1200で、制御部212は、通常の操作部204の文字入力操作によるメール作成の開始が指示されたか否かを判断する。通常のメール作成の開始が指示されていない場合には(S1200:NO)、処理は後述のステップS2300に進み、通常のメール作成の開始が指示された場合には(S1200:YES)、処理はステップS1400に進む。
In step S1200,
ステップS1300で、音声データ送信部208は、TCP/IPプロトコルにより音声認識サーバ400との通信を開始して音声認識処理のためのセッションを確立し、ID記憶部201からID情報を読み出して音声認識サーバ400に送信する。
In step S1300, the voice
ステップS1500で、制御部212は、マイクロフォン206による音声入力を開始し、マイクロフォン206から出力される音声信号を特徴量抽出部207に入力させる。
In step S <b> 1500, the
ステップS1600で、特徴量抽出部207は、音声信号を分析して特徴量を抽出し、特徴量の時系列データである音声データを出力する。
In step S1600, the feature
ステップS1700で、音声データ送信部208は、特徴量抽出部207から出力される音声データをパケット化し、音声認識サーバ400に送信する。例えば、音声データ送信部208は、音声データを蓄積しておき、操作部204にて音声入力の終了操作が行われたときに音声データを一括して音声認識サーバ400に送信する。
In step S <b> 1700, the voice
ステップS1800で、テキストデータ受信部209は、音声認識サーバ400から音声認識結果の受信を待機する。音声認識結果が受信されない場合は(S1800:NO)、処理はステップS1900に進む。
In step S1800, the text
ステップS1900で、テキストデータ受信部209は、音声データ送信部208から音声データが送信されてから所定の時間が経過してタイムアウトになったか否かを判断する。タイムアウトになっていない場合には(S1900:NO)、処理はステップS1800に戻り、音声認識結果を受信しないままタイムアウトになった場合には(S1900:YES)、処理は後述のステップS2300に進む。このとき、携帯電話機200は、音声認識によるメール作成ができない旨を、ディスプレイ210を用いてユーザに通知するようにしてもよい。
In step S1900, the text
タイムアウトになる前にテキストデータ受信部209が音声認識結果を受信した場合には(S1800:YES)、処理はステップS2000に進む。
If the text
一方、ステップS1400では、通常のメール作成の開始が指示されたことから、制御部212は、操作部204を用いた文字入力操作による通常のテキストデータ作成を開始し、処理はステップS2000に進む。
On the other hand, in step S1400, since the start of normal mail creation has been instructed, the
ステップS2000で、制御部212は、音声認識結果のテキストデータまたはキー入力されたテキストデータを、ディスプレイ210に文字列表示させる。このとき、制御部212は、必要に応じて操作部204の操作による文字列の編集を受け付ける。メール本文として文字列が確定し、送信先のメールアドレスが指定されて、メール送信が指示されると、ステップS2100に進む。
In step S2000, the
ステップS2100で、メール処理部205は、言語モデル作成用メールの送信準備をする。言語モデル作成用メールは、ユーザ別言語モデル434の作成の材料として、送信メールのメール本文に含まれる文字列を音声認識サーバ400に送るためのメールである。言語モデル作成用メールは、送信メールと同一の文字列を含み、宛て先を音声認識サーバ400とし、送信者を一意に特定するID情報を含む。
In step S2100, the
図5は、通常の送信メールの構成と、この通常の送信メールに対応して生成される言語モデル作成用メールの構成とを示す図である。 FIG. 5 is a diagram showing a configuration of a normal transmission mail and a configuration of a language model creation mail generated corresponding to the normal transmission mail.
図5に示すように、通常の送信メール610では、宛先として、TOにユーザが指定したメールアドレスが、メール本文として、確定されたテキストがそれぞれ記述される。ここでは、付加的な宛先として、CC(copy carbon)およびBCCには何も記述されていない場合を図示している。一方、言語モデル作成用メールを含むメール620では、BCC生成部213により、付加的なアドレスとして、BCCに、言語モデル作成用メールの宛先アドレス(以下「言語モデル作成用アドレス」という)が記述される。
As shown in FIG. 5, in a
言語モデル作成用アドレスは、メールアドレスのドメイン部分とアカウント部分に、音声認識サーバ400のドメイン名と、携帯電話機200のID情報とをそれぞれ記述したものである。ここでは、ID記憶部201に記憶されたID情報が「01」であり、音声認識サーバ400のドメイン名が「SRserver.ne.jp」の場合を示している。すなわち、言語モデル作成用アドレスは、送信メールのメール本文を、音声認識サーバ400に、ID情報に対応付けて送信することを可能にするものである。しかも、BCCに言語モデル作成用アドレスを指定するので、送信メールの本来の宛先である「AAA@bbb.ne.jp」の端末には、言語モデル作成用メールの送信を意識させることが無い。
The address for creating the language model describes the domain name of the
図4のステップS2200で、メール処理部205は、通常メールおよび言語モデル作成用メールを、本来の宛先および音声認識サーバ400に、メールサーバ300を介してそれぞれ送信する。
In step S2200 of FIG. 4, the
そして、ステップS2300で、携帯電話機200は、ユーザ操作等によりメール作成に関する処理の終了を指示されたか否かを判断する。携帯電話機200は、処理の終了を指示されていない場合には(S2300:NO)、ステップS1100に戻り、指示された場合には(S2300:YES)、一連の処理を終了する。
In step S2300,
このように、携帯電話機200は、音声認識実行時には、音声データをID情報と対応付けて音声認識サーバ400に対して送信するとともに、メール送信時には、送信メールに含まれるメール本文をID情報と対応付けて音声認識サーバ400に対して送信する。これにより、ユーザが作成した文字列を極めて容易に言語モデルの作成に利用することができ、作成された言語モデルを音声認識処理に活用することができる。
As described above, the
また、文字列の送信を、コピーメール送信により行い、ID情報の文字列への対応付けを、宛先アドレスのアカウント部分にID情報を記述することによって行う。これにより、既存の設備やアプリケーションソフトウェアの機能を最大限に活用することができ、システム構築のコストを低減することができる。 Further, the character string is transmitted by copy mail transmission, and the ID information is associated with the character string by describing the ID information in the account part of the destination address. As a result, the functions of existing facilities and application software can be utilized to the maximum, and the cost of system construction can be reduced.
また、SIMの識別情報は、読み出しが容易である一方で、通常はユーザによる変更が不可能となっている。また、SIMは、加入者識別情報など、ユーザに固有の情報を格納した記憶媒体として使用端末に差し替えて使用される。すなわち、ユーザは、機種変更を行っても、同一のSIMを継続して使用する場合が多い。したがって、ID情報としてSIMの識別情報を採用すれば、より容易かつ確実なユーザ識別が可能となり、音声認識の精度についての信頼性が向上する。 Further, the SIM identification information is easy to read, but normally cannot be changed by the user. The SIM is used as a storage medium storing information unique to the user, such as subscriber identification information, in place of the terminal in use. That is, the user often uses the same SIM continuously even after changing the model. Therefore, if SIM identification information is used as the ID information, user identification can be performed more easily and reliably, and the reliability of voice recognition accuracy is improved.
次に、音声認識サーバ400の動作について、フローチャートを用いて説明する。
Next, the operation of the
図6は、音声認識サーバ400の動作の流れを示すフローチャートである。
FIG. 6 is a flowchart showing the operation flow of the
ステップS3100で、音声データ受信部441は、携帯電話機200からの要求を受けて携帯電話機200とのセッションが確立したか否かを判別する。セッションが確立していない場合には(S3100:NO)、処理はステップS3200に進む。セッションが確立した場合には(S3100:YES)、処理はステップS3300に進む。ここで、ID受信部445がID情報を受信した場合には、受信されたID情報がデータベース切換部442に出力される。
In step S3100, the audio
ステップS3200で、メール受信部421は、メールサーバ300に対してメール取得要求を行って自装置宛のメールを受信し、携帯電話機200から言語モデル作成用メールを受信したか否かを判断する。言語モデル作成用メールを受信した場合には(S3200:YES)、処理はステップS3400に進む。受信していない場合には(S3200:NO)、処理は後述のステップS4100に進む。なお、音声認識処理に比べて、ユーザ別言語モデル作成処理は求められる即時性が低いため、ステップS3200の処理は、予め定められた時間おきに実行するようにしてもよい。
In step S3200,
ステップS3300以降では、音声認識処理が実行される。まず、音声認識部440は、ID受信部445が取得したID情報に従って、文章作成部443が参照すべき言語モデルを決定する。すなわち、ID情報をインデクスとして、いずれかのユーザ別言語モデル434が選択される。なお、データベース切換部442で行われる処理は、文章作成部443が音声認識データベース430を参照する際に行う処理の一部としてもよい。
In step S3300 and subsequent steps, voice recognition processing is executed. First, the
ステップS3500で、音声データ受信部441は、携帯電話機200から音声データを受信したか否かを判断する。音声データを受信していない場合には(S3500:NO)、処理はステップS3600に進み、音声データを受信した場合には(S3500:YES)、処理はステップS3700に進み、受信した音声データの文章作成部443への入力が開始される。
In step S3500, audio
ステップS3600で、音声データ受信部441は、携帯電話機200とのセッションが開始されてから音声データを受信しないまま所定の時間が経過してタイムアウトになったか否かを判断する。タイムアウトになっていない場合には(S3600:NO)、処理はステップS3500に戻り、音声データを受信しないままタイムアウトになった場合には(S3600:YES)、処理は後述のステップS4100に進む。
In step S3600, audio
ステップS3700で、文章作成部443は、音声認識データベース430を参照して所定の音声認識処理を行い、テキストデータを作成する。そして、文章作成部443は、作成したテキストデータを、テキストデータ送信部444に出力する。このとき、データベース切換部442によりいずれかのユーザ別言語モデル434の使用が決定されている場合には、文章作成部443は、該当するユーザ別言語モデル434も用いる。
In step S3700, the
ステップS3800で、テキストデータ送信部444は、入力されたテキストデータを、音声認識結果として、音声データの送信元の携帯電話機200に送信する。そして、処理は、後述のステップS4100に進む。
In step S3800, text
一方、ステップS3400以降では、言語モデル作成処理が実行される。メール受信部421は、受信した言語モデル作成用メールから、メール本文のテキストデータおよびID情報を抽出し、言語モデル作成部423およびデータベース切換部422にそれぞれ出力する。
On the other hand, in step S3400 and subsequent steps, language model creation processing is executed. The
ステップS3900で、データベース切換部422は、入力されたID情報をインデクスとして、言語モデル作成部423が作成の対象とすべきユーザ別言語モデル434を決定する。なお、データベース切換部422で行われる処理は、言語モデル作成部423がユーザ別言語モデル434を作成する際に行う処理の一部としてもよい。
In step S3900, the
ステップS4000で、言語モデル作成部423は、入力されたテキストデータに対して所定の統計情報処理を行い、ステップS3900で決定されたユーザ別言語モデル434を、統計情報処理結果に基づいて更新または作成する。
In step S4000, the language
そして、ステップS4100で、音声認識サーバ400は、ユーザ操作等により音声認識に関する処理の終了を指示されたか否かを判断する。音声認識サーバ400は、処理の終了を指示されていない場合には(S4100:NO)、ステップS3100へ戻り、指示された場合には(S4100:YES)、一連の処理を終了する。
In step S4100, the
このように、音声認識サーバ400は、携帯電話機200から受信した言語モデル作成用メールに含まれるメール本文に基づいて、その送信元のID情報に対応付けたユーザ別言語モデル434を作成する。また、音声認識サーバ400は、携帯電話機200から受信した音声データに対して、その送信元のID情報をインデクスとしてユーザ別言語モデル434を参照して音声認識を行う。これにより、ユーザが作成した文字列を、既存の設備やアプリケーションソフトウェアの機能を最大限に活用して、そのユーザ用の音声モデルを作成する材料として収集することができる。これにより、システム構築のコストを抑えた状態で、ユーザ別の言語モデルを作成することができる。
As described above, the
以下、音声認識システム100における各装置の処理および通信の流れについて、一例を挙げて説明する。
Hereinafter, the processing and communication flow of each device in the
図7は、音声認識システム100における各装置の処理および通信の流れの一例を示すシーケンス図である。ここでは、説明の簡便化のため、音声認識部440、ユーザ別言語モデル作成部420、および音声認識データベース430を分離して取り扱うものとする。
FIG. 7 is a sequence diagram showing an example of the processing and communication flow of each device in the
携帯電話機200は、メール本文を作成するごとに(S5100)、通常メールおよびID情報が付された言語モデル作成用メールをメールサーバ300に送信し(S5200)、メールサーバ300は、これらのメールを保管する(S5300)。この状態で、音声認識サーバ400のユーザ別言語モデル作成部420が、メールサーバ300にメール取得要求を行うと(S5400)、メールサーバ300は、宛先アドレスに音声認識サーバ400のドメインが記述された言語モデル作成用メールを、ユーザ別言語モデル作成部420に返信する(S5500)。
Each time the
ユーザ別言語モデル作成部420は、受信した言語モデル作成用メールに付されたID情報に基づいてユーザ別言語モデル434を切り換え、メール本文の文字列に対して所定の統計情報処理を行い(S5600)、音声認識データベース430を更新する(S5700)。この結果、携帯電話機200のID情報に対応付けられたユーザ別言語モデル434は、携帯電話機200で作成されたメール本文の文脈を反映させる形で更新される(S5800)。
The user-specific language
その後、携帯電話機200が音声認識サーバ400の音声認識部440とのセッションを確立し(S5900)、自装置のID情報を音声認識部440に送信すると(S6000)、携帯電話機200は、音声入力および音声データからの特徴量抽出を開始し(S6100)、音声認識部440は、受信したID情報に基づいてユーザ別言語モデル434を切り換える(S6200)。そして、音声認識部440は、携帯電話機200から音声データを受信し(S6300)、更新された音声認識データベース430を参照して(S6400)、所定の音声認識処理によりテキストデータを生成する(S6500)。そして、音声認識部440は、生成したテキストデータを、携帯電話機200に返信する(S6600)。
Thereafter, when the
携帯電話機200は、音声認識結果の文字列を、メール本文の候補として表示するとともに、表示した文字列に対する編集を受け付け(S6700)、通常メールおよび言語モデル作成用メールでメールサーバ300に送信する(S6800)。これらステップS6700、S6800の処理は、上記したステップS5100、S5200の処理に対応している。
The
このように、音声認識システム100では、携帯電話機200から送信されるメールのメール本文がID情報と対応付けてユーザ別言語モデル作成部420にも送信され、ユーザ別言語モデルの作成に使用される。
As described above, in the
以上説明したように、本実施の形態によれば、携帯電話機200は、送信メールに含まれる文字列を、自装置のID情報に対応付けて、音声認識サーバ400のユーザ別言語モデル作成部420にメールで送信する。また、携帯電話機200は、音声データを、自装置のID情報に対応付けて、音声認識サーバの音声認識部440に送信する。ユーザ別言語モデル作成部420は、受信した文字列を学習して、送信元のID情報に対応付けたユーザ別言語モデル434を作成する。音声認識部440は、受信した音声データに対して、その送信元のID情報に対応付けられたユーザ別言語モデル434を用いて音声認識を行う。メールにより送信メールのメール本文を収集するので、既存のシステムに変更を加えることなく、ユーザが作成した文字列を極めて容易に言語モデルの作成に利用することができ、作成された言語モデルを音声認識処理に活用することができる。すなわち、文脈に依存して異なる表記についての音声認識の精度を、容易に向上させることができる。
As described above, according to the present embodiment, the
なお、ユーザ別言語モデルおよび音声認識処理の種類は、上記内容に限定されるものではなく、文字列からその文脈に応じた内容で作成される各種言語モデルおよびこれを用いた各種音声認識処理を適用できることは勿論である。 Note that the language model for each user and the type of speech recognition process are not limited to the above contents, but various language models created with contents corresponding to the context from a character string and various speech recognition processes using the same. Of course, it can be applied.
また、ID情報の文字列および音声データへの対応付けは、直接にID情報を用いるのではなく、予めID情報に対応付けられた、メールアドレスなどの他の識別情報を用いることによって行うようにしてもよい。 In addition, the association of the ID information with the character string and the voice data is not performed by using the ID information directly, but by using other identification information such as an e-mail address associated with the ID information in advance. May be.
また、携帯電話機200は、メール本文の文字列の音声認識サーバ400への送信を、通常のメールを送信するごとにではなく、定期的にまたはユーザに指定されたタイミングで、一括して行うようにしてもよい。この場合には、携帯電話機200は、例えば、送信メールを蓄積しておき、ユーザから選択を受け付け、選択されたメールの送信先を編集して、言語モデル作成用メールを作成してもよい。具体的には、例えば、TOまたはCCの宛て先に言語モデル作成用アドレスを記述し、選択された送信メールのメール本文を格納した言語モデル作成用メールを作成する。これにより、ユーザが意図的に文脈を変えた送信メールを学習対象から除外することができ、音声認識の精度の更なる向上を図ることができる。
In addition, the
また、携帯電話機200は、送信メールを蓄積しない場合でも、本来の送信メールとは別個に、メール本文をコピーし言語モデル作成用アドレスをTOまたはCCの宛先としたメールを送信するようにしてもよい。
Further, even when the
更に、携帯電話機200は、言語モデル作成用アドレスをTOの宛先として記述する場合には、送信メールの本来の宛先をメールに含めないようにしてもよい。これにより、送信メールの本来の宛先が音声認識サーバ400側に漏洩するのを防ぐことができ、携帯電話機200のユーザおよびメール送信相手のプライバシー保護を図ることができる。
Further, when the language model creation address is described as the TO destination, the
(実施の形態2)
次いで、本発明の実施の形態2に係る、分散型音声認識システムに用いる端末装置について説明する。実施の形態1との相違点は、言語モデル作成用メールの作成対象に、受信メールを追加して、音声認識の精度の更なる向上を図るようにしたことにある。
(Embodiment 2)
Next, a terminal device used in the distributed speech recognition system according to Embodiment 2 of the present invention will be described. The difference from the first embodiment is that the received mail is added to the language model creation mail to be created to further improve the accuracy of voice recognition.
家族や親しい友人などとの間で、同じ話題について会話感覚でメールのやり取りが行われる場合、相手からの受信頻度や返信の確率は高くなる。また、このようなメール通信では、メール本文の文脈もお互いに類似していることが多い。ユーザが作成する文字列と文脈が類似している文字列をより多く収集できれば、より短時間で音声認識の精度を向上させることができる。そこで、受信頻度の高い他のユーザからの受信メールを、言語モデル作成用メールとして追加する場合について説明する。 When emails are exchanged between family members and close friends on the same topic in a conversational manner, the frequency of reception from the other party and the probability of replying are high. In such mail communication, the context of the mail text is often similar to each other. If more character strings whose context is similar to the character string created by the user can be collected, the accuracy of speech recognition can be improved in a shorter time. Therefore, a case will be described in which received mail from another user with high reception frequency is added as language model creation mail.
実施の形態2に係る携帯電話機200は、例えば実施の形態1の図2に示す携帯電話機200と同様の構成を有する。ただし、メール処理部205は、実施の形態1で説明した処理に加えて、以下に説明する受信メール転送処理を実行する。
受信メール転送処理において、メール処理部205は、他の装置からメールを受信するごとに、その受信メールの送信元アドレスを記録する。また、メール処理部205は、他の装置からメールを受信するごとに、過去の記録データから、閾値との比較などにより、その受信メールの相手先からのメール受信頻度が高いか否かを判断する。そして、メール受信頻度が高い場合には、メール処理部205は、その送信元からの受信メールのメール本文の文字列を記述した言語モデル作成用メールを作成するとともに、その宛先として、実施の形態1と同様の言語モデル作成用アドレスを指定する。これにより、受信メールのコピーメールが、音声認識サーバ400に転送される。
In the received mail transfer process, the
このように、本実施の形態によれば、送信メールのみならず、文脈の類似した受信メールのメール本文も、ID情報に対応付けて音声認識サーバ400に送信される。これにより、音声認識サーバ400のユーザ別言語モデル作成部420は、送信メールのみを用いる場合に比べて、同じ話題および同じ文章表現という観点における十分な統計量を、より短時間で収集することができる。すなわち、より短時間で、音声認識の精度を向上させることができる。
As described above, according to the present embodiment, not only the transmitted mail but also the mail text of the received mail having a similar context is transmitted to the
なお、受信メールについても、受信メール単位で選択して、音声認識サーバ400に一括して送信するようにしてもよい。これにより、相手が意図的に文脈を変えている受信メールや、受信頻度は高いものの文脈が例外的に異なるような受信メールを、学習対象から除外することができ、音声認識の精度の更なる向上を図ることができる。
Note that received mail may also be selected in units of received mail and sent to the
また、いたずらメールなどを考慮して、送信頻度も高い相手先であることを、メール本文の送信の条件としてもよい。 In addition, in consideration of mischievous mail and the like, it is also possible to use a destination with a high transmission frequency as a condition for transmitting the mail text.
また、自己のメールのメール本文を学習対象として音声認識サーバ400に送信することについて、許可を得た相手からの受信メールに限定して、メール本文の送信を行うようにしてもよい。
In addition, regarding the transmission of the mail text of its own mail to the
(実施の形態3)
次いで、本発明の実施の形態3に係る、分散型音声認識システムに用いる端末装置について説明する。実施の形態1との相違点は、送信メールの相手先をグループ化し、グループごとにユーザ別言語モデルを作成するようにしたことにある。
(Embodiment 3)
Next, a terminal device used in the distributed speech recognition system according to Embodiment 3 of the present invention will be described. The difference from the first embodiment is that destinations of outgoing mail are grouped and a language model for each user is created for each group.
例えば、家族に対するメール、友人に対するメール、仕事関係の人に対するメールとでは、使用される単語や文体表現が異なるのが通常である。すなわち、一人のユーザが送信するメールでも、メールの送信相手によって、メール本文の文脈は異なる。したがって、送信メールの文脈が類似する相手先をグループ化し、グループごとにユーザ別言語モデル434を作成することで、音声認識精度を更に向上させることが可能となる。そこで、送信メールの文脈が類似する相手先のグループごとに、ユーザ別言語モデル434を作成する場合について説明する。
For example, in general, the word and style used are different for mail for family members, mail for friends, and mail for work-related people. That is, even in a mail transmitted by one user, the context of the mail text differs depending on the mail transmission partner. Therefore, it is possible to further improve the voice recognition accuracy by grouping destinations having similar email contexts and creating a user-
実施の形態3に係る携帯電話機200は、例えば実施の形態1の図2に示す携帯電話機200と同様の構成を有する。ただし、メール処理部205は、実施の形態1で説明した処理に加えて、以下に説明する相手先グルーピング処理を実行する。また、メール処理部205および音声データ送信部208は、携帯電話機200のID情報に加えて、相手先グルーピング処理においてグループごとに設定されたグループIDを、音声認識サーバ400に送信する。
携帯電話機200は、電話番号やメールアドレスを相手先ごとに登録した電話帳を有している。電話帳に登録された相手先は、検索および管理の便宜のために、「家族」、「友人」、「会社関係」など、予め用意されたグループに振り分けられている。
The
相手先グルーピング処理において、メール処理部205は、電話帳のグループを、送信メールの文脈が類似する相手先のグループとして扱い、電話帳のグループのそれぞれに、グループIDを設定する。なお、このグループIDは、各グループに予め割り当てられている識別情報を用いてもよい。
In the destination grouping process, the
メール処理部205は、言語モデル作成用メールを送信する際に、通常メールの送信先が属するグループに設定されたグループIDを、自装置のID情報と共に言語モデル作成用メールに付加する。例えば、メール処理部205は、実施の形態1で説明した言語モデル作成用アドレスのアカウント部分に、グループIDを追加して記述する。
When transmitting the language model creation mail, the
また、音声データ送信部208は、音声認識サーバ400とのセッション確立の際に、通常メールの送信先が属するグループに設定されたグループIDを、自装置のID情報と共に音声認識サーバ400に送信する。例えば、音声データ送信部208は、自装置のID情報にグループIDを追加した情報を、音声認識サーバ400に送信する。
Also, when establishing a session with the
この場合、音声認識サーバ400のユーザ別言語モデル作成部420は、ID情報とグループIDとの組み合わせにより構成される情報に対応付けて、ユーザ別言語モデル434を作成する。また、音声認識サーバ400の音声認識部440は、ID情報とグループIDとの組み合わせにより構成される情報をインデクスとして、ユーザ別言語モデル434を参照する。
In this case, the user-specific language
このように、本実施の形態によれば、複数のID情報を、送信メールの送信先に応じて切り換えて、送信メールに含まれる文字列に対応付ける。これにより、ユーザごとかつメール送信先ごとに異なる文脈を考慮して音声認識を行うことができ、個々のメール作成における音声認識精度を向上させることができる。 As described above, according to the present embodiment, a plurality of ID information is switched according to the transmission destination of the transmission mail and associated with the character string included in the transmission mail. Thereby, speech recognition can be performed in consideration of different contexts for each user and for each mail transmission destination, and the speech recognition accuracy in creating each mail can be improved.
(実施の形態4)
次いで、本発明の実施の形態4に係る、分散型音声認識システムに用いる言語モデル作成装置について説明する。実施の形態1との相違点は、受信した言語モデル作成用メールに、読みが不明な単語(以下「未知語」という)が含まれているときに、その未知語の読みを解決するようにしたことである。
(Embodiment 4)
Next, a language model creation device used in a distributed speech recognition system according to Embodiment 4 of the present invention will be described. The difference from the first embodiment is that, when the received language model creation mail includes a word whose reading is unknown (hereinafter referred to as “unknown word”), the reading of the unknown word is solved. It is that.
ここで、未知語を含め、単語とは、文字、文字列、記号、記号列、画像、アニメーション等、メール本文として挿入可能な情報であって、読みを設定することにより音声入力可能とすべきものの全てを含む概念とする。 Here, including unknown words, words are information that can be inserted as the body of an e-mail, such as characters, character strings, symbols, symbol strings, images, animations, etc. The concept includes all of the above.
図8は、本発明の実施の形態4に係る音声認識サーバの構成を示すブロック図であり、実施の形態1の図3に対応するものである。図3と同一部分には同一符号を付し、これについての説明を省略する。 FIG. 8 is a block diagram showing the configuration of the speech recognition server according to the fourth embodiment of the present invention, and corresponds to FIG. 3 of the first embodiment. The same parts as those in FIG.
図8に示すように、音声認識サーバ400aは、未知語処理部450aを有する。 As shown in FIG. 8, the speech recognition server 400a includes an unknown word processing unit 450a.
未知語処理部450aは、言語モデル作成用メールに含まれる未知語の読みを解決する。未知語処理部450aは、未知語検出部451a、問合メール送受信部452a、および辞書登録部453aを有する。
The unknown word processing unit 450a solves the reading of unknown words included in the language model creation mail. The unknown word processing unit 450a includes an unknown
未知語検出部451aは、文書抽出部424から、言語モデル作成用メールのメール本文を入力し、メール本文の未知語を検出する。具体的には、未知語検出部451aは、入力したメール本文に含まれる個々の単語を、音声認識データベース430の辞書432で検索する。そして、未知語検出部451aは、辞書432に存在しない単語を、未知語として検出する。
The unknown
問合メール送受信部452aは、未知語検出部451aで検出された未知語を、その未知語の送信元のユーザにメールで問合せ、問合せ結果を、辞書432に登録する。具体的には、問合メール送受信部452aは、未知語を示してその未知語の読みを問い合わせる内容のメール(以下「問合メール」という)を作成し、未知語が含まれていた言語モデル作成用メールの送信元に送信する。そして、問合メール送受信部452aは、問合メールに対する応答として、未知語の読みを記述したメール(以下「応答メール」という)を受信すると、応答メールから、未知語の読みを抽出する。
The inquiry mail transmission /
辞書登録部453aは、問合メール送受信部452aで抽出された未知語の読みを、未知語と対応付けて辞書432に登録する。
The
このような音声認識サーバ400aによれば、受信した言語モデル作成用メールに未知語が含まれているときに、その未知語の読みを解決することができる。したがって、該当する読みの音声データを受信したときに、適切な単語を音声認識結果として得ることができる。 According to such a speech recognition server 400a, when an unknown word is included in the received language model creation mail, reading of the unknown word can be solved. Therefore, an appropriate word can be obtained as a voice recognition result when the corresponding reading voice data is received.
以下、音声認識サーバ400aの動作について説明する。 Hereinafter, the operation of the voice recognition server 400a will be described.
図9は、音声認識サーバ400aの動作の流れを示すフローチャートであり、実施の形態1の図6に対応するものである。図6と同一部分には同一ステップ番号を付し、これについての説明を省略する。 FIG. 9 is a flowchart showing an operation flow of the voice recognition server 400a, and corresponds to FIG. 6 of the first embodiment. The same steps as those in FIG. 6 are denoted by the same step numbers, and description thereof will be omitted.
文書抽出部424で言語モデル作成用メールからメール本文のテキストデータが抽出されると(S3400)、処理はステップS3810aに進む。このとき、文書抽出部424は、未知語処理部450aの未知語検出部451aに対して、抽出したテキストデータと、送信元のメールアドレスとを出力する。
When the text data of the mail body is extracted from the language model creation mail by the document extraction unit 424 (S3400), the process proceeds to step S3810a. At this time, the
ステップS3810aで、未知語検出部451aは、辞書432を参照して、文書抽出部424から入力されたテキストデータに未知語が存在するか否かを判断する。未知語が存在しない場合には(S3810a:NO)、処理はステップS3900に進む。未知語が存在する場合には(S3810a:YES)、処理はステップS3820aに進む。このとき、未知語検出部451aは、未知語と、未知語の送信元のメールアドレスとを、問合メール送受信部452aに出力する。
In step S3810a, the unknown
ステップS3820aで、問合メール送受信部452aは、問合メールを、未知語検出部451aから入力されたメールアドレスを宛先として送信する。このとき、問合メール送受信部452aは、送信元アドレスとして、言語モデル作成用アドレスとは異なる、未知語解決用のアドレス(以下「未知語解決用アドレス」という)を設定することが望ましい。これにより、言語モデル作成用メールと応答メールとを区別して取り扱うことが容易となる。そして、処理はステップS3900に進み、言語モデル作成用メールに基づいてユーザ言語モデルの更新等が行われる。
In step S3820a, the inquiry mail transmission /
一方、メール受信部421が言語モデル作成用メールを受信していない場合には(S3200:NO)、処理はステップS3210aに進む。
On the other hand, if the
ステップS3210aで、問合メール送受信部452aは、過去の問合メールに対する応答メールを受信したか否かを判断する。問合メール送受信部452aが応答メールを受信していない場合には(S3210a:NO)、処理はステップS4100に進む。問合メール送受信部452aが応答メールを受信した場合には(S3210a:YES)、処理はステップS3220aに進む。このとき、問合メール送受信部452aは、受信した応答メールに記述された未知語および未知語の読みを抽出して、辞書登録部453aに出力する。
In step S3210a, inquiry mail transmission /
ステップS3220aで、辞書登録部453aは、問合メール送受信部452aから入力された読みを、同じく問合メール送受信部452aから入力された未知語に対応付けて、辞書432に登録する。
In step S3220a, the
このような動作により、音声認識サーバ400aは、未知語の読みを解決することができる。 With such an operation, the voice recognition server 400a can solve reading of unknown words.
図10は、問合せメールと、この問合メールに対応して生成される応答メールの記述内容の一例を示す図である。ここでは、「AMI」という単語が未知語として検出され、ユーザが「AMI」に対して「あみ」という読みを希望する場合を例示する。 FIG. 10 is a diagram showing an example of description contents of an inquiry mail and a response mail generated corresponding to the inquiry mail. Here, the case where the word “AMI” is detected as an unknown word and the user wishes to read “Ami” with respect to “AMI” is illustrated.
図10に示すように、問合メール630aには、例えば、送信元アドレスとして、言語モデル作成用アドレスとは異なる未知語解決用アドレス「02@SRserver.ne.jp」が記述される。また、問合メール630aには、例えば、件名(SUBJECT)として、「AMIの読みを本文に入力し、返信して下さい」という指示が記述される。携帯電話機200は、受信した問合メール630aの記述内容を表示する。
As shown in FIG. 10, in the
そして、ユーザが、問合メール630aの指示に従うと、応答メール640aには、メール本文として、「あみ」が記述される。
When the user follows the instruction of the
問合メール送受信部452aは、応答メール640aを受信すると、件名に記述された未知語、つまり、「の読みを」の直前であって「Re:」を取り除いた部分を未知語として抽出し、メール本文に記述されたテキストを未知語の読みとして検出する。この結果、音声認識サーバ400aの辞書432には、「AMI」という単語に対応付けて、「あみ」という読みが登録される。この結果、「AMI」も言語モデル作成に利用可能となるとともに、ユーザが「あみ」と発声したときに、「AMI」という音声認識結果が得られるようになる。
When the inquiry mail transmission /
なお、未知語が長く、件名として記入することができない場合を考慮して、問合せメールを、例えば、「本文に、『AMI』に続けて『AMI』の読みを入力した文書を、返信して下さい」という指示をメール本文に記述したものとしてもよい。この場合には、応答メールには、メール本文として、「AMIあみ」と記述されることになる。未知語と読みの分離は、例えば、メール本文の前方から未知語を検索すれば可能である。また、未知語と読みとの間に、「:」等の予め定められた文字や記号を挿入するようにすれば、未知語と読みとの分離が容易となる。 In consideration of the case where the unknown word is long and cannot be entered as the subject, reply with an inquiry e-mail, for example, “a text with“ AMI ”followed by“ AMI ”reading” Please indicate "Please" in the body of the email. In this case, “AMI Ami” is described as the mail body in the response mail. For example, the unknown word and the reading can be separated by searching the unknown word from the front of the mail text. Further, if a predetermined character or symbol such as “:” is inserted between the unknown word and the reading, the unknown word and the reading can be easily separated.
また、問合メールの送信先と問い合わせの対象となった未知語とを対応付けておき、応答メールがどの未知語に対する応答であるかを、この対応付けに基づいて判断するようにしてもよい。これにより、応答メールに未知語が正しく記述されていない場合でも、未知語および読みの抽出を行うことができる。 Further, the destination of the inquiry mail and the unknown word that is the target of the inquiry may be associated with each other, and it may be determined based on this association to which unknown word the response mail is a response. . Thereby, even when unknown words are not correctly described in the response mail, unknown words and readings can be extracted.
このように、本実施の形態によれば、学習対象に読みが不明な未知語が存在する場合に、その未知語の読みを解決して辞書に登録する。これにより、絵文字、顔文字、アニメーション等、メールで多用される一方で一般的な読みが定着していないような単語であっても、音声入力が可能となる。すなわち、一般的な読みが定着していないような単語をユーザが発話する場合に、音声認識率を向上させることができる。また、メールでの逐次の問い合わせにより未知語解決を行うので、未知語が検出されてから早期にその読みを解決することができ、迅速な音声認識の精度向上が可能となる。 Thus, according to the present embodiment, when an unknown word whose reading is unknown exists in the learning target, the reading of the unknown word is resolved and registered in the dictionary. As a result, even words such as pictograms, emoticons, animations, etc. that are frequently used in e-mails but are not fixed in general reading can be input by voice. That is, the speech recognition rate can be improved when the user utters a word for which general reading is not fixed. In addition, since unknown words are resolved by sequential inquiries by e-mail, the reading can be resolved early after the unknown words are detected, and the accuracy of rapid speech recognition can be improved.
なお、表記と読みが対にして登録されたバックグラウンド辞書を音声認識用の辞書432とは別に用意しておき、単語が、音声認識用の辞書432に未登録であって、バックグラウンド辞書にも未登録の場合にのみ、問合せを行うようにしてもよい。バックグラウンド辞書は、音声認識サーバ400aに格納してもよいし、音声認識サーバ400aからアクセス可能な他のサーバに格納してもよい。
Note that a background dictionary in which notation and reading are registered as a pair is prepared separately from the
また、未知語処理部450aの一部または全てを、ネットワーク上の他の装置に配置するようにしてもよい。 Moreover, you may make it arrange | position some or all of the unknown word process parts 450a to the other apparatus on a network.
(実施の形態5)
次いで、本発明の実施の形態5に係る、分散型音声認識システムに用いる言語モデル作成装置について説明する。本実施の形態においても、実施の形態4と同様に未知語の解決を行うが、実施の形態4との相違点は、ウェブ上に用意したGUI(graphical user interface)によって、未知語の読みを解決するようにしたことにある。
(Embodiment 5)
Next, a language model creation apparatus used for a distributed speech recognition system according to Embodiment 5 of the present invention will be described. Also in the present embodiment, unknown words are resolved in the same manner as in the fourth embodiment. The difference from the fourth embodiment is that the unknown words are read by a GUI (graphical user interface) prepared on the web. It is to solve it.
図11は、本発明の実施の形態5に係る音声認識サーバの構成を示すブロック図であり、実施の形態4の図8に対応するものである。図8と同一部分には同一符号を付し、これについての説明を省略する。 FIG. 11 is a block diagram showing a configuration of the speech recognition server according to the fifth embodiment of the present invention, and corresponds to FIG. 8 of the fourth embodiment. The same parts as those in FIG. 8 are denoted by the same reference numerals, and description thereof will be omitted.
図11に示すように、音声認識サーバ400bは、未知語処理部450bを有する。 As shown in FIG. 11, the speech recognition server 400b includes an unknown word processing unit 450b.
未知語処理部450bは、言語モデル作成用メールに含まれる未知語の読みを解決する。未知語処理部450bは、実施の形態4の未知語処理部450aの問合メール送受信部452aに代えて、未知語蓄積部454bおよびGUI処理部455bを有する。
The unknown word processing unit 450b solves the reading of unknown words included in the language model creation mail. The unknown word processing unit 450b includes an unknown word storage unit 454b and a
未知語蓄積部454bは、未知語検出部451aで検出された未知語を、その未知語の読みが解決されるまで、その未知語の送信元のID情報と対応付けて蓄積する。
The unknown word accumulation unit 454b accumulates the unknown word detected by the unknown
GUI処理部455bは、ユーザがウェブ上で自由にアクセスして未知語の読みを登録するためのグラフィカルユーザインタフェース(以下「未知語登録サイト」という)を構築する。この未知語登録サイトは、例えば、CGI(common gateway interface)を用いて構築され、HTTP(hypertext transfer protocol)により通信網500を介して携帯電話機200からアクセス可能となっている。GUI処理部455bは、未知語登録サイトにおいて、未知語蓄積部454bに蓄積された未知語のうち、アクセス元のユーザが作成した言語モデル作成用メールから抽出された未知語を表示し、表示した未知語に対する読みの入力を受け付ける。
The
辞書登録部453aは、上述の未知語登録サイトで入力された未知語の読みを、未知語と対応付けて辞書432に登録する。
The
このような音声認識サーバ400bによれば、受信した言語モデル作成用メールに未知語が含まれているときに、その未知語の読みを解決することができる。また、ユーザが望むタイミングで、未知語の読みの登録を行うことができる。 According to such a speech recognition server 400b, when an unknown word is included in the received language model creation mail, reading of the unknown word can be solved. Also, the unknown word reading can be registered at the timing desired by the user.
以下、音声認識サーバ400bの動作について説明する。 Hereinafter, the operation of the voice recognition server 400b will be described.
まず、未知語登録サイトの動作について説明し、その後、音声認識サーバ400bの全体動作について説明する。 First, the operation of the unknown word registration site will be described, and then the overall operation of the voice recognition server 400b will be described.
未知語登録サイトは、まず、ユーザのログイン処理として、アクセス元のID情報の取得を行う。この取得は、ウェブ画面上でユーザに入力を促すことにより行ってもよいし、携帯電話機200から製造番号等の情報を取得することにより行ってもよい。そして、未知語登録サイトは、取得したID情報に対応付けられた全ての未知語を、未知語蓄積部454bから抽出し、抽出した未知語を、個別に選択可能な状態で、ウェブ画面上に一覧表示する。そして、未知登録サイトは、いずれかの未知語が選択されると、未知語の読みを入力するための読み入力画面に遷移する。未知語登録サイトは、読み入力画面で読みが入力され、決定ボタンのクリック等の決定操作が行われると、未知語と入力された読みとを対にして一時的に記憶し、未知語の一覧表示画面に戻る。そして、登録ボタンのクリック等の登録操作、または、ユーザのログアウト処理が行われると、未知語登録サイトは、入力された未知語の読みを、登録対象として取得する。
The unknown word registration site first obtains access source ID information as a user login process. This acquisition may be performed by prompting the user to input on the web screen, or may be performed by acquiring information such as a manufacturing number from the
なお、未知語登録サイトは、携帯電話機200ではなく、パーソナルコンピュータ等の端末からアクセス可能としてもよい。携帯電話機200からのアクセスを想定した場合、未知語登録サイトは、小さい表示画面での視認性や限られたキースイッチによる操作性を考慮して、上述のように一覧表示画面と読み入力画面とを切り替えることが望ましい。しかし、パーソナルコンピュータ等の端末からのアクセスを想定した場合には、未知語登録サイトは、1つの画面上で未知語を一覧表示と読み入力とを行えるようにしてもよい。
The unknown word registration site may be accessible from a terminal such as a personal computer instead of the
図12は、音声認識サーバ400bの動作の流れを示すフローチャートであり、実施の形態4の図9に対応するものである。図9と同一部分には同一ステップ番号を付し、これについての説明を省略する。 FIG. 12 is a flowchart showing an operation flow of the voice recognition server 400b, and corresponds to FIG. 9 of the fourth embodiment. The same steps as those in FIG. 9 are denoted by the same step numbers, and description thereof will be omitted.
文書抽出部424で抽出されたメール本文のテキストデータに未知語が存在する場合には(S3810a:YES)、処理はステップS3830bに進む。このとき、未知語検出部451aは、その未知語と未知語の送信元のID情報とを、未知語蓄積部454bに出力する。
If there is an unknown word in the text data of the mail body extracted by the document extraction unit 424 (S3810a: YES), the process proceeds to step S3830b. At this time, the unknown
ステップS3830bで、未知語蓄積部454bは、未知語検出部451aから入力された未知語とID情報とを、対応付けて格納する。そして、処理はステップS3900に進む。
In step S3830b, the unknown word accumulation unit 454b stores the unknown word input from the unknown
一方、メール受信部421が言語モデル作成用メールを受信していない場合には(S3200:NO)、処理はステップS3230bに進む。
On the other hand, if the
ステップS3230bで、GUI処理部455bは、未知語登録サイトにおいて、ユーザによる未知語の読みの登録操作が行われたか否かを判断する。未知語の読みの登録操作が行われていない場合には(S3230b:NO)、処理はステップS4100に進む。
In step S3230b, the
一方、未知語の読みの登録操作が行われた場合には(S3230b:YES)、処理は、ステップS3240bに進む。この際、GUI処理部455bは、未知語登録サイトにおいて登録操作が行われた未知語と未知語の読みとを抽出して辞書登録部453aに出力し、ステップS3220aに進む。この未知語および読みは、対応付けて辞書432に登録されることになる。また、GUI処理部455bは、辞書登録部453aに出力した未知語を、未知語蓄積部454bから削除する。これにより、既に読みが登録された単語を未知語登録サイトで問い合わせるのを防ぐことができる。
On the other hand, when an unknown word reading registration operation is performed (S3230b: YES), the process proceeds to step S3240b. At this time, the
このような動作により、音声認識サーバ400bは、未知語の読みを解決することができる。 With such an operation, the voice recognition server 400b can solve reading of unknown words.
このように、本実施の形態によれば、学習対象に読みが不明な未知語が存在する場合に、その未知語の読みを解決して辞書に登録することができ、音声認識率を向上させることができる。また、ユーザは、自己に都合の良いタイミングで、自己のメールで記述した複数の未知語の読みの入力操作を、一挙に行うことができる。これにより、ユーザの未知語入力の手間を軽減することができる。 As described above, according to the present embodiment, when an unknown word whose reading is unknown exists in the learning target, the reading of the unknown word can be solved and registered in the dictionary, thereby improving the speech recognition rate. be able to. In addition, the user can perform input operations for reading a plurality of unknown words described in his / her mail at a time that is convenient for him / her. Thereby, the trouble of a user's unknown word input can be reduced.
なお、未知語処理部450bの一部または全てを、ネットワーク上の他の装置に配置するようにしてもよい。特に、未知語蓄積部454bとGUI処理部455bとを他の装置にまとめて配置すれば、未知語登録サイトの機能をまとめて分離することができ、音声認識サーバ400bの負担を軽減することができるとともに、未知語登録サイトの処理を高速化することが可能となる。
A part or all of the unknown word processing unit 450b may be arranged in another device on the network. In particular, if the unknown word storage unit 454b and the
また、未知語登録サイトと同様の動作を行う画面を表示するユーザインタフェース(IU:user interface)を、携帯電話機のメールアプリケーションソフトウェア内に用意するようにしてもよい。この場合には、音声認識サーバは、例えば、検出した未知語を、逐次または定期的に、未知語の送信元の携帯電話機に送信し、携帯電話機は、受信した未知語を蓄積しておく。そして、アプリケーションソフトウェアは、未知語登録サイトと同様に未知語の表示と読みの入力受け付けを行い、入力された読みを、未知語と対応付けて音声認識サーバに送信し、音声認識サーバの辞書に登録させる。これにより、未知語解決の処理負担を分散することができる。 Further, a user interface (IU: user interface) that displays a screen for performing the same operation as that of the unknown word registration site may be prepared in the mail application software of the mobile phone. In this case, for example, the speech recognition server transmits the detected unknown word sequentially or periodically to the mobile phone that is the source of the unknown word, and the mobile phone stores the received unknown word. Then, the application software displays the unknown word and accepts the input of the reading in the same manner as the unknown word registration site, sends the input reading to the speech recognition server in association with the unknown word, and stores it in the dictionary of the speech recognition server. Let me register. Thereby, the processing burden of unknown word resolution can be distributed.
また、携帯電話機は、音声認識サーバから未知語の読みの登録を促される前に、ユーザにより入力された単語の読みを、音声認識サーバに送信するようにしてもよい。このような読みの入力は、例えば、携帯電話機に格納された、文字変換用のユーザ辞書、かな漢字変換システムの学習情報、および電話帳に対して行われる。したがって、携帯電話機は、例えば、これらのデータが更新されるごとに、その更新後の全データ、または更新されたデータ部分のみを、音声認識サーバに送信する。データを受信した音声認識サーバは、受信データから未知語を検出し、更に未知語の読みを受信データから取得し、これらの未知語と未知語の読みとを対応付けて辞書に登録する。これにより、音声認識サーバで検出される前に、未知語の読みを解決することが可能となる。 In addition, the mobile phone may transmit the reading of the word input by the user to the voice recognition server before being prompted to register the reading of the unknown word by the voice recognition server. Such reading is input to, for example, a user dictionary for character conversion, learning information of a Kana-Kanji conversion system, and a telephone directory stored in a mobile phone. Therefore, for example, every time these data are updated, the mobile phone transmits all the updated data or only the updated data portion to the voice recognition server. The voice recognition server that has received the data detects an unknown word from the received data, further obtains an unknown word reading from the received data, and associates the unknown word with the unknown word reading and registers them in the dictionary. This makes it possible to resolve the reading of unknown words before they are detected by the speech recognition server.
また、以上説明した各実施の形態では、本発明を、音声認識を用いて携帯電話機でメール本文を作成するシステムに適用した例について説明したが、これに限定されるものではない。例えば、言語モデルを用いて音声認識を行う音声認識装置と、この音声認識装置を利用してメール本文の作成を行う、パーソナルコンピュータおよびPDA(personal digital assistant)などの各種端末装置とを含むシステムに適用できることは勿論である。 Further, in each of the embodiments described above, the example in which the present invention is applied to a system for creating a mail text using a mobile phone using voice recognition has been described. However, the present invention is not limited to this. For example, in a system including a speech recognition device that performs speech recognition using a language model, and various terminal devices such as a personal computer and a PDA (personal digital assistant) that create a mail text using the speech recognition device Of course, it can be applied.
また、ユーザ別言語モデル作成部、音声認識データベース、および音声認識部を同一のサーバ内に配置した例について説明したが、これらをネットワーク上の別個の装置に配置するようにしてもよい。 Further, although an example in which the user-specific language model creation unit, the speech recognition database, and the speech recognition unit are arranged in the same server has been described, they may be arranged in separate devices on the network.
本発明に係る端末装置、言語モデル作成装置、および分散型音声認識システムは、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムとして有用である。 A terminal device, a language model creation device, and a distributed speech recognition system according to the present invention are a terminal device, a language model creation device, and a terminal device that can easily improve speech recognition accuracy for different notations depending on context. It is useful as a distributed speech recognition system.
100 音声認識システム
200 携帯電話機
201 ID記憶部
202 無線部
203 アンテナ部
204 操作部
205 メール処理部
206 マイクロフォン
207 特徴量抽出部
208 音声データ送信部
209 テキストデータ受信部
210 ディスプレイ
212 制御部
213 BCC生成部
300 メールサーバ
400、400a、400b 音声認識サーバ
410 ネットワークインタフェース部
420 ユーザ別言語モデル作成部
421 メール受信部
422 データベース切換部
423 言語モデル作成部
424 文書抽出部
425 ID抽出部
430 音声認識データベース
431 音響モデル
432 辞書
433 共通言語モデル
434 ユーザ別言語モデル
440 音声認識部
441 音声データ受信部
442 データベース切換部
443 文章作成部
444 テキストデータ送信部
445 ID受信部
450a、450b 未知語処理部
451a 未知語検出部
452a 問合メール送受信部
453a 辞書登録部
454b 未知語蓄積部
455b GUI処理部
DESCRIPTION OF
Claims (14)
通常の送信メールのメール本文を、言語モデル作成用メールとして、前記言語モデルを作成する言語モデル作成装置に送信するメール送信手段と、
を有する端末装置。 Voice data transmitting means for transmitting voice data to a voice recognition device that performs voice recognition processing using a language model;
A mail transmission means for transmitting a mail body of a normal transmission mail as a language model creation mail to a language model creation device that creates the language model;
A terminal device.
前記通常の送信メールの宛先を編集して前記言語モデル作成用メールを生成する、
請求項1記載の端末装置。 The mail sending means
Editing the address of the normal outgoing mail to generate the language model creation mail;
The terminal device according to claim 1.
前記音声認識装置の利用時に使用されるID情報と同一又は対応するID情報を、メールの一部に記述して、前記言語モデル作成用メールを生成する、
請求項2記載の端末装置。 The mail sending means
ID information that is the same as or corresponding to the ID information used when using the speech recognition apparatus is described in a part of the mail, and the language model creation mail is generated.
The terminal device according to claim 2.
前記言語モデル作成装置を宛先としないメールが送信される都度、その送信メールの宛先に前記言語モデル作成装置を追加する、
請求項2記載の端末装置。 The mail sending means
Each time an email not addressed to the language model creation device is sent, the language model creation device is added to the destination of the transmitted email.
The terminal device according to claim 2.
前記言語モデル作成用メールとして送信するメールを、送信メール単位で選択し複数通一括して送信可能に構成された、
請求項1記載の端末装置。 The mail sending means
The email to be sent as the language model creation email is configured to be selectable in units of outgoing emails and sent in batches.
The terminal device according to claim 1.
ドメイン部分に前記音声認識装置のドメイン名を記述し、アカウント部分に前記音声認識装置の利用時に使用されるID情報を記述した言語モデル作成用アドレスを用いて、前記言語モデル作成用メールを生成する、
請求項1記載の端末装置。 The mail sending means
The language model creation mail is generated using the language model creation address in which the domain name of the speech recognition device is described in the domain portion and the ID information used when using the speech recognition device is described in the account portion. ,
The terminal device according to claim 1.
更に、受信メールのメール本文を、前記言語モデル作成用メールとして、前記言語モデル作成装置に送信する、
請求項1記載の端末装置。 The mail sending means
Further, the mail body of the received mail is transmitted to the language model creation device as the language model creation mail.
The terminal device according to claim 1.
複数のID情報を、前記送信メールの宛先に応じて切り替えて、前記文字列に対応付ける、
請求項4記載の端末装置。 The mail sending means
A plurality of ID information is switched according to the destination of the outgoing mail and associated with the character string.
The terminal device according to claim 4.
入力した前記読みを、前記言語モデル作成用の前記単語の読みとして、前記言語モデル作成装置に送信する読み送信手段と、を更に有する、
請求項1記載の端末装置。 A reading input means for accepting input of a word reading;
A reading transmission means for transmitting the input reading to the language model creation device as a reading of the word for creating the language model;
The terminal device according to claim 1.
前記読み入力手段は、取得した前記未知語を表示して前記読みの入力を受け付ける、
請求項9記載の端末装置。 An unknown word acquisition means for acquiring an unknown word that is an unknown word in the language model creation device;
The reading input means receives the input of the reading by displaying the acquired unknown word,
The terminal device according to claim 9.
ID情報とメール本文とを含む前記言語モデル作成用メールを受信するメール受信手段と、
受信した前記言語モデル作成用メールから、メール本文とID情報とを抽出するメール処理手段と、
抽出した前記メール本文を学習し、前記ID情報毎に前記言語モデルを作成する言語モデル作成手段と、
を有する言語モデル作成装置。 A language model creation device that creates a language model used for speech recognition processing using a language model creation email received from a terminal device,
Mail receiving means for receiving the language model creating mail including the ID information and the mail text;
Mail processing means for extracting a mail text and ID information from the received language model creation mail;
Language model creation means for learning the extracted mail text and creating the language model for each ID information;
A language model creation device having
取得した前記読みを、前記言語モデル作成用の辞書に、前記単語に対応付けて登録する辞書登録手段と、を更に有する、
請求項11記載の言語モデル作成装置。 Reading acquisition means for acquiring a word reading from the terminal device;
Dictionary registration means for registering the acquired reading in association with the word in the language model creation dictionary;
The language model creation device according to claim 11.
前記読み取得手段は、
前記未知語の読みを前記端末装置から受け付ける、
請求項12記載の言語モデル作成装置。 An unknown word detecting means for detecting an unknown word which is a word whose reading is unknown from the extracted mail body;
The reading acquisition means includes
Accepting reading of the unknown word from the terminal device;
The language model creation device according to claim 12.
前記端末装置は、
通常の送信メールの宛先を編集して言語モデル作成用メールを生成し、前記言語モデル作成装置に送信し、
前記言語モデル作成装置は、
受信した前記言語モデル作成用メールのメール本文を学習して前記言語モデルを作成し、
前記音声認識装置は、
前記端末装置から受信した前記音声データに対し、前記言語モデルを用いて音声認識処理を行う、
分散型音声認識システム。
A speech recognition device that performs speech recognition processing on speech data using a language model; a terminal device that transmits speech data to the speech recognition device; and a language model creation device that creates the language model by learning a character string. A distributed speech recognition system comprising:
The terminal device
Edit the destination of the normal outgoing mail to generate a language model creation mail, send it to the language model creation device,
The language model creation device includes:
Learn the email body of the received language model creation email to create the language model,
The voice recognition device
Performing speech recognition processing using the language model for the speech data received from the terminal device,
Distributed speech recognition system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008219820A JP2009075582A (en) | 2007-08-29 | 2008-08-28 | Terminal device, language model creation device, and distributed speech recognition system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007223100 | 2007-08-29 | ||
JP2008219820A JP2009075582A (en) | 2007-08-29 | 2008-08-28 | Terminal device, language model creation device, and distributed speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009075582A true JP2009075582A (en) | 2009-04-09 |
Family
ID=40610544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008219820A Pending JP2009075582A (en) | 2007-08-29 | 2008-08-28 | Terminal device, language model creation device, and distributed speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009075582A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013529794A (en) * | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | Communication system and method between in-vehicle speech recognition system and off-vehicle speech recognition system |
JP2014052427A (en) * | 2012-09-05 | 2014-03-20 | Nec Corp | Dictionary updating apparatus, voice recognition system, dictionary updating method, voice recognition method, and computer program |
JP2014521158A (en) * | 2011-07-14 | 2014-08-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Text input method, apparatus, and system |
CN106133826A (en) * | 2014-03-27 | 2016-11-16 | 微软技术许可有限责任公司 | For the self-defining flexible modes of language model |
JP2017045054A (en) * | 2015-08-28 | 2017-03-02 | 株式会社東芝 | Language model improvement device and method, and speech recognition device and method |
JP2018055022A (en) * | 2016-09-30 | 2018-04-05 | 株式会社リコー | Voice recognition system, information processor, and program |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
-
2008
- 2008-08-28 JP JP2008219820A patent/JP2009075582A/en active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9564132B2 (en) | 2010-06-24 | 2017-02-07 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US10818286B2 (en) | 2010-06-24 | 2020-10-27 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
JP2013529794A (en) * | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | Communication system and method between in-vehicle speech recognition system and off-vehicle speech recognition system |
US9620121B2 (en) | 2010-06-24 | 2017-04-11 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US10269348B2 (en) | 2010-06-24 | 2019-04-23 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
JP2014521158A (en) * | 2011-07-14 | 2014-08-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Text input method, apparatus, and system |
JP2014052427A (en) * | 2012-09-05 | 2014-03-20 | Nec Corp | Dictionary updating apparatus, voice recognition system, dictionary updating method, voice recognition method, and computer program |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US10497367B2 (en) | 2014-03-27 | 2019-12-03 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
CN106133826A (en) * | 2014-03-27 | 2016-11-16 | 微软技术许可有限责任公司 | For the self-defining flexible modes of language model |
JP2017515141A (en) * | 2014-03-27 | 2017-06-08 | マイクロソフト テクノロジー ライセンシング,エルエルシー | Flexible schema for language model customization |
CN106486114A (en) * | 2015-08-28 | 2017-03-08 | 株式会社东芝 | Improve method and apparatus and audio recognition method and the device of language model |
JP2017045054A (en) * | 2015-08-28 | 2017-03-02 | 株式会社東芝 | Language model improvement device and method, and speech recognition device and method |
JP2018055022A (en) * | 2016-09-30 | 2018-04-05 | 株式会社リコー | Voice recognition system, information processor, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9626969B2 (en) | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data | |
CN101595447B (en) | Input prediction | |
US8271286B2 (en) | Platform for enabling voice commands to resolve phoneme based domain name registrations | |
US7149550B2 (en) | Communication terminal having a text editor application with a word completion feature | |
US8169409B2 (en) | Method of managing a language information for a text input and method of inputting a text and a mobile terminal | |
US7672436B1 (en) | Voice rendering of E-mail with tags for improved user experience | |
JP5059036B2 (en) | Voice recognition server, telephone, voice recognition system, and voice recognition method | |
JP2009075582A (en) | Terminal device, language model creation device, and distributed speech recognition system | |
JP2015528968A (en) | Generating string prediction using context | |
JP3816094B2 (en) | Apparatus, program and method for supporting creation of electronic mail | |
JP2010236858A (en) | Navigation device | |
KR20160012965A (en) | Method for editing text and electronic device supporting the same | |
JPWO2019035373A1 (en) | Information processing equipment, information processing methods, and programs | |
KR100301219B1 (en) | Voice Portal Service System Using Speech Recognition/Text-to-Speech at Communication Network and Method thereof | |
JP6233867B2 (en) | Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program | |
JP4383637B2 (en) | Voice / text conversion service device for mobile phones | |
JP3848961B2 (en) | Apparatus, program and method for supporting creation of electronic mail | |
JP5402700B2 (en) | Reply mail creation device and reply mail creation method | |
JP4640228B2 (en) | Nickname registration method and apparatus for communication terminal | |
KR100834279B1 (en) | Method for processing message input and mobile terminal for performing the same | |
JP2006048723A (en) | Device, program and method for assisting in preparing email | |
JP5007209B2 (en) | User data management system, information providing system, and user data management method | |
JP2002297502A (en) | Method for supporting to generate electronic mail, portable type data device, and recording medium recorded with application program for supporting to generate electronic mail | |
JP5556115B2 (en) | Portable terminal device and character input candidate extraction method | |
KR100574007B1 (en) | System and method for providing individually central office service using voice recognition, recording medium recording program for implementing the method |