JP6281856B2 - Local language resource reinforcement device and service providing equipment device - Google Patents

Local language resource reinforcement device and service providing equipment device Download PDF

Info

Publication number
JP6281856B2
JP6281856B2 JP2012191972A JP2012191972A JP6281856B2 JP 6281856 B2 JP6281856 B2 JP 6281856B2 JP 2012191972 A JP2012191972 A JP 2012191972A JP 2012191972 A JP2012191972 A JP 2012191972A JP 6281856 B2 JP6281856 B2 JP 6281856B2
Authority
JP
Japan
Prior art keywords
dictionary
language
language resource
service
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012191972A
Other languages
Japanese (ja)
Other versions
JP2014048507A (en
Inventor
芳則 志賀
芳則 志賀
英男 大熊
英男 大熊
法幸 木村
法幸 木村
孔明 杉浦
孔明 杉浦
輝昭 林
輝昭 林
悦雄 水上
悦雄 水上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2012191972A priority Critical patent/JP6281856B2/en
Publication of JP2014048507A publication Critical patent/JP2014048507A/en
Application granted granted Critical
Publication of JP6281856B2 publication Critical patent/JP6281856B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識、自動翻訳等、単語辞書を使用したサービスに関し、特に、音声認識又は自動翻訳の精度を改善するために、ユーザ辞書を補強するための技術に関する。   The present invention relates to a service using a word dictionary, such as speech recognition and automatic translation, and more particularly to a technique for reinforcing a user dictionary in order to improve the accuracy of speech recognition or automatic translation.

携帯型の電話機、特に、いわゆるスマートフォンの普及に伴い、さまざまなアプリケーションが出現している。中でも、入力に音声認識を用いるアプリケーションはこれからさらに普及してくるものと思われる。これは、スマートフォンのように小さな装置では、テキストの入力が難しいという事情による。   With the spread of portable telephones, particularly so-called smartphones, various applications have appeared. In particular, applications that use speech recognition for input are expected to become more popular. This is because it is difficult to input text with a small device such as a smartphone.

しかし、音声認識をさらに普及させるためには、音声認識の精度をさらに高める必要がある。精度を高めるための1つの方策として、音声認識に用いられる辞書を充実させるという方法がある。音声認識では、原理的に、辞書にない単語を認識することが難しいためである。現在でも、音声認識に限らず、音声に関するデータ処理を行なうシステムは、一般に数万から数十万の語彙を持つ辞書を備えている。   However, in order to further spread voice recognition, it is necessary to further improve the accuracy of voice recognition. One way to increase accuracy is to enrich the dictionary used for speech recognition. This is because in speech recognition, it is difficult in principle to recognize words that are not in the dictionary. Even now, not only speech recognition but also a system for processing data related to speech generally includes a dictionary having tens of thousands to hundreds of thousands of vocabularies.

一方で、使用頻度の低い語、例えば専門用語、新語、及び流行語等はこうした辞書には登録されていないことが多い。そうした語彙を含む音声をシステムに入力すると、適切な音声処理の結果が得られない。   On the other hand, infrequently used words such as technical terms, new words, and buzzwords are often not registered in these dictionaries. If speech containing such vocabulary is input to the system, results of appropriate speech processing cannot be obtained.

そうした問題に対処するために、一般的に、こうしたシステムには、ユーザが自ら語彙を登録可能なユーザ辞書が備えられている。ユーザがよく使用する語彙をユーザ辞書に登録することにより、処理量の増加を抑えながら、音声処理の精度を高めることができる。   In order to deal with such a problem, such a system is generally provided with a user dictionary in which a user can register a vocabulary. By registering vocabulary frequently used by the user in the user dictionary, it is possible to improve the accuracy of voice processing while suppressing an increase in the processing amount.

同様の問題が自動翻訳においても生ずる。自動翻訳でも、対象となる2つの言語の語彙の対からなる翻訳辞書と、翻訳先の言語の語彙の辞書とについて、ユーザ辞書を設けておくことにより、ユーザの専門分野に関する文の翻訳精度を高めることができる。   A similar problem occurs with automatic translation. Even in automatic translation, by providing a user dictionary for a translation dictionary consisting of a pair of vocabularies in two languages and a dictionary of vocabularies in the target language, the translation accuracy of a sentence related to a user's specialized field can be improved. Can be increased.

しかし、現状ではユーザ辞書が十分有効に活用されているとはいえないという問題がある。その原因の1つは、ユーザ辞書への語彙登録のための手続きが煩雑であることである。一部のユーザはユーザ辞書を有効に活用しているが、一般的なユーザがユーザ辞書を活用するためには、ユーザ辞書の補強をより簡易に行なえるようにするか、ユーザによるユーザ辞書登録の作業なしでユーザ辞書を補強できるようにする必要がある。   However, there is a problem that the user dictionary cannot be effectively used at present. One of the reasons is that the procedure for registering the vocabulary in the user dictionary is complicated. Some users make effective use of user dictionaries. However, in order for general users to use user dictionaries, it is possible to reinforce user dictionaries more easily, or user dictionaries can be registered by users. It is necessary to be able to reinforce the user dictionary without the work of.

こうした問題を解決するための発明が、後掲の特許文献1に提案されている。特許文献1に開示された音声認識システムの音声認識端末は、基本的には音声認識端末に備えられた音声認識用の辞書を用いて音声認識を行なう。この音声認識に失敗すると、音声認識端末はその音声データを音声認識サーバに送信する。音声認識サーバは、音声認識端末の辞書よりはるかに大きな語彙の音声認識用辞書を用いて音声認識を行ない、結果を音声認識端末に送信する。この音声認識の結果の単語は、元の音声データとともに音声認識用辞書に登録される。したがって、音声認識端末で認識に失敗した単語(通常は音声認識端末の辞書に存在しない単語)が音声認識端末の辞書に追加登録される。特許文献1の開示によれば、この間の処理にユーザが介在することはなく、簡単に音声認識端末の辞書に新たな単語が登録される。   An invention for solving such a problem is proposed in Patent Document 1 described later. The speech recognition terminal of the speech recognition system disclosed in Patent Document 1 basically performs speech recognition using a speech recognition dictionary provided in the speech recognition terminal. If this voice recognition fails, the voice recognition terminal transmits the voice data to the voice recognition server. The voice recognition server performs voice recognition using a voice recognition dictionary having a vocabulary much larger than the dictionary of the voice recognition terminal, and transmits the result to the voice recognition terminal. The speech recognition result word is registered in the speech recognition dictionary together with the original speech data. Accordingly, words that have failed to be recognized by the speech recognition terminal (normally words that do not exist in the dictionary of the speech recognition terminal) are additionally registered in the dictionary of the speech recognition terminal. According to the disclosure of Patent Document 1, a user does not intervene in the processing during this time, and a new word is easily registered in the dictionary of the speech recognition terminal.

特開2012−88370号公報JP 2012-88370 A

しかし、特許文献1に開示されたシステムでは、依然として以下のように解決すべき課題がある。   However, the system disclosed in Patent Document 1 still has problems to be solved as follows.

第1に、ユーザによる発話内に出現しない語彙は、音声認識端末の辞書に単語を登録することができないという問題がある。特許文献1は、ユーザによる発話内に出現しない語彙を端末の辞書に登録することについては全く触れていない。   First, a vocabulary that does not appear in the user's utterance has a problem that a word cannot be registered in the dictionary of the speech recognition terminal. Patent Document 1 does not mention at all about registering a vocabulary that does not appear in the utterance by the user in the dictionary of the terminal.

第2に、特許文献1に記載の発明は、ユーザの発話内容については全く問題としていない。ユーザの発話がある特定分野に関するものに集中する傾向がある場合、その特定分野以外の語彙をユーザ辞書に登録してもあまり効果を得ることはできない。これは、発話がサーバで処理された場合でも同様である。そのような特定分野に適合した形でユーザ辞書を補強することについては、特許文献1は全く関心を示していない。   Second, the invention described in Patent Document 1 does not matter at all about the user's utterance content. If the user's utterances tend to concentrate on a specific field, vocabulary other than that specific field is not very effective even if it is registered in the user dictionary. This is the same even when the utterance is processed by the server. Patent Document 1 shows no interest in reinforcing the user dictionary in such a way as to suit a specific field.

それゆえに本発明の目的は、端末ごとに、簡単な操作で、かつ言語処理の精度を下げないような態様で、ユーザによる言語処理の要求内容に適合した形で、端末に備えられたローカルな言語処理に用いられるローカル言語資源を補強できる言語資源の補強装置、及びそのような言語資源の補強装置と通信して言語サービスを提供することによりローカル言語資源の補強を実現できるサービス提供設備装置を提供することである。   Therefore, an object of the present invention is to provide a local operation provided for each terminal in a manner suitable for the user's language processing requirements in a manner that does not reduce the accuracy of the language processing for each terminal. A language resource reinforcement device that can reinforce a local language resource used for language processing, and a service providing facility device that can realize reinforcement of a local language resource by providing a language service by communicating with such a language resource reinforcement device Is to provide.

本発明の第1の局面に係るローカル言語資源の補強装置は、予め準備された言語資源を用いた言語サービスを提供するサービス提供設備装置とオンラインで通信することにより、当該言語サービスを利用するサービス利用手段と、言語サービスと同種のサービスを、言語資源よりも規模の小さなローカル言語資源を用いてローカルで実行するためのローカルサービス実行手段と、サービス提供設備装置と通信可能なときに、サービス提供設備装置から送信されてくる補強用の言語資源を用いて、ローカル言語資源を補強するための言語資源補強手段とを含む。   A local language resource reinforcement device according to a first aspect of the present invention is a service that uses a language service by communicating online with a service providing equipment device that provides a language service using a language resource prepared in advance. Providing services when it is possible to communicate with the use means, local service execution means for locally executing a service of the same type as the language service using a local language resource having a smaller scale than the language resource, and the service providing equipment. Language resource reinforcing means for reinforcing the local language resource using the language resource for reinforcement transmitted from the facility device.

好ましくは、ローカル言語資源の補強装置は、サービス提供設備装置と通信可能なときに、サービス提供設備装置に対して、ローカル言語資源の補強を依頼する補強依頼を送信するための補強依頼手段をさらに含む。言語資源補強手段は、補強依頼に応答してサービス提供設備装置から送信されてくる補強用の言語資源を用いて、ローカル言語資源を補強するための手段を含む。   Preferably, the local language resource reinforcement device further includes a reinforcement request means for transmitting a reinforcement request for requesting reinforcement of the local language resource to the service providing equipment device when communication with the service providing equipment device is possible. Including. The language resource reinforcing means includes means for reinforcing the local language resource using the reinforcing language resource transmitted from the service providing facility device in response to the reinforcement request.

さらに好ましくは、補強依頼手段は、サービス提供設備装置と通信可能なときに、サービス提供設備装置に対して、処理対象の言語データとともに当該言語データに対する言語サービスによる処理を要求するための処理要求手段を含む。サービス提供設備装置は、処理要求手段からの処理の要求に応答して、処理対象の言語データを言語サービスにより処理した結果と、言語資源の内、当該処理の結果を得る過程で使用した言語資源からなる補強用の言語資源を、ともに、又は別個に、ローカル言語資源の補強装置に送信する。補強するための手段は、サービス提供設備装置と通信可能なときに、サービス提供設備装置から送信されてくる補強用の言語資源を受信して、ローカル言語資源に補強用の言語資源を追加するための言語資源追加手段を含む。   More preferably, the reinforcement requesting means is a processing requesting means for requesting the service providing facility apparatus to perform processing by the language service for the language data together with the language data to be processed when the communication is possible with the service providing facility apparatus. including. In response to the processing request from the processing requesting means, the service providing equipment device has processed the language data to be processed by the language service, and the language resource used in the process of obtaining the processing result of the language resource. The language resource for reinforcement consisting of is transmitted to the local language resource reinforcement device together or separately. The means for reinforcing is for receiving the language resource for reinforcement transmitted from the service providing equipment when the communication is possible with the service providing equipment and adding the language resource for reinforcement to the local language resource. Language resource addition means.

より好ましくは、補強依頼手段は、サービス提供設備装置と通信可能なときに、ローカル言語資源とともに、ローカル言語資源の補強を依頼する補強依頼をサービス提供設備装置に送信するためのローカル言語資源送信手段を含む。補強するための手段は、ローカル言語資源送信手段により送信された補強依頼に応答してサービス提供設備装置から送信されてくる、補強後のローカル言語資源で補強前のローカル言語資源を置換するためのローカル言語資源置換手段を含んでもよい。   More preferably, the reinforcement requesting means is a local language resource transmitting means for transmitting a reinforcement request for requesting reinforcement of the local language resource together with the local language resource to the service providing equipment when communication with the service providing equipment is possible. including. The means for reinforcing is for replacing the local language resource before reinforcement with the local language resource after reinforcement transmitted from the service providing facility device in response to the reinforcement request transmitted by the local language resource transmission means. Local language resource replacement means may be included.

本発明の第2の局面に係るサービス提供設備装置は、オンラインによる通信を介して、予め準備された言語資源を用いた言語サービスを他のクライアント装置に対して提供するサービス提供手段と、サービス提供手段によるサービスの実行結果を用いて、他の端末装置でローカルに使用するローカル言語資源を補強するための補強用言語資源を作成するための補強用言語資源作成手段と、他の端末装置と通信可能なときに、補強用言語資源作成手段により作成された補強用言語資源を他の端末装置に送信するための、補強用言語資源送信手段とを含む。   A service providing facility apparatus according to a second aspect of the present invention provides a service providing means for providing a language service using a language resource prepared in advance to another client device via online communication, and a service providing Communicating with a reinforcement language resource creating means for creating a reinforcement language resource to reinforce a local language resource used locally in another terminal apparatus by using a service execution result by the means, and another terminal apparatus When possible, it includes reinforcement language resource transmission means for transmitting the reinforcement language resource created by the reinforcement language resource creation means to another terminal device.

好ましくは、補強用言語資源作成手段は、他の端末装置でローカルに使用するローカル言語資源の補強を依頼する補強依頼を他の端末装置から受信したことに応答して、サービス提供手段がサービスを提供する際に使用した部分的な言語資源を用いて補強用言語資源を作成するための手段を含む。   Preferably, the reinforcing language resource creating means receives the reinforcement request for requesting reinforcement of the local language resource used locally in the other terminal device from the other terminal device, and the service providing means provides the service. Means for creating a supplemental language resource using the partial language resource used in the provision;

さらに好ましくは、補強用言語資源作成手段は、予め準備された言語資源の内で、他の端末装置からの依頼に応答してサービス提供手段がサービスを提供する際に使用した部分的な言語資源を一時記憶するための一時記憶手段を含む。補強用言語資源送信手段は、サービス提供手段により提供されるサービスの処理結果とともに、又は別個に、一時記憶手段に記憶されていた部分的な言語資源を他の端末装置に送信するための処理結果送信手段とを含む。   More preferably, the reinforcing language resource creating means is a partial language resource used when the service providing means provides a service in response to a request from another terminal device among the prepared language resources. Temporary storage means for temporarily storing. The reinforcement language resource transmitting means transmits the partial language resources stored in the temporary storage means to another terminal device together with or separately from the processing result of the service provided by the service providing means. Transmitting means.

好ましくは、ローカル言語資源は、それぞれ互いに区別される1又は複数のデータ項目を含む。補強用言語資源作成手段は、複数の端末装置から、各端末装置で使用されるローカル言語資源を収集し蓄積するためのローカル言語資源蓄積手段と、ローカル言語資源蓄積手段に蓄積されたローカル言語資源に基づいて、共起する可能性がしきい値より高いと判定される1又は複数の頻出データ項目群を特定するための頻出データ項目群特定手段と、複数の端末装置の各々について、1又は複数の頻出データ項目群の内で当該端末装置から送信されてきたローカル言語資源に一部のデータ項目のみが含まれている頻出データ項目群を特定し、特定された頻出データ項目群に基づいて当該端末装置のための補強用言語資源を作成するための手段とを含む。   Preferably, the local language resource includes one or more data items that are distinguished from each other. The reinforcing language resource creating means includes a local language resource storage means for collecting and storing local language resources used in each terminal device from a plurality of terminal devices, and a local language resource stored in the local language resource storage means. And a frequent data item group specifying means for specifying one or a plurality of frequent data item groups that are determined to have a higher possibility of co-occurrence than a threshold, and for each of the plurality of terminal devices, 1 or A frequent data item group in which only some of the data items are included in the local language resource transmitted from the terminal device is identified from among the multiple frequent data item groups, and based on the identified frequent data item group Means for creating a reinforcing language resource for the terminal device.

以上のように本発明によれば、端末装置は、サービス提供設備装置によりオンラインで提供される言語サービスと同種のアプリケーションを、言語資源よりも規模の小さなローカル言語資源を用いてローカルで実行する。補強依頼手段は、端末装置がサービス提供設備と通信可能なときに、サービス提供設備装置に対して、ローカル言語資源の補強を依頼する補強依頼を送信する。サービス提供設備装置は、この補強依頼を受けると、その端末装置で使用される可能性の高い補強用の言語資源を作成し、端末装置に送信する。端末装置の言語資源補強手段は、この補強用の言語資源を用いて、ローカル言語資源を補強する。   As described above, according to the present invention, the terminal device executes locally the same kind of application as the language service provided online by the service providing facility device, using the local language resource having a smaller scale than the language resource. The reinforcement request means transmits a reinforcement request for requesting reinforcement of the local language resource to the service providing equipment device when the terminal device can communicate with the service providing equipment. Upon receiving this request for reinforcement, the service providing facility device creates a language resource for reinforcement that is likely to be used in the terminal device, and transmits it to the terminal device. The language resource reinforcement means of the terminal device reinforces the local language resource using the language resource for reinforcement.

端末装置では、補強用の言語資源を入出するために、サービス提供設備装置と通信しそのサービスを利用すればよい。そのために特に複雑な操作が要求されることはない。サービス提供設備装置からは、例えば言語サービスの提供中に得られた情報、又は他のユーザの言語資源と端末装置のユーザの言語資源とに対するデータマイニングを行ない、端末装置で使用される可能性の高い言語資源のデータ項目を補強用の言語資源として作成し、端末装置に送信する。   In the terminal device, in order to input and output the language resource for reinforcement, it is only necessary to communicate with the service providing facility device and use the service. Therefore, a particularly complicated operation is not required. From the service providing equipment, for example, the data obtained during the provision of the language service, or data mining for the language resources of other users and the user's language resources of the terminal device, may be used in the terminal device A data item of a high language resource is created as a reinforcing language resource and transmitted to the terminal device.

その結果、端末ごとに、簡単な操作で、かつ音声認識の精度を下げないような態様で、ユーザによる言語処理の要求内容に適合した形でローカル言語資源を補強できるローカル言語資源の補強装置、及びそのようなローカル言語資源の補強装置と通信して言語サービスを提供することによりローカル言語資源の補強を実現できるサービス提供設備装置を提供できる。   As a result, for each terminal, a local language resource reinforcement device that can reinforce local language resources in a form that conforms to the requirements of language processing by the user in a manner that does not reduce the accuracy of speech recognition with a simple operation, In addition, by providing a language service by communicating with such a local language resource reinforcement apparatus, it is possible to provide a service providing facility apparatus that can realize the reinforcement of the local language resource.

本発明の第1の実施の形態に係る音声翻訳システムの全体構成を模式的に示す図である。It is a figure which shows typically the whole structure of the speech translation system which concerns on the 1st Embodiment of this invention. 図1に示すシステムにおける携帯型端末と音声翻訳サーバとの間の通信シーケンスを模式的に示すシーケンス図である。It is a sequence diagram which shows typically the communication sequence between the portable terminal and the speech translation server in the system shown in FIG. 第1の実施の形態のシステムで使用される携帯型端末のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the portable terminal used with the system of 1st Embodiment. 第1の実施の形態のシステムで使用される音声翻訳サーバを実現するコンピュータシステムのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the computer system which implement | achieves the speech translation server used with the system of 1st Embodiment. 第1の実施の形態に係るシステムの音声翻訳サーバにおいて、携帯型端末からの音声翻訳のリクエストに応答して音声翻訳サービスを提供するためのプログラムのフローチャートである。5 is a flowchart of a program for providing a speech translation service in response to a speech translation request from a portable terminal in the speech translation server of the system according to the first embodiment. 第1の実施の形態に係るシステムの携帯型端末において、音声翻訳サーバから送信されてパーソナル辞書用の語彙をパーソナル辞書に登録するためのプログラムの制御構造を示すフローチャートである。4 is a flowchart showing a control structure of a program for registering a vocabulary for a personal dictionary in a personal dictionary transmitted from a speech translation server in a portable terminal of the system according to the first embodiment. 本発明の第2の実施の形態に係る音声翻訳サーバにおいて、携帯型端末と音声翻訳サーバとの間で行なわれる、ユーザ補充辞書を登録又は更新するために行なわれる通信シーケンスを模式的に示すシーケンス図である。The sequence which shows typically the communication sequence performed in order to register or update a user supplement dictionary performed between a portable terminal and a speech translation server in the speech translation server concerning a 2nd embodiment of the present invention. FIG. 第2の実施の形態に係るシステムの音声翻訳サーバにおいて、各ユーザのためのパーソナル辞書用語彙集を作成するプログラムの制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the program which produces the personal dictionary vocabulary for each user in the speech translation server of the system which concerns on 2nd Embodiment.

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。   In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.

[第1の実施の形態]
〈概略〉
《全体構成(図1)》
図1を参照して、この発明に係る音声翻訳システム100は、インターネット102に接続された、音声翻訳クライアント装置からの音声翻訳要求に応答して、言語サービスの一種である音声翻訳サービスを提供する設備装置であるサーバ106と、インターネット102に接続可能で、インターネット102を介してサーバ106と通信可能であればサーバ106により提供される音声翻訳サービスを利用し(図1(A))、何らかの原因でサーバ106と通信することができないときには(図1(B))ローカルな環境で音声翻訳サービス(以下、これを「ローカル音声翻訳サービス」と呼ぶ。)112を実行する機能を持つ携帯型端末104とを含む。ローカル音声翻訳サービス112は、オンラインでサーバ106と通信できないときに、ローカルに音声翻訳サービスを提供する機能と考えることができる。
[First Embodiment]
<Outline>
<< Overall configuration (Fig. 1) >>
Referring to FIG. 1, a speech translation system 100 according to the present invention provides a speech translation service that is a kind of language service in response to a speech translation request from a speech translation client device connected to the Internet 102. If it is possible to connect to the server 106, which is a facility device, and the Internet 102 and communicate with the server 106 via the Internet 102, the speech translation service provided by the server 106 is used (FIG. 1 (A)). When the mobile terminal 104 cannot communicate with the server 106 (FIG. 1B), the portable terminal 104 having a function of executing a speech translation service (hereinafter referred to as “local speech translation service”) 112 in a local environment. Including. The local speech translation service 112 can be considered as a function that provides a speech translation service locally when communication with the server 106 is not possible online.

サーバ106は、大容量の音声処理用の辞書(大語彙辞書108)を用いて音声翻訳サービスを行なう。大語彙辞書108は、個々の語彙を現すデータ項目(辞書エントリ)を、互いに区別できる形式で多数記憶している。なお、音声翻訳サービスにおいては、音声認識のための統計的モデルである音響モデル及び自動翻訳のための統計的モデルである翻訳モデルに加え、一般に、ソース言語の音声認識のための単語辞書と、翻訳時の目的言語の単語辞書と、ソース言語及び目的言語の組合せに応じた翻訳辞書と、ターゲット言語の音声合成時の単語辞書とが必要とされる。以下の説明では、主として音声認識用及び音声合成用の単語辞書並びに翻訳辞書について、サーバ106が、端末ごと(又はユーザごと)に、ユーザ辞書を補強する処理を行なう場合について説明する。   The server 106 performs a speech translation service using a large-capacity speech processing dictionary (large vocabulary dictionary 108). The large vocabulary dictionary 108 stores a large number of data items (dictionary entries) representing individual vocabularies in a form that can be distinguished from each other. In the speech translation service, in addition to the acoustic model that is a statistical model for speech recognition and the translation model that is a statistical model for automatic translation, in general, a word dictionary for speech recognition of the source language, A target language word dictionary at the time of translation, a translation dictionary corresponding to the combination of the source language and the target language, and a word dictionary at the time of speech synthesis of the target language are required. In the following description, a case will be described in which the server 106 performs processing for reinforcing the user dictionary for each terminal (or for each user) mainly for a word dictionary and a translation dictionary for speech recognition and speech synthesis.

なお、図1(A)において、携帯型端末104がサーバ106の音声翻訳サービスを利用する場合、以下のような手順で作業が行なわれる。まず、ユーザが発話した音声を携帯型端末104からサーバ106に翻訳要求とともに送る。サーバ106は、この音声に対して大語彙辞書108を用いた音声認識を行ない、ソース言語の形態素列を出力する。サーバ106はさらに、この形態素列を入力とし、翻訳要求に付された言語ペアの情報にしたがった自動翻訳を行なう。この際、大語彙辞書108内のターゲット言語の言語辞書、及び指定された言語ペアの翻訳辞書が使用される。自動翻訳の結果、目的言語の形態素列が得られるので、その形態素列に対する音声合成を行なって合成音声をサーバ106から携帯型端末104に送信する。この音声合成の際、大語彙辞書108内のターゲット言語の音声合成用の単語辞書が使用される。携帯型端末104は、この合成音声をスピーカで発声する。   In FIG. 1A, when the portable terminal 104 uses the speech translation service of the server 106, the following procedure is performed. First, the voice uttered by the user is sent from the portable terminal 104 to the server 106 together with a translation request. The server 106 performs speech recognition on the speech using the large vocabulary dictionary 108 and outputs a source language morpheme string. Further, the server 106 receives this morpheme string as an input and performs automatic translation according to the information of the language pair attached to the translation request. At this time, the language dictionary of the target language in the large vocabulary dictionary 108 and the translation dictionary of the designated language pair are used. As a result of automatic translation, a morpheme string in the target language is obtained. Therefore, speech synthesis is performed on the morpheme string, and the synthesized speech is transmitted from the server 106 to the portable terminal 104. In this speech synthesis, the target language speech synthesis word dictionary in the large vocabulary dictionary 108 is used. The portable terminal 104 utters this synthesized voice through a speaker.

図1(B)を参照して、携帯型端末104は、ローカル音声翻訳サービス112を実行するために用いる、大語彙辞書108よりも小さな音声処理用のローカル辞書110を内蔵している。ローカル辞書110は、互いに区別される語彙を個々のデータ項目として、大語彙辞書108のデータ項目数より小さな数のデータ項目を記憶している。この数が大語彙辞書108のデータ項目数より小さいのは、携帯型端末104のハードウェア上及び性能上の制約による。   Referring to FIG. 1B, the portable terminal 104 incorporates a local dictionary 110 for speech processing that is smaller than the large vocabulary dictionary 108 used to execute the local speech translation service 112. The local dictionary 110 stores a number of data items smaller than the number of data items in the large vocabulary dictionary 108, with vocabulary distinguished from each other as individual data items. The reason why this number is smaller than the number of data items in the large vocabulary dictionary 108 is due to restrictions on hardware and performance of the portable terminal 104.

図1(B)の実施形態では、上記した音声翻訳の過程で、サーバ106が携帯型端末104のローカル辞書110に追加登録すべき単語候補を抽出し、一時的に記憶した後、音声翻訳の結果を送信する際に一緒に携帯型端末104に送る。携帯型端末104では、受信した単語候補の内、ローカル辞書110に存在しないもののみをローカル辞書110に追加登録する。これら処理の詳細については後述する。   In the embodiment of FIG. 1B, in the above-described speech translation process, the server 106 extracts word candidates to be additionally registered in the local dictionary 110 of the portable terminal 104, temporarily stores them, and then performs speech translation. When the result is transmitted, it is sent to the portable terminal 104 together. In the portable terminal 104, only the received word candidates that do not exist in the local dictionary 110 are additionally registered in the local dictionary 110. Details of these processes will be described later.

音声認識用辞書の各エントリは、見出し語である単語(又は形態素)と、その見出し語に対する音声認識を機能させるために必要な情報を含む。   Each entry in the speech recognition dictionary includes a word (or morpheme) that is a headword and information necessary for functioning voice recognition for the headword.

翻訳用辞書の各エントリは、見出し語である単語(又は形態素)と、その見出し語に対する言語翻訳を機能させるために必要な情報を含む。   Each entry in the translation dictionary includes a word (or morpheme) that is a headword and information necessary for the language translation for the headword to function.

音声合成用辞書の各エントリは、見出し語である単語(又は形態素)と、その見出し語に対する音声合成を機能させるために必要な情報を含む。   Each entry of the dictionary for speech synthesis includes a word (or morpheme) that is a headword and information necessary for functioning speech synthesis for the headword.

─音声翻訳及び辞書登録のシーケンス(図2)─
図2を参照して、音声翻訳システム100のサーバ106により提供される音声翻訳サービスを用いた音声翻訳の際の、携帯型端末104とサーバ106との間の典型的な通信シーケンスを説明する。ここで、携帯型端末104がローカルに保持している言語資源であるローカル辞書110は、携帯型端末104でローカルに稼動するローカル音声翻訳サービス112が使用する、基本的な語彙を収めた基本辞書134と、ユーザが独自に語彙を登録できるユーザ辞書130とを含む。本実施の形態に係るローカル辞書110はさらに、サーバ106の機能によって、基本辞書134に含まれず、かつユーザ辞書130にも含まれない単語であって、サーバ106による音声翻訳サービスの過程で使用され一時的に記憶装置に記憶されていた音声認識用、自動翻訳用、及び音声合成用の単語辞書のエントリからなる、ユーザ辞書130を補強するためのパーソナル辞書132を含む。
─ Speech translation and dictionary registration sequence (Fig. 2) ─
With reference to FIG. 2, a typical communication sequence between the portable terminal 104 and the server 106 at the time of speech translation using the speech translation service provided by the server 106 of the speech translation system 100 will be described. Here, the local dictionary 110, which is a language resource locally held by the portable terminal 104, is a basic dictionary containing basic vocabulary used by the local speech translation service 112 operating locally on the portable terminal 104. 134 and a user dictionary 130 in which a user can register vocabulary independently. The local dictionary 110 according to the present embodiment is a word that is not included in the basic dictionary 134 and not included in the user dictionary 130 by the function of the server 106, and is used in the process of the speech translation service performed by the server 106. A personal dictionary 132 for reinforcing the user dictionary 130, which includes word dictionary entries for speech recognition, automatic translation, and speech synthesis temporarily stored in the storage device, is included.

最初に、携帯型端末104において音声入力150を行ない、その音声データと、音声翻訳の言語の組合せ等の情報とを含む音声認識リクエストをサーバ106に送信する。このリクエストは、本実施の形態では、音声認識の依頼であるとともに、ローカルのユーザ辞書130を補強する処理を行なうようサーバ106に対して行なわれる補強依頼でもある。   First, voice input 150 is performed in portable terminal 104, and a voice recognition request including the voice data and information such as a language combination of voice translation is transmitted to server 106. In this embodiment, this request is a request for speech recognition, and is also a reinforcement request made to the server 106 to perform a process for reinforcing the local user dictionary 130.

サーバ106は、音声認識リクエストを受信すると、音声認識処理152を行なう。この音声認識の過程で、サーバ106は、大語彙辞書108の内、音声認識処理152により用いられた辞書エントリをパーソナル辞書作成用記憶部380(図4参照)に一時的に記録する。続いてサーバ106は、音声認識処理152により出力されるソース言語の形態素列に対し、ターゲット言語への自動翻訳154を行なう。この自動翻訳処理の過程でもサーバ106は、大語彙辞書108内の音声認識用辞書の、自動翻訳154で用いられたエントリをパーソナル辞書作成用記憶部380に一時的に記録する。さらにサーバ106は、自動翻訳154により得られたターゲット言語の形態素列に基づいて、図示しない音声合成用のリソースを用いて音声合成156を行なう。この音声合成処理の過程でもサーバ106は、大語彙辞書108内の音声合成用辞書の、音声合成156で用いられたエントリをパーソナル辞書作成用記憶部380に一時的に記憶する。最後に、サーバ106は、音声認識結果、自動翻訳結果、及び合成音声からなるサービスの利用結果、並びにパーソナル辞書作成用記憶部380に一時的に記録されたパーソナル辞書132の補強用言語資源である辞書エントリを携帯型端末104に送信する(処理158)。なお、サーバ106においては、自動翻訳154による翻訳結果をソース言語に逆翻訳し、その結果の形態素列も携帯型端末104に送信する。このように逆翻訳を携帯型端末104で表示することにより、ユーザは自分の意図した内容がターゲット言語に翻訳されたか否かを判断できる。ただし、逆翻訳については本発明に直接関係するわけではないので、以下の説明では逆翻訳についての説明は行なわない。   When the server 106 receives the voice recognition request, the server 106 performs voice recognition processing 152. In the process of speech recognition, the server 106 temporarily records the dictionary entry used by the speech recognition process 152 in the large vocabulary dictionary 108 in the personal dictionary creation storage unit 380 (see FIG. 4). Subsequently, the server 106 performs automatic translation 154 to the target language on the morpheme string of the source language output by the speech recognition processing 152. Even during the automatic translation process, the server 106 temporarily records the entry used in the automatic translation 154 of the speech recognition dictionary in the large vocabulary dictionary 108 in the personal dictionary creation storage unit 380. Furthermore, the server 106 performs speech synthesis 156 using speech synthesis resources (not shown) based on the target language morpheme sequence obtained by the automatic translation 154. Even during the speech synthesis process, the server 106 temporarily stores the entry used in the speech synthesis 156 of the speech synthesis dictionary in the large vocabulary dictionary 108 in the personal dictionary creation storage unit 380. Finally, the server 106 is a language resource for reinforcing the personal dictionary 132 temporarily recorded in the personal dictionary creation storage unit 380, and the service use result including the speech recognition result, the automatic translation result, and the synthesized speech. The dictionary entry is transmitted to the portable terminal 104 (process 158). The server 106 back-translates the translation result by the automatic translation 154 into the source language, and transmits the resulting morpheme string to the portable terminal 104. By displaying the reverse translation on the portable terminal 104 in this way, the user can determine whether or not the content intended by the user has been translated into the target language. However, since reverse translation is not directly related to the present invention, reverse translation is not described in the following description.

サーバ106からの音声認識結果、自動翻訳結果、合成音声、及び辞書エントリを受信した携帯型端末104は、音声認識と自動翻訳との結果のテキストを画面に表示すると同時に、合成音声をスピーカを用いて発声する(処理160)。この音声を携帯型端末104のユーザと対話している相手に聞かせることで、ユーザと相手との対話を行なうことができる。   The portable terminal 104 that has received the speech recognition result, automatic translation result, synthesized speech, and dictionary entry from the server 106 displays the text of the result of speech recognition and automatic translation on the screen, and simultaneously uses the synthesized speech using a speaker. To speak (process 160). By making this voice heard by the other party who is interacting with the user of the portable terminal 104, the user can interact with the other party.

さらに、続く処理162で、サーバ106から受信したソース言語及びターゲット言語の音声認識用及び音声合成用辞書のエントリと、ソース言語及びターゲット言語の組合せに対応する翻訳辞書のエントリとをパーソナル辞書132のソース言語及びターゲット言語の音声認識用及び音声合成用辞書、並びにソース言語とターゲット言語との組合せに対応する翻訳辞書に追加する。この処理により、ローカルの言語資源であるユーザ辞書130が補強される。ただし、サーバ106から送信された辞書エントリの内、既にユーザ辞書130又は基本辞書134に収められている単語はパーソナル辞書132には追加しない。   Further, in the subsequent process 162, the speech recognition and speech synthesis dictionary entries of the source language and the target language received from the server 106 and the translation dictionary entries corresponding to the combination of the source language and the target language are stored in the personal dictionary 132. It is added to the dictionary for speech recognition and speech synthesis of the source language and the target language, and the translation dictionary corresponding to the combination of the source language and the target language. This process reinforces the user dictionary 130 which is a local language resource. However, words already stored in the user dictionary 130 or the basic dictionary 134 among the dictionary entries transmitted from the server 106 are not added to the personal dictionary 132.

なお、サーバ106が送出する辞書エントリの作成及び一時的記憶、並びにクライアント装置への送信は、音声翻訳サービスの提供と同時である必要はなく、どのようなタイミングでもよい。例えば、音声翻訳の履歴をクライアント装置ごとに記録しておき、それら履歴に基づいて辞書エントリを作成し記憶してもよい。エントリの送信も音声翻訳サービス提供と同時である必要はなく、サーバ106に保持しておいて何らかのタイミングでクライアント装置に送信してもよい。サーバ106において、携帯型端末104の基本辞書134の語彙が分かっている場合には、処理158で携帯型端末104に送信する辞書エントリの内、基本辞書に搭載されているエントリを除くようにしてもよい。   The creation and temporary storage of the dictionary entry sent by the server 106 and the transmission to the client device do not have to be performed at the same time as the provision of the speech translation service, and may be at any timing. For example, a speech translation history may be recorded for each client device, and dictionary entries may be created and stored based on the history. The entry need not be transmitted simultaneously with the provision of the speech translation service, and may be stored in the server 106 and transmitted to the client device at some timing. If the vocabulary of the basic dictionary 134 of the portable terminal 104 is known in the server 106, the entries installed in the basic dictionary are excluded from the dictionary entries transmitted to the portable terminal 104 in the process 158. Also good.

なお、図2に示したのは典型的な処理シーケンスである。この処理シーケンスと異なるシーケンスであっても、図2に示したものと本質的に同じ通信を同じ順序で含む処理シーケンスであれば、本実施の形態と同じ効果を得ることができることはいうまでもない。ユーザがさらに音声翻訳サービスを利用する場合には、図2のシーケンスが繰返し実行される。   FIG. 2 shows a typical processing sequence. It goes without saying that even if this sequence is different from this processing sequence, the same effect as this embodiment can be obtained as long as it is a processing sequence that includes essentially the same communication as that shown in FIG. 2 in the same order. Absent. When the user further uses the speech translation service, the sequence of FIG. 2 is repeatedly executed.

なお、クライアント装置は、パーソナル辞書に登録されたエントリを、そのクライアント装置において各エントリが使用された頻度にしたがって自動的に保守する機能を持つものとしてもよい。例えば、パーソナル辞書のエントリごとに、音声翻訳サービスにおいて使用された回数を記憶しておき、パーソナル辞書が肥大化して一定の容量を超えると、使用頻度の低いエントリを消去するようにしてもよい。こうすることで、パーソナル辞書の容量を一定以下に維持することができる。   Note that the client device may have a function of automatically maintaining entries registered in the personal dictionary according to the frequency with which each entry is used in the client device. For example, the number of times used in the speech translation service may be stored for each entry in the personal dictionary, and when the personal dictionary is enlarged and exceeds a certain capacity, an entry with low usage frequency may be deleted. In this way, the capacity of the personal dictionary can be maintained below a certain level.

〈ハードウェア構成〉
《携帯型端末104(図3)》
図3を参照して、携帯型端末104は、所定のプログラムを実行して携帯型端末104の各部を制御することにより、種々の機能を実現するためのプロセッサ250と、プロセッサ250が実行する各種プログラム及びデータを記憶するメモリ252と、プロセッサ250のための作業記憶領域を提供するRAM262と、プロセッサ250と後述する各種センサ等との間のインターフェイス254とを含む。以下に説明する構成要素は、いずれも、インターフェイス254を介してプロセッサ250と通信可能である。
<Hardware configuration>
<Portable terminal 104 (FIG. 3)>
With reference to FIG. 3, the portable terminal 104 executes a predetermined program and controls each unit of the portable terminal 104, thereby implementing a processor 250 for realizing various functions, and various types executed by the processor 250. A memory 252 for storing programs and data, a RAM 262 for providing a working storage area for the processor 250, and an interface 254 between the processor 250 and various sensors described later are included. Any of the components described below can communicate with the processor 250 via the interface 254.

携帯型端末104はさらに、マイクロフォン256、GPS機能により携帯型端末104の位置の経度及び緯度情報を取得するためのGPS受信機258、各種のセンサ群260、無線通信により図示しない基地局を介してインターネット102に接続可能な通信装置272、タッチパネル274、タッチパネル274とは別に携帯型端末104の筐体に設けられた操作ボタン276、及びスピーカ280を含む。   The portable terminal 104 further includes a microphone 256, a GPS receiver 258 for acquiring longitude and latitude information of the position of the portable terminal 104 by the GPS function, various sensor groups 260, and a base station (not shown) by wireless communication. In addition to the communication device 272 that can be connected to the Internet 102, the touch panel 274, and the touch panel 274, an operation button 276 and a speaker 280 provided on the housing of the portable terminal 104 are included.

メモリ252は、サーバ106と通信可能なときにサーバ106が提供する音声翻訳サービスを利用するための音声翻訳クライアントアプリケーションプログラム(以下、「音声翻訳クライアント」と呼ぶ。)300と、ローカル音声翻訳サービス112(図1を参照)を実現するためのアプリケーション群、音響モデル及び翻訳モデル、並びに音声合成のための音響リソース等のローカルプログラム群302と、前述したローカル辞書110に対応する辞書群304と、サーバ106との通信によりパーソナル辞書132にエントリを追加する処理を実行するパーソナル辞書自動登録プログラム306と、ユーザがユーザ辞書130を保守するために使用する辞書保守プログラム308とを記憶する。   The memory 252 includes a speech translation client application program (hereinafter referred to as “speech translation client”) 300 for using a speech translation service provided by the server 106 when it can communicate with the server 106, and the local speech translation service 112. (See FIG. 1) Application group, acoustic model and translation model, local program group 302 such as acoustic resources for speech synthesis, dictionary group 304 corresponding to the above-mentioned local dictionary 110, and server A personal dictionary automatic registration program 306 that executes processing for adding an entry to the personal dictionary 132 through communication with the user dictionary 106 and a dictionary maintenance program 308 that is used by the user to maintain the user dictionary 130 are stored.

《サーバ106(図4)》
上記実施の形態に係るサーバ106は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図4はこのサーバ106を構成するコンピュータの内部構成を示す。
<< Server 106 (FIG. 4) >>
The server 106 according to the above embodiment can be realized by computer hardware and a computer program executed on the computer hardware. FIG. 4 shows the internal configuration of the computer constituting the server 106.

図4を参照して、サーバ106は、ルータ376を介してインターネット102に接続されるLAN378と、LAN378に接続され、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、いずれもコンピュータ340に接続されたキーボード346、マウス348、及びモニタ342とを含む。サーバ106はさらに、コンピュータ340に接続されたプリンタを含んでもよい。   Referring to FIG. 4, the server 106 includes a LAN 378 connected to the Internet 102 via a router 376 and a computer 340 connected to the LAN 378 and having a memory port 352 and a DVD (Digital Versatile Disc) drive 350. A keyboard 346, a mouse 348, and a monitor 342 connected to the computer 340 are included. Server 106 may further include a printer connected to computer 340.

コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356に接続されたバス366とを含む。メモリポート352及びDVDドライブ350もこのバス366に接続されている。コンピュータ340はさらに、バス366に接続され、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を一時的に記憶するRAM360とを含む。サーバ106はさらに、CPU356が使用する、音声認識、自動翻訳、音声合成等のためのプログラムと、これらに必要な音響モデル、翻訳モデル、単語辞書、音声合成用の音声素片等の各種データと、コンピュータ340のオペレーティングシステムプログラム等を記憶するハードディスク354と、コンピュータ340に、LAN378上又はルータ376を介してインターネット102上の他端末(例えば携帯型端末104)との接続を提供するネットワークインターフェイスカード(NIC)368と、HDD354に記憶された各種辞書の内、ユーザからの音声翻訳リクエストの処理に参照され使用された辞書エントリを携帯型端末104の端末IDと関連付けて一時的に記憶するための、ハードディスク等からなるパーソナル辞書作成用記憶部380とを含む。   The computer 340 includes a CPU (Central Processing Unit) 356 and a bus 366 connected to the CPU 356 in addition to the memory port 352 and the DVD drive 350. A memory port 352 and a DVD drive 350 are also connected to the bus 366. The computer 340 is further connected to a bus 366, and a read only memory (ROM) 358 that stores a boot-up program and the like, and a RAM 360 that is connected to the bus 366 and temporarily stores a program command, a system program, work data, and the like. Including. The server 106 further uses a program for speech recognition, automatic translation, speech synthesis, etc. used by the CPU 356, and various data such as an acoustic model, translation model, word dictionary, speech unit for speech synthesis, and the like necessary for these programs. A hard disk 354 that stores an operating system program of the computer 340, and a network interface card that provides the computer 340 with connection to another terminal (eg, the portable terminal 104) on the Internet 102 via the LAN 378 or the router 376 NIC) 368 and a dictionary entry that is referred to and used for processing of a speech translation request from a user among various dictionaries stored in HDD 354 and temporarily associated with the terminal ID of portable terminal 104. Personal computer consisting of hard disk And a book created for the storage unit 380.

ハードディスク354は、音声翻訳サーバの各機能部をサーバ106のコンピュータハードウェアにより実現するためのコンピュータプログラム、オペレーティングシステム(OS)、及び各種モデル等のデータを記憶する不揮発性の補助記憶装置である。このコンピュータプログラムは、DVDドライブ350又はメモリポート352にそれぞれ装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送され記憶される。又は、プログラムはインターネット102、ルータ376及びNIC368を通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。上記各実施の形態の装置及び方法を実現するためのプログラム、及び各種のデータは実行の際に適宜RAM360にロードされる。DVD362から、リムーバブルメモリ364から、又はネットワークを介して、直接にRAM360に各種プログラム及びデータをロードしてもよい。   The hard disk 354 is a non-volatile auxiliary storage device that stores data such as a computer program, an operating system (OS), and various models for realizing each functional unit of the speech translation server by the computer hardware of the server 106. This computer program is stored in the DVD 362 or the removable memory 364 mounted in the DVD drive 350 or the memory port 352, and further transferred to and stored in the hard disk 354. Alternatively, the program may be transmitted to the computer 340 through the Internet 102, the router 376 and the NIC 368 and stored in the hard disk 354. Programs and various data for realizing the devices and methods of the above-described embodiments are appropriately loaded into the RAM 360 at the time of execution. Various programs and data may be loaded into the RAM 360 directly from the DVD 362, the removable memory 364, or via a network.

〈ソフトウェア構成〉
《サーバ106(図5)》
サーバ106で実行される音声翻訳サービスのプログラムの制御構造を図5に示す。音声翻訳サービスの各機能を実現するためのプログラムは,以下のような制御構造を持つ。なお、このプログラムは、コンピュータ340を、上記実施の形態に係る音声翻訳サーバの各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するOS若しくはサードパーティのプログラム、又は、コンピュータ340にインストールされる各種プログラミングツールキットのモジュール若しくはフレームワークにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な命令を必ずしも全て含まなくてよい。このプログラムは、命令の内容にしたがい、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。このように、適宜必要な命令又は一連の命令の集合を必要に応じて適宜記憶装置から読出して実行する際のサーバ106の動作は周知である。したがってここではその詳細な説明は繰返さない。
<Software configuration>
<< Server 106 (FIG. 5) >>
FIG. 5 shows a control structure of a speech translation service program executed by the server 106. The program for realizing each function of the speech translation service has the following control structure. This program includes a plurality of instructions for causing the computer 340 to function as each functional unit of the speech translation server according to the above embodiment. Some of the basic functions necessary to perform this operation are provided by an OS or a third-party program running on the computer 340, or a module or framework of various programming toolkits installed on the computer 340. . Therefore, this program does not necessarily include all the instructions necessary for realizing the system and method of this embodiment. This program realizes the above-described system function by calling an appropriate function or an appropriate program tool in a programming tool kit in a controlled manner so as to obtain a desired result according to the contents of the instruction. It only needs to contain instructions. As described above, the operation of the server 106 when a necessary instruction or a set of a series of instructions is read from the storage device and executed as necessary is well known. Therefore, detailed description thereof will not be repeated here.

図5を参照して、このプログラムは、起動後にまず記憶領域の確保、所定変数の値の初期化、通信状態の確認等の初期化処理を行なうステップ400と、ステップ400の初期化が完了した後、端末からの音声翻訳リクエストの受信等のイベントを待ち受け、イベントが発生するとイベントの種類に応じて制御の流れを分岐させるステップ402とを含む。ステップ402で受ける可能性のあるイベントとしては、携帯型端末104等からの音声翻訳リクエスト、音声認識結果の修正リクエスト、音声翻訳の条件設定リクエスト等、種々のものがあり得る。ここでは本発明に特に関係のある、音声翻訳リクエストに応答してサーバ106が実行する処理部分について説明し、それ以外のリクエストがあったときの処理は図5においてステップ430としてまとめて示し、その詳細については説明しない。   Referring to FIG. 5, after starting up this program, step 400 for initializing storage areas, initializing values of predetermined variables, confirmation of communication status, etc., and initialization of step 400 are completed. Thereafter, the process includes a step 402 of waiting for an event such as reception of a speech translation request from the terminal and branching the flow of control according to the type of the event when the event occurs. Events that may be received in step 402 may include various events such as a speech translation request from the portable terminal 104, a speech recognition result correction request, a speech translation condition setting request, and the like. Here, the processing part executed by the server 106 in response to a speech translation request that is particularly relevant to the present invention will be described. The processing when there is another request is collectively shown as step 430 in FIG. Details are not described.

ステップ402で携帯型端末104等のクライアント装置から音声翻訳リクエストを受信すると、制御はステップ404に進む。音声翻訳リクエストは、翻訳対象となる音声データと、翻訳言語の組合せを示す情報と、端末ID及びそのアドレス等とを含む。ステップ404では、このリクエストがクライアント装置との新たなセッションを開くものか否かを判定する。新たなセッションの場合、サーバ106はユニークなセッションIDを生成し、そのセッションIDと、クライアント装置の端末IDとをRAM360(図4)に保存する(ステップ406)。以後、クライアント装置との通信には必ずこのセッションIDを使用してクライアント装置を区別する。セッションIDと端末IDとを関係付けることにより、各端末に応じた処理をサーバ106で管理することが可能になる。セッション管理自体はよく知られた技術であり、説明及び図面を分かりやすくするため、セッション管理についての詳細は以後の説明では行なわない。   When a speech translation request is received from a client device such as the portable terminal 104 in step 402, control proceeds to step 404. The speech translation request includes speech data to be translated, information indicating a combination of translation languages, a terminal ID, its address, and the like. In step 404, it is determined whether this request is to open a new session with the client device. In the case of a new session, the server 106 generates a unique session ID, and stores the session ID and the terminal ID of the client device in the RAM 360 (FIG. 4) (step 406). Thereafter, this session ID is always used for communication with the client device to distinguish the client device. By associating the session ID with the terminal ID, the server 106 can manage processing corresponding to each terminal. Session management itself is a well-known technique, and details of session management will not be given in the following description in order to make the description and drawings easy to understand.

なお、ここでいう「新規」とは、過去の一定期間内にこの端末IDから音声翻訳リクエスト等がなかったことをいう。セッションID及び端末IDは、その端末からの通信が所定期間なかったときには自動的に廃棄されるので、その後に同じ端末から音声翻訳リクエストを受信したときには新規のリクエストとして扱われる。   Note that “new” here means that there has been no speech translation request or the like from this terminal ID within a certain past period. Since the session ID and the terminal ID are automatically discarded when there is no communication from the terminal for a predetermined period, when a speech translation request is subsequently received from the same terminal, it is treated as a new request.

この後、ステップ408で、リクエストとともに受信した音声データに対し、音声認識プログラムを実行することにより音声認識を行なう。この音声認識のプロセスでは、音声認識結果の語彙を得るために、ソース言語の単語辞書が使用される。音声認識が終了すると、認識結果の形態素列からなるテキストが得られる。   Thereafter, in step 408, voice recognition is performed on the voice data received together with the request by executing a voice recognition program. In the speech recognition process, a source language word dictionary is used to obtain a vocabulary of speech recognition results. When the speech recognition is completed, a text composed of a recognition result morpheme sequence is obtained.

ステップ408に続くステップ410では、音声データと、その認識結果と、音声認識で使用された辞書エントリをパーソナル辞書作成用記憶部380に一時的に記憶する。   In step 410 following step 408, the voice data, the recognition result, and the dictionary entry used in the voice recognition are temporarily stored in the personal dictionary creation storage unit 380.

続くステップ412では、ステップ408で得られた音声認識の結果である形態素列に対し、音声翻訳リクエスト中の設定データにより特定される言語への自動翻訳を実行する。この自動翻訳のプロセスでは、言語の組合せに応じた翻訳辞書と、ターゲット言語の単語辞書とが使用される。   In the following step 412, automatic translation into the language specified by the setting data in the speech translation request is executed on the morpheme string that is the result of speech recognition obtained in step 408. In this automatic translation process, a translation dictionary corresponding to a combination of languages and a word dictionary of the target language are used.

ステップ412に続くステップ414で、ステップ412の自動翻訳で使用された辞書エントリをパーソナル辞書作成用記憶部380に一時的に記憶する。   In step 414 following step 412, the dictionary entry used in the automatic translation in step 412 is temporarily stored in the personal dictionary creation storage unit 380.

ステップ414に続くステップ416では、ステップ412の翻訳結果をソース言語に逆翻訳し、翻訳結果の音声を合成する。最終的に、音声認識の結果である形態素列及びその付属情報と、翻訳結果と、逆翻訳結果と、合成音声とが得られる。ステップ416に続くステップ418において、サーバ106は、これらの情報と、パーソナル辞書作成用記憶部380に一時的に記録されていた音声認識及び自動翻訳の際に使用された各種辞書の辞書エントリ、並びに辞書の種類及び言語を示す情報とともに、音声翻訳リクエストを送信してきた端末装置に送信して制御をステップ402に戻す。なお、ここで送信される辞書エントリは、ほとんどの場合、各辞書について複数存在するが、それらは全て携帯型端末104に送信される。   In step 416 following step 414, the translation result of step 412 is back-translated into the source language, and the speech of the translation result is synthesized. Finally, a morpheme string and its associated information, a translation result, a reverse translation result, and a synthesized speech are obtained as a result of speech recognition. In step 418 following step 416, the server 106 stores these information, dictionary entries of various dictionaries used for speech recognition and automatic translation temporarily recorded in the personal dictionary creation storage unit 380, and The information indicating the type and language of the dictionary is transmitted to the terminal device that has transmitted the speech translation request, and the control returns to step 402. In most cases, a plurality of dictionary entries are transmitted for each dictionary, but all of them are transmitted to the portable terminal 104.

ステップ402で他のイベントが発生した場合には、制御はステップ430に分岐し、そのイベントに対応した処理を実行して制御をステップ402に戻す。   If another event occurs in step 402, control branches to step 430, the process corresponding to the event is executed, and control is returned to step 402.

《携帯型端末104(図6)》
携帯型端末104で実行される、音声認識クライアントアプリケーションの内、サーバ106から音声翻訳結果を受信したときに実行されるルーチン部分の制御構造を図6に示す。音声認識クライアントアプリケーションの内、この部分以外については、本発明とは関係がほとんどないので、ここではその詳細は説明しない。
<Portable terminal 104 (FIG. 6)>
FIG. 6 shows a control structure of a routine portion executed when a speech translation result is received from the server 106 in the speech recognition client application executed on the portable terminal 104. Other than this part of the voice recognition client application, there is almost no relation to the present invention, so the details will not be described here.

例えば、本実施の形態では、このプログラムを起動するためのアイコンが携帯型端末104のタッチパネル画面に表示され、利用者がそのアイコンにタッチすることにより起動される。画面には音声入力を開始又は終了させるボタン、音声翻訳の組合せを設定するためのボタン等が表示されており、それらボタンを押すことにより、ユーザが望む処理に対応したリクエストが、そのリクエストを処理するために必要とされるデータとともにサーバ106に送信される。図6に示されるのは、音声翻訳リクエストをサーバ106に送信した後、サーバ106から音声翻訳結果を受信したときに実行されるルーチン部分である。   For example, in the present embodiment, an icon for starting this program is displayed on the touch panel screen of the portable terminal 104, and is started when the user touches the icon. On the screen, buttons for starting or ending speech input, buttons for setting a combination of speech translation, and the like are displayed. By pressing these buttons, a request corresponding to a process desired by the user is processed. Is sent to the server 106 along with the data needed to do so. FIG. 6 shows a routine executed when a speech translation result is received from the server 106 after a speech translation request is transmitted to the server 106.

図6を参照して、このルーチンは、サーバ106から受信した音声認識結果のテキスト、自動翻訳結果のテキスト、逆翻訳結果のテキスト、合成音声データ、音声認識用辞書エントリ、及び翻訳用辞書エントリを互いに分離するステップ450と、音声認識結果、翻訳結果、及びその逆翻訳結果を携帯型端末104の画面に表示するステップ452と、自動翻訳結果の合成音声をスピーカ280(図3)を駆動して発声するステップ454とを含む。スピーカ280を合成音声データにしたがって駆動することで、要求した発話の翻訳結果が音声の形で提示される。   Referring to FIG. 6, this routine stores the speech recognition result text, automatic translation result text, reverse translation result text, synthesized speech data, speech recognition dictionary entry, and translation dictionary entry received from server 106. Step 450 for separating from each other, Step 452 for displaying the speech recognition result, the translation result, and the reverse translation result on the screen of the portable terminal 104, and driving the speaker 280 (FIG. 3) for the synthesized speech of the automatic translation result. And uttering step 454. By driving the speaker 280 according to the synthesized voice data, the translation result of the requested utterance is presented in the form of voice.

続いて、サーバ106から受信した複数の音声認識用辞書エントリに対して以下に述べる処理を実行するステップ456が実行される。   Subsequently, step 456 of executing the processing described below on the plurality of dictionary entries for speech recognition received from the server 106 is executed.

ステップ456で音声認識用辞書エントリの各々に対して実行される処理は、ローカル辞書110の内、音声認識用の単語辞書のいずれかに、処理対象の辞書エントリが存在するか否かを判定するステップ458と、ステップ458の判定が否定のときに、処理対象の辞書エントリを音声認識用のパーソナル辞書(パーソナル辞書132の一部)に追加するステップ460とを含む。ステップ458の判定が肯定ならその辞書エントリについては何もされない。   The processing executed for each of the speech recognition dictionary entries in step 456 determines whether or not there is a dictionary entry to be processed in any of the speech recognition word dictionaries in the local dictionary 110. Step 458 and step 460 of adding the dictionary entry to be processed to the voice recognition personal dictionary (part of the personal dictionary 132) when the determination in step 458 is negative. If the determination at step 458 is affirmative, nothing is done for the dictionary entry.

このプログラムはさらに、サーバ106から受信した複数の自動翻訳用辞書エントリに対して以下に述べる処理を実行するステップ462を含む。   The program further includes a step 462 for executing the processing described below on the plurality of dictionary entries for automatic translation received from the server 106.

ステップ462で各エントリに対して実行される処理は、処理対象の自動翻訳用辞書エントリが、ローカル辞書110の内、自動翻訳用辞書のいずれかに存在するか否かを判定するステップ464と、ステップ464の判定が否定のときに、処理対象の辞書エントリを自動翻訳用のパーソナル辞書(パーソナル辞書132の一部)に追加するステップ466とを含む。ステップ464の判定が肯定の場合には、その辞書エントリについては何も行なわれない。   The processing executed for each entry in step 462 includes step 464 for determining whether the automatic translation dictionary entry to be processed exists in any of the local translation dictionaries in the local dictionary 110; And a step 466 of adding a dictionary entry to be processed to a personal dictionary for automatic translation (a part of the personal dictionary 132) when the determination in step 464 is negative. If the determination at step 464 is affirmative, nothing is done for that dictionary entry.

以上が、携帯型端末104で実行される、サーバ106の音声翻訳サービスを利用するための音声翻訳クライアント300の内、サーバ106から音声翻訳結果と辞書エントリとを受信したときに行なわれるルーチンの制御構造である。   The control of the routine executed when the speech translation result and the dictionary entry are received from the server 106 in the speech translation client 300 for using the speech translation service of the server 106 executed on the portable terminal 104. Structure.

〈動作〉
《概要》
─音声翻訳─
携帯型端末104等には、図3に示すような音声翻訳クライアント300を予め配布しておく。本実施の形態では、携帯型端末104が接続可能なサーバ106は、音声翻訳クライアント300により固定されているものとする。もちろん、サーバ106が複数あるなら、ユーザがそれらの中から所望のものを選択するようにしてもよい。
<Operation>
"Overview"
─ Speech translation ─
A speech translation client 300 as shown in FIG. 3 is distributed in advance to the portable terminal 104 or the like. In this embodiment, it is assumed that the server 106 to which the portable terminal 104 can be connected is fixed by the speech translation client 300. Of course, if there are a plurality of servers 106, the user may select a desired one of them.

サーバ106の音声翻訳サービスを利用しようとする場合のユーザの操作については前述したとおりである。ユーザによる音声入力が終了すると、収録された音声データが、翻訳言語の組合せを示す情報、携帯型端末104の端末ID及びアドレスとともに、音声翻訳リクエストとしてサーバ106に送信される。なおこれに先立ち、ユーザは、予め定められた手順で設定画面を呼出し、自分が利用しようとするソース言語とターゲット言語との組合せを選択しておく必要がある。   The user operation when attempting to use the speech translation service of the server 106 is as described above. When the voice input by the user is completed, the recorded voice data is transmitted to the server 106 as a voice translation request together with information indicating the combination of translation languages, the terminal ID and address of the portable terminal 104. Prior to this, the user needs to call a setting screen in a predetermined procedure and select a combination of a source language and a target language to be used by the user.

サーバ106は、この音声翻訳リクエストを受信すると(図5のステップ402)、このセッションが新規か否かを判定し(ステップ404)、新セッションのときにはそのセッションのためのユニークなセッションIDを生成し、このセッションIDと相手の端末の端末IDとを記録する。   When the server 106 receives this speech translation request (step 402 in FIG. 5), it determines whether or not this session is new (step 404), and generates a unique session ID for the session when it is a new session. The session ID and the terminal ID of the partner terminal are recorded.

続いてステップ408で、音声認識が行なわれる。この際、ソース言語の音声認識用の単語辞書の辞書エントリが使用される。ステップ408に続くステップ410において、携帯型端末104から受信した音声データと音声認識結果と、どの辞書エントリが使用されたかを示す情報とが端末IDと関連付けられてパーソナル辞書作成用記憶部380(図3)に一時的に記録される。   Subsequently, at step 408, voice recognition is performed. At this time, the dictionary entry of the word dictionary for speech recognition in the source language is used. In step 410 following step 408, the voice data received from the portable terminal 104, the voice recognition result, and information indicating which dictionary entry is used are associated with the terminal ID and stored in the personal dictionary creation storage unit 380 (FIG. 3) is temporarily recorded.

続くステップ412において、音声翻訳リクエスト中の言語ペア情報にしたがって言語ペアを選択し、その言語ペアに応じた自動翻訳用単語辞書と、ターゲット言語の単語辞書とを用いて自動翻訳をする。ステップ414において、自動翻訳結果の形態素列と、自動翻訳用辞書と、ターゲット言語の単語辞書との内で自動翻訳の過程において使用された辞書エントリを示す情報がパーソナル辞書作成用記憶部380に一時的に記録される。   In the following step 412, a language pair is selected according to the language pair information in the speech translation request, and automatic translation is performed using the automatic translation word dictionary corresponding to the language pair and the target language word dictionary. In step 414, information indicating the dictionary entry used in the automatic translation process among the morpheme string of the automatic translation result, the automatic translation dictionary, and the word dictionary of the target language is temporarily stored in the personal dictionary creation storage unit 380. Recorded.

さらに、ステップ416で、翻訳結果に対する逆翻訳と、翻訳結果に関する音声合成とが行なわれる。   Further, in step 416, reverse translation for the translation result and speech synthesis for the translation result are performed.

最後にステップ418で、音声認識結果と、翻訳結果と、その逆翻訳と、翻訳結果の合成音声とが携帯型端末104に送信される。このとき、ステップ410及びステップ414でパーソナル辞書作成用記憶部380に一時的に記録された情報にしたがい、音声翻訳の処理で使用された各辞書のエントリが、辞書の言語及び種類を示す情報とともに携帯型端末104に送信される。   Finally, in step 418, the speech recognition result, the translation result, the reverse translation thereof, and the synthesized speech of the translation result are transmitted to the portable terminal 104. At this time, in accordance with the information temporarily recorded in the personal dictionary creation storage unit 380 in Step 410 and Step 414, each dictionary entry used in the speech translation process is displayed together with information indicating the language and type of the dictionary. It is transmitted to the portable terminal 104.

ステップ418の処理が終了すると、携帯型端末104からの音声翻訳リクエストの処理は一旦終了し、サーバ106は次のリクエストを待ち受ける状態(ステップ402)に戻る。   When the processing of step 418 is completed, the processing of the speech translation request from the portable terminal 104 is temporarily terminated, and the server 106 returns to a state of waiting for the next request (step 402).

─パーソナル辞書へのエントリの追加─
ステップ418でサーバ106から送信された情報を受信した携帯型端末104は、以下のように動作する。図6を参照して、ステップ450,452及び454により、音声認識結果、翻訳結果、及び逆翻訳を表示し、翻訳結果の合成音声を発声させる。さらに、図6のステップ456を実行することにより、サーバ106から受信した音声認識用辞書のエントリの内、ローカル辞書110中の音声認識用単語辞書(ユーザ辞書130、パーソナル辞書132及び基本辞書134)にないエントリがあれば、そのエントリを追加する。音声認識用単語辞書に既にあるエントリについては何もしない。この処理は、ソース言語の単語辞書と、ターゲット言語の単語辞書の双方について行なう。ステップ462において、ローカル辞書110中の、自動翻訳の言語ペアに応じた自動翻訳用辞書についても同様の処理を行なう。この後、携帯型端末104はユーザによる操作待ちの状態に戻る。
--Adding an entry to the personal dictionary--
The portable terminal 104 that has received the information transmitted from the server 106 in step 418 operates as follows. Referring to FIG. 6, in steps 450, 452, and 454, the speech recognition result, the translation result, and the reverse translation are displayed, and the synthesized speech of the translation result is uttered. Further, by executing step 456 in FIG. 6, the speech recognition word dictionary (user dictionary 130, personal dictionary 132, and basic dictionary 134) in the local dictionary 110 among the speech recognition dictionary entries received from the server 106. If there is an entry not in the list, add the entry. Nothing is done for entries already in the speech recognition word dictionary. This process is performed for both the source language word dictionary and the target language word dictionary. In step 462, the same processing is performed for the automatic translation dictionary corresponding to the automatic translation language pair in the local dictionary 110. Thereafter, the portable terminal 104 returns to a state waiting for an operation by the user.

以上の処理により、携帯型端末104がサーバ106と通信可能なときにサーバ106の音声翻訳サービスを利用すると、そのとき使用された単語辞書及び翻訳辞書のエントリの内、携帯型端末104のローカル辞書110内に存在していない辞書エントリが、自動的に、携帯型端末104のローカル辞書110内の適切なパーソナル辞書132に追加される。ユーザにより使用された語句は、その後も繰返して使用される可能性が高い。携帯型端末104でローカル音声翻訳サービス112を動作させたときには、パーソナル辞書132が使用されるので、音声認識及び音声翻訳において、正しい単語が使用される可能性を高められる。その結果、携帯型端末104がサーバ106と通信できない状態のときに、携帯型端末104でローカルに実行される音声翻訳サービスの精度を高めることができる。   When the speech translation service of the server 106 is used when the portable terminal 104 can communicate with the server 106 by the above processing, among the entries of the word dictionary and translation dictionary used at that time, the local dictionary of the portable terminal 104 Dictionary entries that do not exist in 110 are automatically added to the appropriate personal dictionary 132 in the local dictionary 110 of the portable terminal 104. The phrase used by the user is likely to be used repeatedly thereafter. When the local speech translation service 112 is operated on the portable terminal 104, the personal dictionary 132 is used, so that the possibility that the correct word is used in speech recognition and speech translation can be increased. As a result, when the portable terminal 104 cannot communicate with the server 106, it is possible to improve the accuracy of the speech translation service that is locally executed by the portable terminal 104.

なお、上記した実施の形態では、音声翻訳のソース言語の単語辞書、言語ペアに応じた翻訳辞書、及びターゲット言語の単語辞書について使用されたエントリをパーソナル辞書132に自動的に追加している。しかし、本発明はそのような実施の形態には限定されない。上記した3種類の辞書の全てではなく、一部の辞書についてのみエントリの追加を行なうようにしてもよい。また、サーバ106から送信されてきた辞書エントリをパーソナル辞書132に追加するに先立って、ユーザにその内容を確認させたり、パーソナル辞書132に追加する単語及び追加しない単語を区分させたりしてもよい。   In the embodiment described above, entries used for the word dictionary of the source language for speech translation, the translation dictionary corresponding to the language pair, and the word dictionary of the target language are automatically added to the personal dictionary 132. However, the present invention is not limited to such an embodiment. Entries may be added only to some of the dictionaries instead of all the three types of dictionaries described above. Further, prior to adding the dictionary entry transmitted from the server 106 to the personal dictionary 132, the user may be allowed to confirm the contents, or the words added to the personal dictionary 132 and the words not to be added may be classified. .

[第2の実施の形態]
〈概略〉
上記第1の実施の形態では、携帯型端末104とサーバ106とが通信可能な状態で、携帯型端末104のユーザがサーバ106の音声翻訳サービスを利用したときに、サーバ106での処理で用いられた辞書エントリを携帯型端末104のローカルのパーソナル辞書に登録している。こうすることで、一度使用した語彙が携帯型端末104でローカルに利用できる。携帯型端末104がサーバ106と通信できない場合、携帯型端末104のローカル音声翻訳サービスを使用する場合にも、その語彙を使用して処理の精度を高めることができる。
[Second Embodiment]
<Outline>
In the first embodiment, when the portable terminal 104 and the server 106 are communicable and the user of the portable terminal 104 uses the speech translation service of the server 106, it is used for processing in the server 106. The registered dictionary entry is registered in the local personal dictionary of the portable terminal 104. In this way, once used vocabulary can be used locally on the portable terminal 104. When the portable terminal 104 cannot communicate with the server 106, even when the local speech translation service of the portable terminal 104 is used, the vocabulary can be used to improve processing accuracy.

しかしこのような方法によると、ユーザによる音声翻訳リクエストの処理に伴って一度使用した語彙でないと、パーソナル辞書には登録されない。ユーザが頻繁にサーバ106の音声翻訳サービスを利用し、かつその処理に必要な語彙が広範囲にわたる場合には、携帯型端末104のパーソナル辞書も充実することが予測される。しかし、実際にはパーソナル辞書の語彙が十分多くなるほど頻繁に音声翻訳サービスを利用することは難しい。したがって、何らかの方法で携帯型端末104にローカルで準備される辞書を、ユーザによる使用頻度が低くても早く充実させる技術があるとより望ましい。以下に説明する第2の実施の形態に係る音声翻訳システムは、そのようなシステムである。   However, according to such a method, it is not registered in the personal dictionary unless it is a vocabulary that has been used once in connection with the processing of the speech translation request by the user. When the user frequently uses the speech translation service of the server 106 and the vocabulary required for the processing is wide, it is predicted that the personal dictionary of the portable terminal 104 will be enriched. However, in practice, it is difficult to use the speech translation service as frequently as the vocabulary of the personal dictionary increases. Therefore, it is more desirable to have a technique for quickly expanding a dictionary prepared locally in the portable terminal 104 by some method even if the frequency of use by the user is low. The speech translation system according to the second embodiment described below is such a system.

《全体構成》
図7を参照して、この第2の実施の形態に係る音声翻訳システム500は、インターネットを介したオンラインによる音声翻訳サービスを提供する音声翻訳サーバ506と、音声翻訳サーバ506にインターネットを介して通信可能で、音声翻訳システム500による音声翻訳サービスを利用する複数の携帯型端末504、508、及び510を含む。携帯型端末504、508及び510は互いに同じハードウェア及び同じソフトウェア構成である必要はないが、いずれにも、音声翻訳サーバ506による音声翻訳サービスを利用するための、第1の実施の形態の音声翻訳クライアント300と同様の音声翻訳クライアントがインストールされている。以下、これら携帯型端末を代表して、携帯型端末504を例に、音声翻訳サーバ506との間の通信シーケンスについて説明する。
"overall structure"
Referring to FIG. 7, a speech translation system 500 according to the second embodiment includes a speech translation server 506 that provides an online speech translation service via the Internet, and communicates with the speech translation server 506 via the Internet. A plurality of portable terminals 504, 508, and 510 using the speech translation service by the speech translation system 500. The portable terminals 504, 508, and 510 do not need to have the same hardware and the same software configuration, but in any case, the voice of the first embodiment for using the voice translation service by the voice translation server 506 is used. A speech translation client similar to the translation client 300 is installed. Hereinafter, the communication sequence with the speech translation server 506 will be described by taking the portable terminal 504 as an example, on behalf of these portable terminals.

この携帯型端末504は、第1の実施の形態のものと同様、音声翻訳サーバ506と通信可能な場合には音声翻訳サーバ506による音声翻訳サービスを利用し、音声翻訳サーバ506と通信ができない場合には、携帯型端末504にローカルに設けられているリソースを利用してローカル音声翻訳サービスを実行する。そのために携帯型端末504には、ローカル辞書520が設けられている。ローカル辞書520は、音声認識のための辞書、自動翻訳のための辞書、及び音声合成用の辞書を含む。以下の説明では、本実施の形態では、説明を簡潔にするため、音声認識のための辞書と自動翻訳のための辞書と音声合成用の辞書とを特に区別せず、単にローカル辞書と呼ぶ。   When the portable terminal 504 can communicate with the speech translation server 506, it can use the speech translation service provided by the speech translation server 506 and cannot communicate with the speech translation server 506, as in the first embodiment. First, a local speech translation service is executed using resources locally provided in the portable terminal 504. For this purpose, the portable terminal 504 is provided with a local dictionary 520. The local dictionary 520 includes a dictionary for speech recognition, a dictionary for automatic translation, and a dictionary for speech synthesis. In the following description, in the present embodiment, for the sake of brevity, a dictionary for speech recognition, a dictionary for automatic translation, and a dictionary for speech synthesis are not particularly distinguished, and are simply referred to as a local dictionary.

ローカル辞書520は、図7の左上に示すように、当初は、音声翻訳に必要な基本的語彙を含む基本辞書522と、ユーザがエントリを登録可能なユーザ辞書524とを含む。しかし、本実施の形態に係る処理を実行することにより、図7の左下に示すように、ローカル辞書520には、基本辞書522及びユーザ辞書524に加え、ユーザ辞書524にも基本辞書522にも登録されていない単語であって、このユーザが使用する可能性の高い語彙を収録したユーザ補充辞書554を含むようになる。このユーザ補充辞書554は、携帯型端末504を含め、多くの携帯型端末508及び510等のユーザ辞書を集積し、携帯型端末504のユーザ辞書524に収録されている語彙を手がかりに、データマイニングの手法を用いて、今後携帯型端末504で使用される可能性の高い語彙を、集積されたユーザ辞書の語彙中から抽出して作成する。データマイニング手法は、最近のインターネットを経由した通信販売等でよく使用される手法である。例えばあるユーザが購入した履歴と、他のユーザの購入履歴とを比較して、そのユーザがさらに購入する可能性の高い物品をそのユーザに推薦したりするときに使用される。   As shown in the upper left of FIG. 7, the local dictionary 520 initially includes a basic dictionary 522 that includes basic vocabulary necessary for speech translation, and a user dictionary 524 in which a user can register an entry. However, by executing the processing according to the present embodiment, the local dictionary 520 includes both the basic dictionary 522 and the user dictionary 524 as well as the user dictionary 524 and the basic dictionary 522 as illustrated in the lower left of FIG. A user supplement dictionary 554 that includes words that are not registered and that is likely to be used by the user is included. This user supplement dictionary 554 includes a large number of user dictionaries such as the portable terminals 508 and 510 including the portable terminal 504, and data mining using the vocabulary recorded in the user dictionary 524 of the portable terminal 504 as a clue. Using this method, a vocabulary that is likely to be used in the portable terminal 504 in the future is extracted from the vocabulary of the accumulated user dictionary and created. The data mining technique is a technique often used in mail order sales via the recent Internet. For example, it is used when comparing a purchase history of a certain user with a purchase history of another user and recommending to the user an article that is likely to be further purchased by the user.

データマイニング手法としては、種々のものが存在している。本実施の形態では、その中でも頻出パターンマイニング法を用いる。以下、図7を参照して全体のデータの流れを述べ、その後に図8を参照して音声翻訳サーバ506におけるユーザ補充辞書の作成のためのソフトウェア構成について述べる。   There are various data mining techniques. In the present embodiment, the frequent pattern mining method is used among them. Hereinafter, the overall data flow will be described with reference to FIG. 7, and then the software configuration for creating the user supplement dictionary in the speech translation server 506 will be described with reference to FIG.

図7を参照して、携帯型端末504は、あるタイミングでユーザ辞書524を音声翻訳サーバ506に送信する(ステップ530)。この送信は、例えばユーザがユーザ補充辞書を入手又は更新したいと考えたときにある処理を呼出すことにより行なってもよいし、一定の周期(例えば1ヶ月に1回)という周期で行なってもよい。携帯型端末504が自発的にユーザ辞書524を音声翻訳サーバ506に送るのではなく、音声翻訳サーバ506の側から、音声翻訳サーバ506を過去に利用した携帯型端末504に対してユーザ辞書524を送るように定期的に要求してもよい。   Referring to FIG. 7, portable terminal 504 transmits user dictionary 524 to speech translation server 506 at a certain timing (step 530). This transmission may be performed, for example, by calling a certain process when the user wants to obtain or update the user supplement dictionary, or may be performed at a certain cycle (for example, once a month). . The portable terminal 504 does not spontaneously send the user dictionary 524 to the speech translation server 506, but the user dictionary 524 is sent from the speech translation server 506 side to the portable terminal 504 that has used the speech translation server 506 in the past. You may request to send regularly.

同様の処理が携帯型端末504のみならず、携帯型端末508、510等についても行なわれる。音声翻訳サーバ506には、このようにして多数の携帯型端末のユーザ辞書が常に集積された状態となる(ステップ532)。ある携帯型端末から再びユーザ辞書が送信されてきた場合には、その携帯型端末からの古いユーザ辞書を新しい辞書で置換するようにする。   Similar processing is performed not only for the portable terminal 504 but also for the portable terminals 508 and 510. In this way, the user dictionary of a large number of portable terminals is always accumulated in the speech translation server 506 (step 532). When a user dictionary is transmitted again from a certain portable terminal, the old user dictionary from the portable terminal is replaced with a new dictionary.

なお、携帯型端末からユーザ辞書を集めるタイミングは互いに異なっていることが通常である。同じ時期に全ての携帯型端末からユーザ辞書を音声翻訳サーバ506に送信する必要はない。   Note that the timing for collecting user dictionaries from a portable terminal is usually different from each other. It is not necessary to transmit the user dictionary to the speech translation server 506 from all portable terminals at the same time.

このように集積されたユーザ辞書を保持すると、音声翻訳サーバ506は、定期的(例えば日に1回)に、集積データを頻出パターンマイニング法を用いて解析する(ステップ534)。この手法を実現するソフトウェア構成については後述する。この頻出パターンマイニング法では、ある単語と、その単語と同じユーザ辞書に登録されている単語(すなわち、同一の辞書内に共起する単語ペア)とのペアの内、頻度が高いもののリストが抽出される。抽出された単語ペアを、頻出単語ペアと呼ぶ。   If the user dictionary accumulated in this way is held, the speech translation server 506 analyzes the accumulated data periodically (for example, once a day) using the frequent pattern mining method (step 534). A software configuration for realizing this method will be described later. This frequent pattern mining method extracts a list of frequently used pairs of a word and a word registered in the same user dictionary as that word (that is, a word pair co-occurring in the same dictionary). Is done. The extracted word pair is called a frequent word pair.

さらに、頻出パターンマイニング法を用いて得られた解析結果を用い、音声翻訳サーバ506は、携帯端末ごとにユーザ補充辞書554に登録すべき補充単語を特定する(ステップ536)。具体的には、音声翻訳サーバ506は、頻出パターンマイニング法により抽出された頻出単語ペアの内、そのユーザ辞書に一方の単語のみが登録されているものを探し出す。そして、その頻出単語ペアの他方の単語をその携帯型端末の辞書のための補充単語として選択する。この補充単語の集合は、対象となったユーザ辞書を送信してきた携帯型端末の端末IDとともに保存される。   Furthermore, using the analysis result obtained by using the frequent pattern mining method, the speech translation server 506 identifies a supplement word to be registered in the user supplement dictionary 554 for each portable terminal (step 536). Specifically, the speech translation server 506 searches for frequent word pairs extracted by the frequent pattern mining method in which only one word is registered in the user dictionary. Then, the other word of the frequent word pair is selected as a supplement word for the dictionary of the portable terminal. This set of supplemental words is stored together with the terminal ID of the portable terminal that has transmitted the target user dictionary.

次に、何らかのタイミングで携帯型端末504がユーザ補充辞書の送信リクエストを音声翻訳サーバ506に対して送る(ステップ550)。この送信リクエストは、例えばユーザによる指示に基づくものでもよいし、ステップ530でユーザ辞書を音声翻訳サーバ506に送信してから所定時間(例えば1日)が経過した後に自動的に送信するようにしてもよい。   Next, the portable terminal 504 sends a user supplement dictionary transmission request to the speech translation server 506 at some timing (step 550). This transmission request may be based on an instruction from the user, for example, or may be automatically transmitted after a predetermined time (for example, one day) has elapsed since the user dictionary was transmitted to the speech translation server 506 in Step 530. Also good.

音声翻訳サーバ506は、この送信リクエストを受信すると、携帯型端末504の端末IDに対応する補充単語群を記憶装置から読出し、携帯型端末504に送信する(ステップ538)。   Upon receiving this transmission request, the speech translation server 506 reads a supplement word group corresponding to the terminal ID of the portable terminal 504 from the storage device and transmits it to the portable terminal 504 (step 538).

この補充単語群を受信した携帯型端末504は、補充単語群からなるユーザ補充辞書をローカル辞書520中に生成する(ステップ552)。既に古いユーザ補充辞書がローカル辞書520内にある場合には、新たなユーザ補充辞書で古い辞書を書換える。   The portable terminal 504 that has received the supplement word group generates a user supplement dictionary including the supplement word group in the local dictionary 520 (step 552). If the old user supplement dictionary is already in the local dictionary 520, the old dictionary is rewritten with the new user supplement dictionary.

〈ソフトウェア構成〉
携帯型端末504で実行される処理はいわゆる当業者であれば容易に実現できる。したがってここでは、音声翻訳サーバ506において実行される処理の内、図7のステップ534及び536を実現するプログラムの制御構造について説明する。
<Software configuration>
The process executed by the portable terminal 504 can be easily realized by a so-called person skilled in the art. Therefore, the control structure of the program that realizes steps 534 and 536 in FIG. 7 among the processes executed in the speech translation server 506 will be described here.

《サーバ》
以下の説明では、音声翻訳サーバ506に既に多数のユーザ辞書が集積されていることを前提とする。図8を参照して、音声翻訳サーバ506で実行される、ユーザ補充辞書のための単語を抽出するプログラムは、頻出パターンマイニング法により、集積されたユーザ辞書内で頻出する単語ペア(頻出単語ペア)を抽出するステップ534と、ステップ534で抽出された頻出単語ペアの中から、携帯端末ごとに補充辞書のための単語の集合を特定するステップ536とを含む。
"server"
In the following description, it is assumed that a large number of user dictionaries are already accumulated in the speech translation server 506. Referring to FIG. 8, the program for extracting words for the user supplement dictionary executed by the speech translation server 506 is a word pair (frequent word pair) that frequently appears in the accumulated user dictionary by the frequent pattern mining method. ) And a step 536 for specifying a set of words for the supplementary dictionary for each mobile terminal from the frequent word pairs extracted in step 534.

ステップ534は、全ユーザ辞書について、語彙ペアの組合せを全て抽出し、それらの出現頻度(語彙ペアを構成する単語が同じ辞書内に存在する頻度)を調べるステップ570と、ステップ570で抽出された語彙ペアの内、出現頻度が所定のしきい値未満の語彙ペアを削除するステップ572とを含む。ここでのしきい値は、全ユーザ辞書に含まれる単語数によって異なってくるため、一律に定めるのは難しい。ここではむしろ、しきい値を決めてからそのようなしきい値を充足する出現頻度の単語ペアを求めるのではなく、抽出されるべき単語ペアの最大個数を携帯型端末504で利用可能な記憶容量との比較で予め決め、そのような数の単語ペアが求められるようにしきい値を求める、いわゆる「top-K頻出集合発見」法を用いる。この方法を用いることで、処理時間は多少長くなるが比較的効率よく単語ペアを特定できる。このtop-K頻出集合発見法については、次に記載の参考文献1を参照されたい。   Step 534 extracts all combinations of vocabulary pairs for all user dictionaries, and examines their appearance frequency (frequency at which the words constituting the vocabulary pairs are present in the same dictionary). And deleting a vocabulary pair whose appearance frequency is less than a predetermined threshold value among the vocabulary pairs. The threshold here varies depending on the number of words included in all user dictionaries, and is difficult to determine uniformly. In this case, rather than determining a threshold value and then finding an occurrence frequency word pair that satisfies the threshold value, the maximum number of word pairs to be extracted can be stored in the portable terminal 504. The so-called “top-K frequent set discovery” method is used in which the threshold is determined so as to obtain such a number of word pairs. By using this method, a word pair can be identified relatively efficiently, although the processing time is somewhat longer. For the top-K frequent set discovery method, see Reference 1 described below.

[参考文献1]
宇野 毅明、有村 博紀、頻出パターン発見アルゴリズム入門 ─アイテム集合からグラフまで─、人工知能学会全国大会論文集(CD−ROM)、第22巻、22nd 3M1−01、2008年
[Reference 1]
Tomoaki Uno, Hiroki Arimura, Introduction to Frequent Pattern Discovery Algorithm —From Item Set to Graph—, Proceedings of National Conference of the Japanese Society for Artificial Intelligence (CD-ROM), Vol.

ステップ536は、音声翻訳サーバ506に蓄積されているユーザ辞書の各々について、以下の処理を繰返すステップ580を含む。   Step 536 includes step 580 of repeating the following processing for each user dictionary stored in the speech translation server 506.

ステップ580の処理は、補充単語を記憶するための作業領域をクリアするステップ582と、ステップ534で抽出された語彙ペアの各々に対し、その語彙ペアの一方の語彙のみがそのユーザ辞書に登録されているときに、他方の語彙をそのユーザ辞書のための補充語彙として作業領域に保存する処理を繰返して行なうステップ584と、ステップ584で作業領域に保存された語彙群を、処理対象のユーザ辞書を送信してきた端末の端末IDと関連付けて記憶装置に保存するステップ590とを含む。   In step 580, for each of the vocabulary pairs extracted in step 534 and in step 582 for clearing the work area for storing supplemental words, only one vocabulary of the vocabulary pair is registered in the user dictionary. Step 584 for repeatedly storing the other vocabulary in the work area as a supplementary vocabulary for the user dictionary, and the vocabulary group saved in the work area in Step 584 are used as the user dictionary to be processed. And step 590 of storing in the storage device in association with the terminal ID of the terminal that has transmitted the message.

ステップ584は、処理対象の語彙ペアの一方語彙のみが処理対象のユーザ辞書に登録されているか否かを判定するステップ586と、ステップ586の判定が肯定であるときに、処理対象の語彙ペアの他方語彙を作業領域に追加するステップ588とを含む。ステップ586での判定は、語彙ペアを構成する各語彙と、音声翻訳サーバ506に記憶されているユーザ辞書内の語彙とを比較することにより行なえる。   Step 584 determines whether or not only one vocabulary of the processing target vocabulary pair is registered in the processing target user dictionary, and when the determination in step 586 is affirmative, And 588 adding the vocabulary to the work area. The determination in step 586 can be made by comparing each vocabulary constituting the vocabulary pair with the vocabulary in the user dictionary stored in the speech translation server 506.

〈動作〉
図7を参照して、携帯型端末504をはじめとして、携帯型端末508、510等は、各々、ユーザ辞書をそれぞれのタイミングで音声翻訳サーバ506に送信する(ステップ530)。音声翻訳サーバ506は、ユーザ辞書が送信されてくるたびにそれを記憶装置に一時的に蓄積する(ステップ532)。既にユーザ辞書を送信してきた携帯型端末から重ねてユーザ辞書が送信されてきたときには、音声翻訳サーバ506は、古い辞書を新しい辞書で置換する。
<Operation>
Referring to FIG. 7, portable terminals 508, 510, etc., including portable terminal 504, each transmit a user dictionary to speech translation server 506 at each timing (step 530). The speech translation server 506 temporarily accumulates the user dictionary in the storage device every time it is transmitted (step 532). When the user dictionary is transmitted from the portable terminal that has already transmitted the user dictionary, the speech translation server 506 replaces the old dictionary with the new dictionary.

例えば1日に一度、音声翻訳サーバ506は集積されたユーザ辞書のデータを、頻出パターンマイニング法を用いて処理し、予め決められた個数の頻出語彙ペア(出現頻度が上位から予め決められた個数の語彙ペア)を抽出する(ステップ534)。具体的には、図8のステップ570及び572を実行する。   For example, once a day, the speech translation server 506 processes the collected user dictionary data using a frequent pattern mining method, and determines a predetermined number of frequent vocabulary pairs (a predetermined number of appearance frequencies from the top). Are extracted (step 534). Specifically, steps 570 and 572 in FIG. 8 are executed.

続いて音声翻訳サーバ506は、集積されたユーザ辞書の各々について、以下の処理を実行する。まず作業領域をクリアする(図8のステップ582)。ステップ534で抽出された所定個数の頻出語彙ペアの各々について、その語彙ペアを構成する語彙の内一方のみが処理対象のユーザ辞書に登録されていれば(ステップ586でYES)その語彙を作業領域に追加し(ステップ588)、語彙ペアを構成する双方の語彙が処理対象のユーザ辞書に登録されていないか、双方とも登録されている場合には何もしない。こうした処理を繰返すことにより、処理対象のユーザ辞書に対して補充すべき語彙が作業領域に蓄積される。   Subsequently, the speech translation server 506 executes the following processing for each of the accumulated user dictionaries. First, the work area is cleared (step 582 in FIG. 8). For each of the predetermined number of frequent vocabulary pairs extracted in step 534, if only one of the vocabularies constituting the vocabulary pair is registered in the user dictionary to be processed (YES in step 586), the vocabulary is stored in the work area. (Step 588). If both vocabularies constituting the vocabulary pair are not registered in the user dictionary to be processed or both are registered, nothing is done. By repeating such processing, vocabulary to be supplemented for the user dictionary to be processed is accumulated in the work area.

全ての頻出語彙ペアに対する処理が終了すると、音声翻訳サーバ506は、作業領域に蓄積されていた語彙集を作業対象のユーザIDに対応する端末IDと関連付けて記憶装置に保存する(ステップ590)。   When the processing for all frequent vocabulary pairs is completed, the speech translation server 506 stores the vocabulary stored in the work area in the storage device in association with the terminal ID corresponding to the user ID of the work target (step 590).

音声翻訳サーバ506は、上記したステップ580,582,584及び590の処理を全てのユーザ辞書に対して実行する。したがってステップ538が終了した時点では、ユーザ辞書を送信してきた全ての携帯型端末に対し、ユーザ辞書に補充すべき語彙の集合が、端末IDと関連付けて音声翻訳サーバ506の記憶装置に保存されていることになる。   The speech translation server 506 executes the processes in steps 580, 582, 584 and 590 described above for all user dictionaries. Therefore, when step 538 is completed, a set of vocabularies to be supplemented to the user dictionary is stored in the storage device of the speech translation server 506 in association with the terminal ID for all portable terminals that have transmitted the user dictionary. Will be.

再び図7を参照して、あるタイミングで携帯型端末504が補充辞書を要求すると(ステップ550)、音声翻訳サーバ506は、携帯型端末504の端末IDと関連付けて記憶装置に保存されていた補充単語群を携帯型端末504に送信する(ステップ538)。これを受けた携帯型端末504は、送信されてきた補充単語群で新たなユーザ補充辞書554を作成し、ローカル辞書520中に保存する。もしも既にローカル辞書520中にユーザ補充辞書554が存在している場合には、携帯型端末504は、古いユーザ補充辞書554を新しい語彙からなるユーザ補充辞書で置換する。   Referring to FIG. 7 again, when portable terminal 504 requests a supplement dictionary at a certain timing (step 550), speech translation server 506 replenishes the supplement stored in the storage device in association with the terminal ID of portable terminal 504. The word group is transmitted to the portable terminal 504 (step 538). Receiving this, the portable terminal 504 creates a new user supplement dictionary 554 with the transmitted supplement word group and stores it in the local dictionary 520. If the user supplement dictionary 554 already exists in the local dictionary 520, the portable terminal 504 replaces the old user supplement dictionary 554 with a user supplement dictionary composed of new words.

《実施の形態の効果》
この第2の実施の形態によれば、多数のユーザ辞書が音声翻訳サーバ506により集積され、その中から頻出単語ペアが抽出される。各ユーザ辞書について、頻出単語ペアの内、一方の語彙のみが登録されているときには、他方の語彙も補充辞書に登録される。そうでないときには補充辞書には語彙は登録されていない。したがって、ユーザ辞書に登録されている語彙とともに辞書に登録される可能性の高い語彙であって、まだユーザ辞書に登録されていない語彙がユーザ補充辞書に登録される。ユーザが音声翻訳サービスの利用時に使用したことのない語彙であっても、ユーザ補充辞書に登録されることになり、ユーザ辞書を効率よく補強できる。さらに、多数のユーザ辞書を集積した結果から頻出単語ペアを抽出するため、ユーザが今までに使用した語彙の範囲に限定されることなく、今後使用する可能性のある単語を効率よく補充できる。さらに、音声翻訳サーバ506に対してユーザ補充辞書の更新を依頼するたびにユーザ補充語彙が増加していくため、ユーザ辞書を補強する速度を速めることができる。
<< Effects of Embodiment >>
According to the second embodiment, a large number of user dictionaries are accumulated by the speech translation server 506, and frequent word pairs are extracted therefrom. For each user dictionary, when only one vocabulary of frequent word pairs is registered, the other vocabulary is also registered in the supplementary dictionary. Otherwise, no vocabulary is registered in the supplementary dictionary. Therefore, the vocabulary that is highly likely to be registered in the dictionary together with the vocabulary registered in the user dictionary and is not yet registered in the user dictionary is registered in the user supplement dictionary. Even a vocabulary that the user has not used when using the speech translation service is registered in the user supplement dictionary, and the user dictionary can be efficiently reinforced. Furthermore, since frequent word pairs are extracted from the result of accumulating a large number of user dictionaries, it is possible to efficiently supplement words that may be used in the future without being limited to the vocabulary range used by the user. Furthermore, since the user supplementary vocabulary increases every time the user translation dictionary 506 is requested to update the user supplementary dictionary, the speed of reinforcing the user dictionary can be increased.

なお、頻出パターンマイニングは、上記した手法以外にもアプリオリ法、FP−growth法、相関ルール等を用いて実現することもできる。要するに、この実施の形態は、多数の端末から収集したユーザ辞書データを用いて、特定の端末のユーザ辞書に補充すべき語彙を決定するものであって、そのためのデータ解析の方法としては、ユーザ辞書に登録されている単語と一緒にユーザ辞書に登録される可能性が高い単語を見つけることができる方法ならどのような方法でもよい。   Note that frequent pattern mining can be realized by using an a priori method, an FP-growth method, an association rule, and the like in addition to the above-described method. In short, in this embodiment, user dictionary data collected from a large number of terminals is used to determine the vocabulary to be supplemented to the user dictionary of a specific terminal. Any method that can find a word that is highly likely to be registered in the user dictionary together with the word registered in the dictionary may be used.

[可能な変形例]
第1の実施の形態では、ユーザ辞書ではなくパーソナル辞書に語彙を自動的に登録している。また、第2の実施の形態でも、ユーザ辞書とは別のユーザ補充辞書の語彙を抽出している。しかし本発明はそのような実施の形態に限定されるわけではない。ユーザ辞書と別の辞書ではなく、ユーザ辞書そのものに語彙を追加するようにしてもよい。ただしこの場合、ユーザが意識的に追加した単語との区別ができなくなるため、できれば両者を区別する方策を採ることが望ましい。また、第1の実施の形態におけるパーソナル辞書内の語彙を対象として、第2の実施の形態における語彙補強を適用してもよい。さらに、第1の実施の形態で自動的に語彙が登録される辞書をパーソナル辞書と呼び、第2の実施の形態において自動的に語彙が集積される辞書をユーザ補充辞書と呼んでいる。しかしこれらは単に辞書の名称にすぎず、他の名前を使用してもよいことはいうまでもない。
[Possible variants]
In the first embodiment, the vocabulary is automatically registered in the personal dictionary instead of the user dictionary. Also in the second embodiment, the vocabulary of a user supplement dictionary different from the user dictionary is extracted. However, the present invention is not limited to such an embodiment. Vocabulary may be added to the user dictionary itself instead of a dictionary different from the user dictionary. However, in this case, it is impossible to distinguish the words that the user has added consciously. Therefore, it is desirable to take measures to distinguish the words if possible. Further, the vocabulary reinforcement in the second embodiment may be applied to the vocabulary in the personal dictionary in the first embodiment. Furthermore, a dictionary in which vocabularies are automatically registered in the first embodiment is called a personal dictionary, and a dictionary in which vocabularies are automatically accumulated in the second embodiment is called a user supplement dictionary. However, these are merely dictionary names, and it goes without saying that other names may be used.

第2の実施の形態では、複数の携帯型端末が単独のサーバを使用してユーザ補充辞書の作成を依頼している。しかし本発明はそのような実施の形態には限定されない。サーバを複数設け、各サーバでは別々の携帯型端末のユーザ補充辞書を作成するようにしてもよい。この場合、各サーバで集積したユーザ辞書データをサーバ同士で共有するようにすれば、語彙の補充という意味ではさらに好ましい。ただし、集積されたユーザ辞書の数があまりに多くなったり、各ユーザ辞書に登録されている語彙があまりに多くなったりすると、サーバでの処理時間に影響する。したがって、各サーバが処理する携帯型端末の数を制限してもよい。   In the second embodiment, a plurality of portable terminals use a single server to request creation of a user supplement dictionary. However, the present invention is not limited to such an embodiment. A plurality of servers may be provided, and each server may create a user supplement dictionary for different portable terminals. In this case, it is more preferable in terms of supplementing the vocabulary if the user dictionary data accumulated at each server is shared between the servers. However, if the number of accumulated user dictionaries is too large or the vocabulary registered in each user dictionary is too large, the processing time on the server is affected. Therefore, the number of portable terminals processed by each server may be limited.

第2の実施の形態ではさらに、蓄積されたユーザ辞書データの中で頻出単語ペアをデータマイニングにより抽出している。しかし本発明はそのような実施の形態には限定されない。例えば頻出単語ペアではなく、3つの単語の組で頻出するもの、又は4つ以上の単語の組で頻出するものを抽出するようにしてもよい。   In the second embodiment, frequent word pairs are further extracted from the accumulated user dictionary data by data mining. However, the present invention is not limited to such an embodiment. For example, instead of frequent word pairs, one that frequently appears in a set of three words or one that frequently appears in a group of four or more words may be extracted.

上記実施の形態の説明では、使用する言語を特に限定していないが、最初に述べたように、翻訳の際の言語の組合せを指定できるようにしてもよいことはもちろんである。その場合、上記した辞書は、単語辞書については言語ごとに設けられ、翻訳辞書については各言語の組合せとその翻訳方向とに応じて設ける必要があり、その各々について上記した処理を実装する必要がある。   In the description of the above embodiment, the language to be used is not particularly limited. However, as described above, it is needless to say that a combination of languages for translation can be designated. In that case, the above-mentioned dictionary is provided for each language for the word dictionary, and it is necessary to provide the translation dictionary according to the combination of each language and the translation direction, and the above-described processing needs to be implemented for each. is there.

上記実施の形態では、音声翻訳サービスを例にしている。しかし本発明はそうしたサービスに限定されるわけではない。例えば音声認識による入力を単独でオンラインにより提供するサービス、テキスト入力に基づくオンラインの翻訳サービス等についても本発明を適用できる。すなわち、本発明が適用可能な言語サービスは、音声を使用するものには限定されない。オンラインでサーバにより提供されるサービスと、端末でローカルに実行する同種のアプリケーションとを切替えて利用できるような言語サービスであり、かついわゆる辞書を利用するサービスであればどのようなものにも適用できる。   In the above embodiment, the speech translation service is taken as an example. However, the present invention is not limited to such services. For example, the present invention can be applied to a service that provides online input by voice recognition alone, an online translation service based on text input, and the like. That is, the language service to which the present invention is applicable is not limited to the one that uses voice. It is a language service that can be used by switching between a service provided by a server online and the same type of application that is executed locally on the terminal, and can be applied to any service that uses a so-called dictionary. .

上記実施の形態では、クライアント装置から何らかの形でローカル辞書の補強依頼があったときに、サーバがローカル辞書の補強用情報を作成してクライアント装置に送信している。しかし本発明はそのような実施の形態には限定されず、ローカルで使用する言語資源を補強するための情報を、サーバで提供しているサービスの結果を用いて作成するようなものであれば、クライアント装置からの要求なしで、サーバからプッシュ型でクライアント装置に配信するようなシステムにも適用できる。   In the above-described embodiment, when the client device makes a local dictionary reinforcement request in some form, the server creates local dictionary reinforcement information and transmits it to the client device. However, the present invention is not limited to such an embodiment, as long as information for reinforcing language resources used locally is created using the results of services provided by the server. The present invention can also be applied to a system in which a server pushes and distributes to a client device without a request from the client device.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

100、500 音声翻訳システム
104、504,508,510 携帯型端末
106、506 サーバ
108 大語彙辞書
110、520 ローカル辞書
130、524 ユーザ辞書
132 パーソナル辞書
134、522 基本辞書
250 プロセッサ
252 メモリ
356 CPU
360 RAM
380 パーソナル辞書作成用記憶部
554 ユーザ補充辞書
100, 500 Speech translation system 104, 504, 508, 510 Portable terminal 106, 506 Server 108 Large vocabulary dictionary 110, 520 Local dictionary 130, 524 User dictionary 132 Personal dictionary 134, 522 Basic dictionary 250 Processor 252 Memory 356 CPU
360 RAM
380 Personal dictionary creation storage unit 554 User supplement dictionary

Claims (6)

予め準備された言語資源を用いた言語サービスを提供するサービス提供設備装置とオンラインで通信することにより、当該言語サービスを利用するサービス利用手段と、
前記サービス提供設備装置と通信可能でないときに、前記言語サービスと同種のサービスを、前記言語資源よりも規模の小さなローカル言語資源を用いてローカルで実行するためのローカルサービス実行手段と、
前記サービス提供設備装置と通信可能なときに、前記言語サービスへの入力に応じて、前記サービスの提供を受けるためのリクエストを前記サービス提供設備装置に送信するためのリクエスト送信手段と、
前記サービス提供設備装置と通信可能なときに、前記リクエストに応答して前記サービス提供設備装置から送信されてくる前記言語サービスの実行結果に、前記ローカル言語資源の補強用の言語資源が付されていることに応答して、前記受信した言語資源を用いて、前記ローカル言語資源を補強するための言語資源補強手段とを含む、ローカル言語資源の補強装置。
A service using means for using the language service by communicating online with a service providing facility device that provides a language service using a language resource prepared in advance;
Local service execution means for executing a service of the same type as the language service locally using a local language resource having a smaller scale than the language resource when communication with the service providing equipment is not possible;
A request transmitting means for transmitting a request for receiving provision of the service to the service providing equipment device in response to an input to the language service when communication with the service providing equipment device is possible;
When communication with the service providing equipment is possible, a language resource for reinforcing the local language resource is added to the execution result of the language service transmitted from the service providing equipment in response to the request. And a language resource reinforcement means for augmenting the local language resource using the received language resource in response to the received language resource.
前記サービス提供設備装置は、前記リクエスト送信手段からのリクエストに応答して、処理対象の言語データを前記言語サービスにより処理した結果と、前記言語資源の内、当該処理の結果を得る過程で使用した言語資源からなる補強用の言語資源とを、ともに、又は別個に、前記ローカル言語資源の補強装置に送信し、
前記言語資源補強手段は、前記サービス提供設備装置と通信可能なときに、前記サービス提供設備装置から送信されてくる前記補強用の言語資源を受信して、前記ローカル言語資源に前記補強用の言語資源を追加するための言語資源追加手段を含む、請求項1に記載のローカル言語資源の補強装置。
In response to the request from the request transmission unit, the service providing equipment is used in the process of obtaining the processing result of the language data to be processed by the language service and the processing result of the language resource. A language resource for reinforcement consisting of language resources is transmitted together or separately to the local language resource reinforcement device;
The language resource reinforcement means receives the reinforcement language resource transmitted from the service provision facility device when it can communicate with the service provision facility device, and sends the reinforcement language resource to the local language resource. The local language resource reinforcement device according to claim 1, further comprising language resource addition means for adding a resource.
前記ローカル言語資源の補強装置は、さらに、前記サービス提供設備装置と通信可能なときに、前記リクエストの送信とは独立の、指定されたタイミングで、前記ローカル言語資源を前記サービス提供設備装置に送信するためのローカル言語資源送信手段を含む、請求項1又は請求項2に記載のローカル言語資源の補強装置。 The local language resource reinforcement device further transmits the local language resource to the service providing equipment device at a designated timing independent of the transmission of the request when communication with the service providing equipment device is possible. The local language resource reinforcement device according to claim 1, further comprising a local language resource transmission unit for performing the operation. オンラインによる通信を介して、予め準備された言語資源を用いた言語サービスを他の端末装置に対して提供するサービス提供手段と、
前記サービス提供手段によるサービスの実行結果を用いて、他の端末装置でローカルに使用するローカル言語資源を補強するための補強用言語資源を作成するための補強用言語資源作成手段と、
前記他の端末装置と通信可能なときに、前記補強用言語資源作成手段により作成された前記補強用言語資源を前記他の端末装置に送信するための、補強用言語資源送信手段とを含む、サービス提供設備装置であって、
前記ローカル言語資源は、それぞれ互いに区別される複数のデータ項目を含み、
前記補強用言語資源作成手段は、
複数の端末装置から、各端末装置で使用されるローカル言語資源を収集し蓄積するためのローカル言語資源蓄積手段と、
前記ローカル言語資源蓄積手段に蓄積されたローカル言語資源に基づいて、1又は複数の頻出データ項目群を特定するための頻出データ項目群特定手段とを含み、前記1又は複数の頻出データ項目群の各々は、前記ローカル言語資源の各々の内で共起する可能性がしきい値より高い複数のデータ項目からなり、
前記補強用言語資源作成手段はさらに、
前記複数の端末装置の各々について、前記1又は頻出データ項目群の内で当該端末装置から送信されてきたローカル言語資源に一部のデータ項目のみが含まれている頻出データ項目群を特定し、当該頻出データ項目群に基づいて、当該端末装置のための前記補強用言語資源を作成するための手段を含む、サービス提供設備装置。
Service providing means for providing a language service using a language resource prepared in advance to other terminal devices via online communication;
Reinforcing language resource creating means for creating a reinforcing language resource for reinforcing a local language resource used locally in another terminal device by using a service execution result by the service providing means;
Reinforcing language resource transmitting means for transmitting the reinforcing language resource created by the reinforcing language resource creating means to the other terminal device when communicating with the other terminal device; A service providing equipment device,
The local language resource includes a plurality of data items that are distinguished from each other,
The reinforcing language resource creating means includes:
Local language resource storage means for collecting and storing local language resources used in each terminal device from a plurality of terminal devices;
Frequent data item group specifying means for specifying one or more frequent data item groups based on the local language resources stored in the local language resource storage means, and the one or more frequent data item groups Each comprises a plurality of data items that are more likely to co-occur within each of said local language resources than a threshold;
The reinforcing language resource creating means further includes:
For each of the plurality of terminal devices, identify a frequent data item group in which only some data items are included in the local language resource transmitted from the terminal device in the one or frequent data item group, A service providing equipment device including means for creating the reinforcing language resource for the terminal device based on the frequent data item group.
前記補強用言語資源作成手段は、さらに、他の端末装置でローカルに使用するローカル言語資源の補強を依頼するリクエストを前記他の端末装置から受信したことに応答して、前記サービス提供手段がサービスを提供する際に使用した部分的な言語資源を用いて前記補強用言語資源を作成するための手段を含む、請求項4に記載のサービス提供設備装置。   In response to receiving a request from the other terminal device for requesting reinforcement of a local language resource used locally in another terminal device, the service providing unit creates a service. The service providing facility apparatus according to claim 4, further comprising means for creating the reinforcing language resource using the partial language resource used when providing the service. 前記作成するための手段は、前記予め準備された言語資源の内で、前記他の端末装置からのリクエストに応答して前記サービス提供手段がサービスを提供する際に使用した部分的な言語資源を一時記憶するための一時記憶手段を含み、
前記補強用言語資源送信手段は、前記サービス提供手段により提供されるサービスの処理結果とともに、前記一時記憶手段に記憶されていた前記部分的な言語資源を送信する、請求項5に記載のサービス提供設備装置。

The means for creating includes a partial language resource used when the service providing means provides a service in response to a request from the other terminal device among the previously prepared language resources. Including temporary storage means for temporary storage;
6. The service provision according to claim 5, wherein the reinforcement language resource transmitting unit transmits the partial language resource stored in the temporary storage unit together with a processing result of the service provided by the service providing unit. Equipment equipment.

JP2012191972A 2012-08-31 2012-08-31 Local language resource reinforcement device and service providing equipment device Expired - Fee Related JP6281856B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012191972A JP6281856B2 (en) 2012-08-31 2012-08-31 Local language resource reinforcement device and service providing equipment device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012191972A JP6281856B2 (en) 2012-08-31 2012-08-31 Local language resource reinforcement device and service providing equipment device

Publications (2)

Publication Number Publication Date
JP2014048507A JP2014048507A (en) 2014-03-17
JP6281856B2 true JP6281856B2 (en) 2018-02-21

Family

ID=50608234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012191972A Expired - Fee Related JP6281856B2 (en) 2012-08-31 2012-08-31 Local language resource reinforcement device and service providing equipment device

Country Status (1)

Country Link
JP (1) JP6281856B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6833203B2 (en) * 2017-02-15 2021-02-24 フォルシアクラリオン・エレクトロニクス株式会社 Voice recognition system, voice recognition server, terminal device, and phrase management method
US20210264899A1 (en) * 2018-06-29 2021-08-26 Sony Corporation Information processing apparatus, information processing method, and program

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5875443A (en) * 1996-01-30 1999-02-23 Sun Microsystems, Inc. Internet-based spelling checker dictionary system with automatic updating
JP2001282789A (en) * 2000-03-31 2001-10-12 Brother Ind Ltd Translation system
JP2002162989A (en) * 2000-11-28 2002-06-07 Ricoh Co Ltd System and method for sound model distribution
JP2003295893A (en) * 2002-04-01 2003-10-15 Omron Corp System, device, method, and program for speech recognition, and computer-readable recording medium where the speech recognizing program is recorded
JP4554285B2 (en) * 2004-06-18 2010-09-29 トヨタ自動車株式会社 Speech recognition system, speech recognition method, and speech recognition program
JP2007033901A (en) * 2005-07-27 2007-02-08 Nec Corp System, method, and program for speech recognition
DE112007002665B4 (en) * 2006-12-15 2017-12-28 Mitsubishi Electric Corp. Voice recognition system
JP2011238173A (en) * 2010-05-13 2011-11-24 Chugoku Electric Power Co Inc:The Dictionary information sharing server and dictionary information sharing system
WO2011148594A1 (en) * 2010-05-26 2011-12-01 日本電気株式会社 Voice recognition system, voice acquisition terminal, voice recognition distribution method and voice recognition program
JP2012088370A (en) * 2010-10-15 2012-05-10 Denso Corp Voice recognition system, voice recognition terminal and center

Also Published As

Publication number Publication date
JP2014048507A (en) 2014-03-17

Similar Documents

Publication Publication Date Title
US11582337B2 (en) Electronic device and method of executing function of electronic device
EP3652734B1 (en) Voice data processing method and electronic device supporting the same
US9865264B2 (en) Selective speech recognition for chat and digital personal assistant systems
US9317501B2 (en) Data security system for natural language translation
JP6157725B2 (en) Hybrid offline / online speech translation system and method
JP4902617B2 (en) Speech recognition system, speech recognition method, speech recognition client, and program
EP2492910A1 (en) Speech translation system, control apparatus and control method
US20210342547A1 (en) System for focused conversation context management in a reasoning agent/behavior engine of an agent automation system
JP2005088179A (en) Autonomous mobile robot system
JP2003308087A (en) System and method for updating grammar
JP2008225068A (en) Minutes creation method, its device and its program
CN107430853A (en) Data for the voice activity with the offline ability of selectivity are held locally within the electronic installation for supporting speech
JP2014106523A (en) Voice input corresponding device and voice input corresponding program
KR20180109631A (en) Electronic device and method for executing function of electronic device
JP6281856B2 (en) Local language resource reinforcement device and service providing equipment device
JP2010146532A (en) Voice retrieval device, voice retrieval method, and voice retrieval program
WO2022213943A1 (en) Message sending method, message sending apparatus, electronic device, and storage medium
JP2014174465A (en) Information processor, information processing method and program
US20230066100A1 (en) Determination and visual display of spoken menus for calls
JP2010182191A (en) Business form input device, business form input system, business form input method, and program
KR20190083884A (en) Method for displaying an electronic document for processing a voice command and electronic device thereof
JP6822448B2 (en) Information processing equipment, information processing methods and programs
JP6150664B2 (en) Mining analyzer, method and program
EP2816553A1 (en) Natural language understanding automatic speech recognition post processing
JP2008217370A (en) Profile registration system, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180116

R150 Certificate of patent or registration of utility model

Ref document number: 6281856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees