JP6495856B2 - 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 - Google Patents

適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 Download PDF

Info

Publication number
JP6495856B2
JP6495856B2 JP2016055986A JP2016055986A JP6495856B2 JP 6495856 B2 JP6495856 B2 JP 6495856B2 JP 2016055986 A JP2016055986 A JP 2016055986A JP 2016055986 A JP2016055986 A JP 2016055986A JP 6495856 B2 JP6495856 B2 JP 6495856B2
Authority
JP
Japan
Prior art keywords
vector
dictionary
word
category name
language system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016055986A
Other languages
English (en)
Other versions
JP2017173907A (ja
Inventor
安田 圭志
圭志 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Research Inc filed Critical KDDI Research Inc
Priority to JP2016055986A priority Critical patent/JP6495856B2/ja
Publication of JP2017173907A publication Critical patent/JP2017173907A/ja
Application granted granted Critical
Publication of JP6495856B2 publication Critical patent/JP6495856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、言語処理に利用される辞書を生成する技術に関する。特に、音声認識システムや機械翻訳システムに適用される技術に関する。
音声認識及び音声翻訳システムによれば、辞書は、必須の構成要素である。従来、辞書は、地域や利用分野に応じて、関連する語彙の辞書を、人手によって構築及び整備する必要があった。勿論、言語コーパスから自動的に辞書を構築することもできるが、不要な語彙を登録することも多く、処理速度の低下やシステム性能の劣化を生じる。これを防ぐために、地域や利用分野の適用用途に応じた言語コーパスを用いて、辞書を生成する必要があった。この場合、言語コーパス自体の精度が要求されることとなる。
従来、辞書は、例えば以下のような方法で拡張されている。
・地域や利用分野に応じた言語コーパス(インドメイン言語コーパス)から、辞書を構築する。
・地域や利用分野に関する辞書を人手によって整備する。
・音声認識システムにおける利用ログから、未知語を抽出し、その未知語を辞書に追加する。
また、ユーザ所有の携帯端末に実装されたローカル辞書を補強する技術がある(例えば特許文献1参照)。この技術によれば、携帯端末は、オンラインでサーバと通信することによって、音声認識及び音声翻訳を実行する。サーバは、大語彙辞書を搭載しており、携帯端末は、小規模のローカル辞書を搭載する。サーバは、携帯端末から受信する音声信号を認識する中で、ユーザの利用ログを記録し、補強が必要な辞書エントリを携帯端末へ送信する。携帯端末は、サーバから受信した辞書エントリによって、ローカル辞書を補強することができる。ここで、携帯端末が、サーバへ、ローカル辞書の補強のための辞書エントリを依頼するものであってもよい。
更に、位置情報に依存した単語を取得するために、twitter(登録商標)を用いた技術もある(例えば非特許文献1参照)。この技術によれば、位置情報付きツイートを位置に応じて分類し、分類された位置毎に特有の単語を抽出することができる。
特開2014−048507号公報
荒川豊、田頭茂明、福田晃「Twitter分析に基づく位置情報依存文字列の抽出」、情報処理学会研究報告モバイルコンピューティングとユビキタス通信、2010-MBL-55(10)、pp.1-6、2010-08-26 Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, "Distributed representations of words and phrases and their compositionality", 2013, NIPS 2013: 3111-3119
しかしながら、特許文献1に記載の技術によれば、ユーザに音声認識サービスを提供する中で、辞書が拡張されるものであって、基本的にユーザ毎に構築される辞書も異なる。また、非特許文献1に記載の技術によれば、ツイートの記述内容と、音声認識システムにおけるユーザの発話内容とに乖離がある場合、システム性能を向上させるような辞書を生成することはできない。例えばユーザからある名詞が発話されるのに対し、ツイートではそのような名詞が記述されない場合も多い。
ここで、本願の発明者らは、第1の適用用途(地域や利用分野)の第1の辞書から、第2の適用用途の第2の辞書を生成することができないか?と考えた。例えば東京では「東京タワー」という単語が用いられる文章の中では、大阪では「通天閣」という単語が用いられる可能性が高いのではないか?と考えた。そうであれば、東京に滞在するユーザに利用される音声認識システムの第1の辞書の中で、「東京タワー」という単語は、大阪に滞在するユーザに利用される音声認識システムの第2の辞書の中で、「通天閣」という単語に置き換えることができると考えた。
そこで、本発明は、第1の適用用途の辞書から第2の適用用途の辞書を生成することができる辞書生成装置、サーバ、プログラム及び方法を提供することを目的とする。
本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する辞書生成装置であって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
を有することを特徴とする。
本発明の辞書生成装置における他の実施形態によれば、
単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。
本発明の辞書生成装置における他の実施形態によれば、
辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第1の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。
本発明の辞書生成装置における他の実施形態によれば、
カテゴリ名は、「地域名」であり、
適用元用途の第1の辞書は、第1の地域で用いられるシステム辞書であり、
適用先用途の第2の辞書は、第2の地域で用いられるシステム辞書である
ことも好ましい。
本発明の辞書生成装置における他の実施形態によれば、
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことも好ましい。
本発明の辞書生成装置における他の実施形態によれば、
第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第1の辞書は、第1の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第2の辞書は、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶したものであり、
単語ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
辞書ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索し、
候補ベクトル算出手段は、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出し、
ベクトル距離判定手段は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第2の言語体系用の単語ベクトルを検索し、
辞書生成手段は、ベクトル距離判定手段によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する
ことも好ましい。
本発明によれば、前述した辞書生成装置を搭載したサーバであって、
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用することを特徴とする。
本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成するようにコンピュータを機能させるプログラムであって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する装置の辞書生成方法であって、
装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
単語ベクトル記憶部を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
装置は、
単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第1のステップと、
辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第2のステップと、
候補ベクトルと、単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第3のステップと、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する第4のステップと
を実行することを特徴とする。
本発明の辞書生成装置、サーバ、プログラム及び方法によれば、第1の適用用途の辞書から第2の適用用途の辞書を生成することができる。
本発明における辞書生成装置を含むシステム構成図である。 第1の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。 本発明における辞書生成装置の機能構成図である。 本発明におけるベクトル間の距離の計算方法を表す説明図である。 第2の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。 第1の言語体系及び第2の言語体系に基づく単語ベクトル記憶部及び辞書ベクトル記憶部の具体例を表す説明図である。 本発明における対訳用の辞書生成装置の機能構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における辞書生成装置を含むシステム構成図である。
図1(a)によれば、辞書生成装置1が、インターネットのようなネットワークに接続されており、地域毎に、異なる音声認識サーバが配置されている。例えば、東京付近では、東京用の音声認識サーバが配置されており、辞書には、東京に滞在するユーザによる利用頻度が高いであろう「東京タワー」が登録されている。
一方で、例えば、大阪付近では、大阪用の音声認識サーバが配置されており、辞書には、大阪に滞在するユーザによる利用頻度が高いであろう「通天閣」が登録されている。
図1(b)によれば、辞書生成装置と一体的に構成された音声認識サーバが、インターネットに接続されている。音声認識サーバに搭載された辞書生成装置も、地域毎に、異なる辞書を生成する。音声認識サーバは、ユーザ所有の端末から、当該ユーザが位置する地域情報(例えばGPSの位置情報)を受信する。このとき、音声認識サーバは、当該ユーザに対して、その地域情報に対応する音声認識用のシステム辞書を選択する。そして、音声認識サーバは、当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する。例えば、東京に滞在する端末からの利用の場合、東京用の辞書を用いて音声認識処理を実行する。
尚、辞書生成装置1は、ユーザによって発話された音声信号を音声認識によってテキストに変換し、その中に含まれる「地域名」によって、音声認識用のシステム辞書を選択するものであってもよい。また、ユーザによって発話された内容から、話題となっているトピックによって音声認識用のシステム辞書を選択するものであってもよい。
[辞書生成装置1]
辞書生成装置1は、適応元用途の第1の辞書から、適応先用途の第2の辞書を生成することができる。例えば適用元用途としての東京用の辞書から、適用先用途としての大阪用の辞書を生成することができる。
「適用元用途の第1の辞書」は、言語体系の表層表現の「単語」及び「カテゴリ名」を記憶する。また、適用元用途の第1の辞書は、第1の地域(例えば東京)で用いられるシステム辞書であってもよい。
「適用先用途の第2の辞書」は、表層表現の「単語」を記憶する。また、適用先用途の第2の辞書は、第2の地域(例えば大阪)で用いられるシステム辞書であってもよい。
第1の辞書は、例えば東京で用いられるシステム辞書であるとする。
カテゴリ名
東京タワー[東京、ランドマーク]
ナポリタン[東京、食べ物]
・・・
ここで、「カテゴリ名」とは、「地域名」及び/又は「見出し語」を意味する。例えば単語「東京タワー」に対して、カテゴリ名「東京、ランドマーク」が対応付けられたものである。「見出し語」とは、例えば大規模なコーパス辞書の中で、分類用のノードとして用いられる単語である。
図2は、第1の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。
図2によれば、辞書生成装置1は、第1の言語体系における第1の辞書101と、コーパス文章群とを用いて、単語ベクトル記憶部102及び辞書ベクトル記憶部103を作成する。図2の構成は、単語ベクトル記憶部102及び辞書ベクトル記憶部103を学習によって構築するためのフェーズに基づくものである。即ち、図2のように構成することを必須とするものではなく、事前に何らかの方法で、単語ベクトル記憶部102及び辞書ベクトル記憶部103を構成したものであればよい。
辞書生成装置1は、最初に、言語体系のコーパス(corpus)に含まれる文章群を、形態素解析によって単語に区分する。形態素解析とは、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態素毎の品詞も判別することも、分かち書きの処理をすることもできる。本発明によれば、形態素解析によって、単語の中でも「名詞」に限って抽出する。
言語体系のコーパスの文章群は、Wikipedia(登録商標)や新聞コーパス、Webクローリングによって取得したテキスト群のような、一般の言語コーパスである。即ち、特定の地域や利用分野に依存したインドメインコーパスである必要はなない。
次に、辞書生成装置1は、区分された単語群における分散表現を学習して、分散表現モデルを生成する。
「分散表現(Distributed Representation、Word Embeddings)」とは、各単語を、単語間の各特徴要素(次元)に対して、定量化した連続値で表現したベクトルである。
分散表現モデルを構築するアルゴリズムとしては、例えば「Word2Vec」がある(例えば非特許文献2参照)。
「Word2Vec」とは、「同じ文脈で利用される単語は、同じ意味を持つ」という仮説に基づいて、単語の特徴や意味構造を含めてベクトル化したものである。これによって生成されるベクトル空間は、単語の「意味」を直接的に表現しているかのような性質を認めることができる。意味的に近い単語は、空間上で近くに存在するベクトルとして表現される。この技術によれば、例えば日本人が日常的に使う語彙数の数万〜数十万個における各単語を、200次元程度の空間内に、分散表現のベクトルとして表す。
「分散表現モデル」は、ディープラーニングにおける人工ニューラルネットワークに基づいて構築される。Word2Vecによれば、ある単語が与えられたとき、その近くに出現する他の単語(5個〜10個程度)を当てる、という問題の解を、与えられた文章中の単語全てに対して人工ニューラルネットワークに学習させる。似た意味の言葉は、学習の過程で、徐々に近しい方向のベクトルに収束する。尚、Word2Vecは、自然言語処理ツールとして、オープンソース化されている。
[単語ベクトル記憶部102]
単語ベクトル記憶部102は、区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図2によれば、単語ベクトル記憶部102は、以下のように対応付けて記憶する。
<単語> <ベクトル>
たこやき −> ベクトル(たこやき)
東京 −> ベクトル(東京)
ナポリタン−> ベクトル(ナポリタン)
通天閣 −> ベクトル(通天閣)
大阪 −> ベクトル(大阪)
東京タワー−> ベクトル(東京タワー)
・・・
[辞書ベクトル記憶部103]
辞書ベクトル記憶部103は、第1の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図2によれば、辞書ベクトル記憶部103は、以下のように対応付けて記憶する。
<単語のベクトル> <カテゴリ名のベクトル>
ベクトル(東京タワー)[ベクトル(東京)、ベクトル(ランドマーク)]
ベクトル(ナポリタン)[ベクトル(東京)、ベクトル(食べ物)]
・・・
図3は、本発明における辞書生成装置の機能構成図である。
図3の辞書生成装置1によれば、カテゴリ名ベクトル検索部11と、候補ベクトル算出部12と、ベクトル距離判定部13と、辞書生成部14とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の辞書生成方法としても理解できる。
[カテゴリ名ベクトル検索部11]
カテゴリ名は、「地域名」であってもよい。例えば「大阪」のようなものである。
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」であってもよい。例えば「ランドマーク」又は「東京、ランドマーク」のようなものである。
カテゴリ名ベクトル検索部11は、単語ベクトル記憶部102を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する。
図3によれば、カテゴリ名ベクトル検索部11は、例えば、検索キーとしてのカテゴリ名「大阪」を、単語ベクトル記憶部102へ入力し、その出力として、分散表現のベクトル(大阪)を取得する。
そして、検索されたカテゴリ名ベクトルは、候補ベクトル算出部12へ出力される。
[候補ベクトル算出部12]
候補ベクトル算出部12は、辞書ベクトル記憶部103から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する。
図3によれば、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル :例えばベクトル(東京タワー)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(東京)
適用先用途のカテゴリ名 :例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル:例えばベクトル(大阪)
候補ベクトル=ベクトル(東京タワー)−ベクトル(東京)+ベクトル(大阪)
この候補ベクトルの意味は、大阪で、「東京タワー」と同じように使われる単語のベクトルが、候補ベクトルとなる。
次に、辞書ベクトル記憶部103から、異なる任意の単語ベクトルが取得される。
任意の単語ベクトル :例えばベクトル(ナポリタン)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(東京)
適用先用途のカテゴリ名 :例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル:例えばベクトル(大阪)
候補ベクトル=ベクトル(ナポリタン)−ベクトル(東京)+ベクトル(大阪)
このように、深層学習を用いた単語の分散表現のベクトルによれば、意味の加減算が可能となる。
ここでの任意の単語ベクトルは、辞書ベクトル記憶部103に記憶された全ての単語ベクトルとの組み合わせに対して、候補ベクトルを算出する。
そして、算出された候補ベクトルは、ベクトル距離判定部13へ出力される。
図4は、本発明におけるベクトル間の距離の計算方法を表す説明図である。図4によれば、適用元用途のカテゴリ名と適用先用途のカテゴリ名とに応じて、候補ベクトルを算出するための様々な計算方法を表す。
ws:任意の単語ベクトル
l:当該単語に対応するカテゴリ名(地域名)ベクトル
f:当該単語に対応するカテゴリ名(見出し語名)ベクトル
tl:適用先用途のカテゴリ名(地域名)に対応するカテゴリ名ベクトル
tf:適用先用途のカテゴリ名(見出し語名)に対応するカテゴリ名ベクトル
wn:他の単語ベクトル
[ベクトル距離判定部13]
ベクトル距離判定部13は、候補ベクトルと、単語ベクトル記憶部102の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する。
図3によれば、候補ベクトルと、単語ベクトル記憶部102のベクトル(通天閣)との間の距離が所定閾値以下(又は類似度が所定閾値以上)であると判定されている。ここでは、大阪で、「東京タワー」と同じように使われる単語のベクトルとして、ベクトル(通天閣)が、距離が近いものとして判定されている。勿論、ベクトル間の距離が最も近いもの1つに限られず、複数あってもよいし、逆に、距離が所定閾値以下のものが無いとして0であってもよい。
ここでの各単語ベクトルは、単語ベクトル記憶部102に記憶された全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部13によって真と判定された単語ベクトルは、辞書生成部14へ出力される。
[辞書生成部14]
辞書生成部14は、検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する。
図3によれば、ベクトル(通天閣)に対応する単語「通天閣」を、第2の辞書に追加する。このようにすることによって、例えば東京で使用されている辞書から、大阪で使用可能な辞書を自動的に生成することができる。
図5〜図7は、異なる言語体系に対応する対訳辞書を生成するためのものである。ここでは、第1の言語体系が日本語であり、第2の言語体系が英語である。この場合、辞書生成装置1は、適用元用途としての東京用の日本語対英語の対訳辞書から、適用先用途としての大阪用の日本語対英語の対訳辞書を生成することができる。
図5は、第2の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。
図5は、図2と同様であって、第1の辞書に記憶された英語の単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図5によれば、第1の辞書101は、以下のように対応付けて記憶する。
<単語> <カテゴリ名>
Tokyo tower[Tokyo、Landmark]
Neapolitan [Tokyo、Food]
・・・
即ち、図2及び図5を組み合わせて、第1の辞書は、第1の言語体系(例えば日本語)の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系(例えば英語)の表層表現の単語及びカテゴリ名とを対応付けて記憶したものとなる。
図5によれば、単語ベクトル記憶部102は、例えば以下のように対応付けて記憶する。
<単語> <ベクトル>
takoyaki −> ベクトル(takoyaki)
Tokyo −> ベクトル(Tokyo)
Neapolitan −> ベクトル(Neapolitan)
Tsutenkaku −> ベクトル(Tsutenkaku)
Osaka −> ベクトル(Osaka)
Tokyo tower−> ベクトル(Tokyo tower)
・・・
図5によれば、辞書ベクトル記憶部103は、例えば以下のように対応付けて記憶する。
<単語のベクトル> <カテゴリ名のベクトル>
ベクトル(Tokyo tower)[ベクトル(Tokyo)、ベクトル(Landmark)]
ベクトル(Neapolitan) [ベクトル(Tokyo)、ベクトル(Food)]
・・・
図6は、第1の言語体系及び第2の言語体系に基づく単語ベクトル記憶部及び辞書ベクトル記憶部の具体例を表す説明図である。
汎用対訳辞書を更に有し、第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶する。図6によれば、汎用対訳辞書は、例えば以下のような対訳の辞書である。
通天閣 <−>Tsutenkaku
東京タワー <−>Tokyo tower
たこやき <−>Takoyaki
ナポリタン <−>Neapolitan
梅田スカイビル<−>Umeda Sky Building
ツイン21 <−>Twin21
単語ベクトル記憶部102は、第1の言語体系用及び第2の言語体系用それぞれに備えられる。
[第1の言語体系用]
たこやき −>ベクトル(たこやき)
東京 −>ベクトル(東京)
ナポリタン−>ベクトル(ナポリタン)
通天閣 −>ベクトル(通天閣)
大阪 −>ベクトル(大阪)
東京タワー−>ベクトル(東京タワー)
・・・
[第2の言語体系用]
Takoyaki −>ベクトル(Takoyaki)
Tokyo −>ベクトル(Tokyo)
Neapolitan −>ベクトル(Neapolitan)
Tsutenkaku −>ベクトル(Tsutenkaku)
Osaka −>ベクトル(Osaka)
Tokyo tower−>ベクトル(Tokyo tower)
・・・
辞書ベクトル記憶部103も、第1の言語体系用及び第2の言語体系用それぞれに備えられる。
[第1の言語体系用]
ベクトル(東京タワー)[ベクトル(東京)、ベクトル(ランドマーク)]
ベクトル(ナポリタン)[ベクトル(東京)、ベクトル(食べ物)]
・・・
[第2の言語体系用]
ベクトル(Tokyo tower)[ベクトル(Tokyo)、ベクトル(Landmark)]
ベクトル(Neapolitan)[ベクトル(Tokyo)、ベクトル(Food)]
・・・
図7は、本発明における対訳用の辞書生成装置の機能構成図である。
[カテゴリ名ベクトル検索部11]
カテゴリ名ベクトル検索部11は、単語ベクトル記憶部102を用いて、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索する。
図7によれば、例えば適応先カテゴリ名として「大阪」を入力し、その日本語及び英語のカテゴリ名ベクトルを、単語ベクトル記憶部102を用いて検索する。
大阪 −>ベクトル(大阪)
Osaka −>ベクトル(Osaka)
[候補ベクトル算出部12]
候補ベクトル算出部12は、辞書ベクトル記憶部103を用いて、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出する。
図7によれば、第2の言語体系について、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル :例えばベクトル(Tokyo tower)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(Tokyo)
適用先用途のカテゴリ名 :例えばOsaka
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル
:例えばベクトル(Osaka)
第2の言語体系の候補ベクトル
=ベクトル(Tokyo tower)−ベクトル(Tokyo)+ベクトル(Osaka)
[ベクトル距離判定部13]
ベクトル距離判定部13は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下となる、第2の言語体系用の単語ベクトルを検索する。
図7によれば、第2の言語体系の候補ベクトルと、単語ベクトル記憶部102のベクトル(Tsutenkaku)との間の距離が所定閾値以下(又は類似度が所定閾値以上)であると判定されている。ここでは、Osakaで、「Tokyo tower」と同じように使われる単語のベクトルとして、ベクトル(Tsutenkaku)が、距離が近いものとして判定されている。
ここで、第2の言語体系の各単語ベクトルは、単語ベクトル記憶部102に記憶された第2の言語体系全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部13によって真と判定された第1の言語体系の単語ベクトル及び第2の言語体系の単語ベクトルは、辞書生成部14へ出力される。
[辞書生成部14]
辞書生成部14は、ベクトル距離判定部13によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する。
これによって、第1の言語体系の第1の単語と第2の言語体系の第2の単語とが、ベクトル間距離が近いけれども、対訳として存在しないものを、第2の辞書に登録することがなくなる。即ち、ベクトル間距離が近くて対訳関係が存在するもののみを、第2の辞書に登録することができる。
これによって、第2の辞書には、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶することができる。
以上、詳細に説明したように、本発明の辞書生成装置、サーバ、プログラム及び方法によれば、第1の適用用途の辞書から第2の適用用途の辞書を生成することができる。本発明によれば、人手を要することなく、インドメインコーパスやシステム利用ログ等を用いることなく、第1の適用用途の辞書から、既存の一般言語コーパスを用いて、地域や利用分野に応じた辞書を生成することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 辞書生成装置
101 第1の辞書
102 単語ベクトル記憶部
103 辞書ベクトル記憶部
104 第2の辞書
11 カテゴリ名ベクトル検索部
12 候補ベクトル算出部
13 ベクトル距離判定部
14 辞書生成部

Claims (9)

  1. 言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する辞書生成装置であって、
    言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
    前記単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
    前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
    前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
    前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
    検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
    を有することを特徴とする辞書生成装置。
  2. 前記単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
    言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
    区分された単語群における分散表現を学習して、分散表現モデルを生成し、
    区分された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである
    ことを特徴とする請求項1に記載の辞書生成装置。
  3. 前記辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第1の辞書に記憶された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることを特徴とする請求項2に記載の辞書生成装置。
  4. 前記カテゴリ名は、「地域名」であり、
    適用元用途の第1の辞書は、第1の地域で用いられるシステム辞書であり、
    適用先用途の第2の辞書は、第2の地域で用いられるシステム辞書である
    ことを特徴とする請求項1から3のいずれか1項に記載の辞書生成装置。
  5. 前記カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
    ことを特徴とする請求項1から4のいずれか1項に記載の辞書生成装置。
  6. 第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
    第1の辞書は、第1の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
    第2の辞書は、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶したものであり、
    前記単語ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
    前記辞書ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
    前記カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索し、
    前記候補ベクトル算出手段は、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出し、
    前記ベクトル距離判定手段は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第2の言語体系用の単語ベクトルを検索し、
    前記辞書生成手段は、前記ベクトル距離判定手段によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として前記汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する
    ことを特徴とする請求項1から5のいずれか1項に記載の辞書生成装置。
  7. 請求項1から6のいずれか1項に記載の辞書生成装置を搭載したサーバであって、
    ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
    当該ユーザに対して、前記地域情報に対応する音声認識用のシステム辞書を選択し、
    当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する
    ことを特徴とするサーバ。
  8. 言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成するようにコンピュータを機能させるプログラムであって、
    言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
    前記単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
    前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
    前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
    前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
    検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
    してコンピュータを機能させることを特徴とするプログラム。
  9. 言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する装置の辞書生成方法であって、
    前記装置は、
    言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
    前記単語ベクトル記憶部を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
    を有し、
    前記装置は、
    前記単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第1のステップと、
    前記辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第2のステップと、
    前記候補ベクトルと、前記単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第3のステップと、
    検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する第4のステップと
    を実行することを特徴とする辞書生成方法。
JP2016055986A 2016-03-18 2016-03-18 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 Active JP6495856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016055986A JP6495856B2 (ja) 2016-03-18 2016-03-18 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016055986A JP6495856B2 (ja) 2016-03-18 2016-03-18 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2017173907A JP2017173907A (ja) 2017-09-28
JP6495856B2 true JP6495856B2 (ja) 2019-04-03

Family

ID=59972072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016055986A Active JP6495856B2 (ja) 2016-03-18 2016-03-18 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6495856B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6833134B2 (ja) * 2018-11-07 2021-02-24 三菱電機株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US12057108B2 (en) * 2020-04-10 2024-08-06 Collibra Belgium Bv Methods and systems for word edit distance embedding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3856778B2 (ja) * 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
JP4360181B2 (ja) * 2003-11-13 2009-11-11 日本電信電話株式会社 ドメイン別概念辞書構築装置及びプログラム
TWI502380B (zh) * 2007-03-29 2015-10-01 Nokia Corp 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names

Also Published As

Publication number Publication date
JP2017173907A (ja) 2017-09-28

Similar Documents

Publication Publication Date Title
KR102329127B1 (ko) 방언을 표준어로 변환하는 방법 및 장치
KR102565274B1 (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10437929B2 (en) Method and system for processing an input query using a forward and a backward neural network specific to unigrams
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US9330659B2 (en) Facilitating development of a spoken natural language interface
US9530405B2 (en) Intention estimating device and intention estimating method
WO2017127296A1 (en) Analyzing textual data
US20150178274A1 (en) Speech translation apparatus and speech translation method
Kurimo et al. Modeling under-resourced languages for speech recognition
Harwath et al. Zero resource spoken audio corpus analysis
KR20160058531A (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN112346696A (zh) 虚拟助理的语音比较
JP2012037790A (ja) 音声対話装置
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备
JP6495856B2 (ja) 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法
Sun et al. Learning OOV through semantic relatedness in spoken dialog systems.
CN107861937B (zh) 对译语料库的更新方法、更新装置以及记录介质
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
JP6619764B2 (ja) ユーザ属性に応じて言語モデルを選択する言語処理装置、プログラム及び方法
CN112528679A (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
El-Taher et al. Automation of understanding textual contents in social networks
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190307

R150 Certificate of patent or registration of utility model

Ref document number: 6495856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150