JP6495856B2 - 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 - Google Patents
適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 Download PDFInfo
- Publication number
- JP6495856B2 JP6495856B2 JP2016055986A JP2016055986A JP6495856B2 JP 6495856 B2 JP6495856 B2 JP 6495856B2 JP 2016055986 A JP2016055986 A JP 2016055986A JP 2016055986 A JP2016055986 A JP 2016055986A JP 6495856 B2 JP6495856 B2 JP 6495856B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- dictionary
- word
- category name
- language system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
・地域や利用分野に応じた言語コーパス(インドメイン言語コーパス)から、辞書を構築する。
・地域や利用分野に関する辞書を人手によって整備する。
・音声認識システムにおける利用ログから、未知語を抽出し、その未知語を辞書に追加する。
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
を有することを特徴とする。
単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。
辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第1の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。
カテゴリ名は、「地域名」であり、
適用元用途の第1の辞書は、第1の地域で用いられるシステム辞書であり、
適用先用途の第2の辞書は、第2の地域で用いられるシステム辞書である
ことも好ましい。
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことも好ましい。
第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第1の辞書は、第1の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第2の辞書は、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶したものであり、
単語ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
辞書ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索し、
候補ベクトル算出手段は、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出し、
ベクトル距離判定手段は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第2の言語体系用の単語ベクトルを検索し、
辞書生成手段は、ベクトル距離判定手段によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する
ことも好ましい。
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用することを特徴とする。
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とする。
装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
単語ベクトル記憶部を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
装置は、
単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第1のステップと、
辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第2のステップと、
候補ベクトルと、単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第3のステップと、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する第4のステップと
を実行することを特徴とする。
一方で、例えば、大阪付近では、大阪用の音声認識サーバが配置されており、辞書には、大阪に滞在するユーザによる利用頻度が高いであろう「通天閣」が登録されている。
辞書生成装置1は、適応元用途の第1の辞書から、適応先用途の第2の辞書を生成することができる。例えば適用元用途としての東京用の辞書から、適用先用途としての大阪用の辞書を生成することができる。
「適用元用途の第1の辞書」は、言語体系の表層表現の「単語」及び「カテゴリ名」を記憶する。また、適用元用途の第1の辞書は、第1の地域(例えば東京)で用いられるシステム辞書であってもよい。
「適用先用途の第2の辞書」は、表層表現の「単語」を記憶する。また、適用先用途の第2の辞書は、第2の地域(例えば大阪)で用いられるシステム辞書であってもよい。
カテゴリ名
東京タワー[東京、ランドマーク]
ナポリタン[東京、食べ物]
・・・
「分散表現(Distributed Representation、Word Embeddings)」とは、各単語を、単語間の各特徴要素(次元)に対して、定量化した連続値で表現したベクトルである。
分散表現モデルを構築するアルゴリズムとしては、例えば「Word2Vec」がある(例えば非特許文献2参照)。
「Word2Vec」とは、「同じ文脈で利用される単語は、同じ意味を持つ」という仮説に基づいて、単語の特徴や意味構造を含めてベクトル化したものである。これによって生成されるベクトル空間は、単語の「意味」を直接的に表現しているかのような性質を認めることができる。意味的に近い単語は、空間上で近くに存在するベクトルとして表現される。この技術によれば、例えば日本人が日常的に使う語彙数の数万〜数十万個における各単語を、200次元程度の空間内に、分散表現のベクトルとして表す。
単語ベクトル記憶部102は、区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図2によれば、単語ベクトル記憶部102は、以下のように対応付けて記憶する。
<単語> <ベクトル>
たこやき −> ベクトル(たこやき)
東京 −> ベクトル(東京)
ナポリタン−> ベクトル(ナポリタン)
通天閣 −> ベクトル(通天閣)
大阪 −> ベクトル(大阪)
東京タワー−> ベクトル(東京タワー)
・・・
辞書ベクトル記憶部103は、第1の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図2によれば、辞書ベクトル記憶部103は、以下のように対応付けて記憶する。
<単語のベクトル> <カテゴリ名のベクトル>
ベクトル(東京タワー)[ベクトル(東京)、ベクトル(ランドマーク)]
ベクトル(ナポリタン)[ベクトル(東京)、ベクトル(食べ物)]
・・・
カテゴリ名は、「地域名」であってもよい。例えば「大阪」のようなものである。
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」であってもよい。例えば「ランドマーク」又は「東京、ランドマーク」のようなものである。
カテゴリ名ベクトル検索部11は、単語ベクトル記憶部102を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する。
図3によれば、カテゴリ名ベクトル検索部11は、例えば、検索キーとしてのカテゴリ名「大阪」を、単語ベクトル記憶部102へ入力し、その出力として、分散表現のベクトル(大阪)を取得する。
そして、検索されたカテゴリ名ベクトルは、候補ベクトル算出部12へ出力される。
候補ベクトル算出部12は、辞書ベクトル記憶部103から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する。
図3によれば、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル :例えばベクトル(東京タワー)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(東京)
適用先用途のカテゴリ名 :例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル:例えばベクトル(大阪)
候補ベクトル=ベクトル(東京タワー)−ベクトル(東京)+ベクトル(大阪)
この候補ベクトルの意味は、大阪で、「東京タワー」と同じように使われる単語のベクトルが、候補ベクトルとなる。
次に、辞書ベクトル記憶部103から、異なる任意の単語ベクトルが取得される。
任意の単語ベクトル :例えばベクトル(ナポリタン)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(東京)
適用先用途のカテゴリ名 :例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル:例えばベクトル(大阪)
候補ベクトル=ベクトル(ナポリタン)−ベクトル(東京)+ベクトル(大阪)
このように、深層学習を用いた単語の分散表現のベクトルによれば、意味の加減算が可能となる。
ここでの任意の単語ベクトルは、辞書ベクトル記憶部103に記憶された全ての単語ベクトルとの組み合わせに対して、候補ベクトルを算出する。
そして、算出された候補ベクトルは、ベクトル距離判定部13へ出力される。
ws:任意の単語ベクトル
l:当該単語に対応するカテゴリ名(地域名)ベクトル
f:当該単語に対応するカテゴリ名(見出し語名)ベクトル
tl:適用先用途のカテゴリ名(地域名)に対応するカテゴリ名ベクトル
tf:適用先用途のカテゴリ名(見出し語名)に対応するカテゴリ名ベクトル
wn:他の単語ベクトル
ベクトル距離判定部13は、候補ベクトルと、単語ベクトル記憶部102の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する。
図3によれば、候補ベクトルと、単語ベクトル記憶部102のベクトル(通天閣)との間の距離が所定閾値以下(又は類似度が所定閾値以上)であると判定されている。ここでは、大阪で、「東京タワー」と同じように使われる単語のベクトルとして、ベクトル(通天閣)が、距離が近いものとして判定されている。勿論、ベクトル間の距離が最も近いもの1つに限られず、複数あってもよいし、逆に、距離が所定閾値以下のものが無いとして0であってもよい。
ここでの各単語ベクトルは、単語ベクトル記憶部102に記憶された全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部13によって真と判定された単語ベクトルは、辞書生成部14へ出力される。
辞書生成部14は、検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する。
図3によれば、ベクトル(通天閣)に対応する単語「通天閣」を、第2の辞書に追加する。このようにすることによって、例えば東京で使用されている辞書から、大阪で使用可能な辞書を自動的に生成することができる。
図5によれば、第1の辞書101は、以下のように対応付けて記憶する。
<単語> <カテゴリ名>
Tokyo tower[Tokyo、Landmark]
Neapolitan [Tokyo、Food]
・・・
即ち、図2及び図5を組み合わせて、第1の辞書は、第1の言語体系(例えば日本語)の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系(例えば英語)の表層表現の単語及びカテゴリ名とを対応付けて記憶したものとなる。
<単語> <ベクトル>
takoyaki −> ベクトル(takoyaki)
Tokyo −> ベクトル(Tokyo)
Neapolitan −> ベクトル(Neapolitan)
Tsutenkaku −> ベクトル(Tsutenkaku)
Osaka −> ベクトル(Osaka)
Tokyo tower−> ベクトル(Tokyo tower)
・・・
<単語のベクトル> <カテゴリ名のベクトル>
ベクトル(Tokyo tower)[ベクトル(Tokyo)、ベクトル(Landmark)]
ベクトル(Neapolitan) [ベクトル(Tokyo)、ベクトル(Food)]
・・・
通天閣 <−>Tsutenkaku
東京タワー <−>Tokyo tower
たこやき <−>Takoyaki
ナポリタン <−>Neapolitan
梅田スカイビル<−>Umeda Sky Building
ツイン21 <−>Twin21
[第1の言語体系用]
たこやき −>ベクトル(たこやき)
東京 −>ベクトル(東京)
ナポリタン−>ベクトル(ナポリタン)
通天閣 −>ベクトル(通天閣)
大阪 −>ベクトル(大阪)
東京タワー−>ベクトル(東京タワー)
・・・
[第2の言語体系用]
Takoyaki −>ベクトル(Takoyaki)
Tokyo −>ベクトル(Tokyo)
Neapolitan −>ベクトル(Neapolitan)
Tsutenkaku −>ベクトル(Tsutenkaku)
Osaka −>ベクトル(Osaka)
Tokyo tower−>ベクトル(Tokyo tower)
・・・
[第1の言語体系用]
ベクトル(東京タワー)[ベクトル(東京)、ベクトル(ランドマーク)]
ベクトル(ナポリタン)[ベクトル(東京)、ベクトル(食べ物)]
・・・
[第2の言語体系用]
ベクトル(Tokyo tower)[ベクトル(Tokyo)、ベクトル(Landmark)]
ベクトル(Neapolitan)[ベクトル(Tokyo)、ベクトル(Food)]
・・・
カテゴリ名ベクトル検索部11は、単語ベクトル記憶部102を用いて、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索する。
図7によれば、例えば適応先カテゴリ名として「大阪」を入力し、その日本語及び英語のカテゴリ名ベクトルを、単語ベクトル記憶部102を用いて検索する。
大阪 −>ベクトル(大阪)
Osaka −>ベクトル(Osaka)
候補ベクトル算出部12は、辞書ベクトル記憶部103を用いて、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出する。
図7によれば、第2の言語体系について、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル :例えばベクトル(Tokyo tower)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(Tokyo)
適用先用途のカテゴリ名 :例えばOsaka
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル
:例えばベクトル(Osaka)
第2の言語体系の候補ベクトル
=ベクトル(Tokyo tower)−ベクトル(Tokyo)+ベクトル(Osaka)
ベクトル距離判定部13は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下となる、第2の言語体系用の単語ベクトルを検索する。
図7によれば、第2の言語体系の候補ベクトルと、単語ベクトル記憶部102のベクトル(Tsutenkaku)との間の距離が所定閾値以下(又は類似度が所定閾値以上)であると判定されている。ここでは、Osakaで、「Tokyo tower」と同じように使われる単語のベクトルとして、ベクトル(Tsutenkaku)が、距離が近いものとして判定されている。
ここで、第2の言語体系の各単語ベクトルは、単語ベクトル記憶部102に記憶された第2の言語体系全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部13によって真と判定された第1の言語体系の単語ベクトル及び第2の言語体系の単語ベクトルは、辞書生成部14へ出力される。
辞書生成部14は、ベクトル距離判定部13によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する。
これによって、第1の言語体系の第1の単語と第2の言語体系の第2の単語とが、ベクトル間距離が近いけれども、対訳として存在しないものを、第2の辞書に登録することがなくなる。即ち、ベクトル間距離が近くて対訳関係が存在するもののみを、第2の辞書に登録することができる。
101 第1の辞書
102 単語ベクトル記憶部
103 辞書ベクトル記憶部
104 第2の辞書
11 カテゴリ名ベクトル検索部
12 候補ベクトル算出部
13 ベクトル距離判定部
14 辞書生成部
Claims (9)
- 言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する辞書生成装置であって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
を有することを特徴とする辞書生成装置。 - 前記単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである
ことを特徴とする請求項1に記載の辞書生成装置。 - 前記辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第1の辞書に記憶された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることを特徴とする請求項2に記載の辞書生成装置。
- 前記カテゴリ名は、「地域名」であり、
適用元用途の第1の辞書は、第1の地域で用いられるシステム辞書であり、
適用先用途の第2の辞書は、第2の地域で用いられるシステム辞書である
ことを特徴とする請求項1から3のいずれか1項に記載の辞書生成装置。 - 前記カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことを特徴とする請求項1から4のいずれか1項に記載の辞書生成装置。 - 第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第1の辞書は、第1の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第2の辞書は、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶したものであり、
前記単語ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
前記辞書ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
前記カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索し、
前記候補ベクトル算出手段は、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出し、
前記ベクトル距離判定手段は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第2の言語体系用の単語ベクトルを検索し、
前記辞書生成手段は、前記ベクトル距離判定手段によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として前記汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する
ことを特徴とする請求項1から5のいずれか1項に記載の辞書生成装置。 - 請求項1から6のいずれか1項に記載の辞書生成装置を搭載したサーバであって、
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、前記地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する
ことを特徴とするサーバ。 - 言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成するようにコンピュータを機能させるプログラムであって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とするプログラム。 - 言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する装置の辞書生成方法であって、
前記装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
前記単語ベクトル記憶部を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
前記装置は、
前記単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第1のステップと、
前記辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第2のステップと、
前記候補ベクトルと、前記単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第3のステップと、
検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する第4のステップと
を実行することを特徴とする辞書生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016055986A JP6495856B2 (ja) | 2016-03-18 | 2016-03-18 | 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016055986A JP6495856B2 (ja) | 2016-03-18 | 2016-03-18 | 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017173907A JP2017173907A (ja) | 2017-09-28 |
JP6495856B2 true JP6495856B2 (ja) | 2019-04-03 |
Family
ID=59972072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016055986A Active JP6495856B2 (ja) | 2016-03-18 | 2016-03-18 | 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6495856B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6833134B2 (ja) * | 2018-11-07 | 2021-02-24 | 三菱電機株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
US12057108B2 (en) * | 2020-04-10 | 2024-08-06 | Collibra Belgium Bv | Methods and systems for word edit distance embedding |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3856778B2 (ja) * | 2003-09-29 | 2006-12-13 | 株式会社日立製作所 | 複数言語を対象とした文書分類装置及び文書分類方法 |
JP4360181B2 (ja) * | 2003-11-13 | 2009-11-11 | 日本電信電話株式会社 | ドメイン別概念辞書構築装置及びプログラム |
TWI502380B (zh) * | 2007-03-29 | 2015-10-01 | Nokia Corp | 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品 |
US20160065534A1 (en) * | 2011-07-06 | 2016-03-03 | Nominum, Inc. | System for correlation of domain names |
-
2016
- 2016-03-18 JP JP2016055986A patent/JP6495856B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017173907A (ja) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102329127B1 (ko) | 방언을 표준어로 변환하는 방법 및 장치 | |
KR102565274B1 (ko) | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 | |
US10437929B2 (en) | Method and system for processing an input query using a forward and a backward neural network specific to unigrams | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
US9330659B2 (en) | Facilitating development of a spoken natural language interface | |
US9530405B2 (en) | Intention estimating device and intention estimating method | |
WO2017127296A1 (en) | Analyzing textual data | |
US20150178274A1 (en) | Speech translation apparatus and speech translation method | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
Harwath et al. | Zero resource spoken audio corpus analysis | |
KR20160058531A (ko) | 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치 | |
Zhu et al. | Catslu: The 1st chinese audio-textual spoken language understanding challenge | |
JP2018055670A (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN112346696A (zh) | 虚拟助理的语音比较 | |
JP2012037790A (ja) | 音声対話装置 | |
CN113823259B (zh) | 将文本数据转换为音素序列的方法及设备 | |
JP6495856B2 (ja) | 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 | |
Sun et al. | Learning OOV through semantic relatedness in spoken dialog systems. | |
CN107861937B (zh) | 对译语料库的更新方法、更新装置以及记录介质 | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
JP6619764B2 (ja) | ユーザ属性に応じて言語モデルを選択する言語処理装置、プログラム及び方法 | |
CN112528679A (zh) | 一种意图理解模型训练方法及装置、意图理解方法及装置 | |
El-Taher et al. | Automation of understanding textual contents in social networks | |
JP2017167378A (ja) | 単語スコア計算装置、単語スコア計算方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180410 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495856 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |