JP6745761B2 - 単語群が散布された散布図を作成するプログラム、装置及び方法 - Google Patents

単語群が散布された散布図を作成するプログラム、装置及び方法 Download PDF

Info

Publication number
JP6745761B2
JP6745761B2 JP2017117314A JP2017117314A JP6745761B2 JP 6745761 B2 JP6745761 B2 JP 6745761B2 JP 2017117314 A JP2017117314 A JP 2017117314A JP 2017117314 A JP2017117314 A JP 2017117314A JP 6745761 B2 JP6745761 B2 JP 6745761B2
Authority
JP
Japan
Prior art keywords
word
occurrence
language
scatter diagram
scatter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017117314A
Other languages
English (en)
Other versions
JP2019003387A (ja
Inventor
鈴木 雅実
雅実 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017117314A priority Critical patent/JP6745761B2/ja
Publication of JP2019003387A publication Critical patent/JP2019003387A/ja
Application granted granted Critical
Publication of JP6745761B2 publication Critical patent/JP6745761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、言語に基づく単語の意味合いをユーザが理解しやすいようにするために、単語群が散布された散布図を作成する技術に関する。
母国語以外の言語を理解する上で、単語の使用場面やニュアンスを、辞書の記述のみで理解することは極めて難しい。例えば、外国人が、日本語の中で理解が難しい表現として「オノマトペ(onomatopee)」(擬声語)がある。「オノマトペ」とは、擬音語や擬態語に基づくものであり、日本人の日常会話の中では特に好んで用いられる。オノマトペは、人の感覚に基づく心的状態(気分や態度)や、対象物の様態などを伝える際に、的確かつ簡易に表現することができる。
外国人にとっては、オノマトペを理解しようとする場合、一般的な対訳辞書には記載されていない場合が多く、用例で学ぶ機会は相当に限定されている。一方で、オノマトペを対訳辞書に記述することは、必ずしも実用的ではない。オノマトペは、分類整理することはある程度可能であるが、使用場面やニュアンスまで記述することが難しい。
一方で、観光目的で日本を訪問した外国人にとっても、日本語のオノマトペを正しく理解することができれば、単なる言語的意味を越えたコミュニケーションの理解にも役立つ。
従来、オノマトペが修飾する動詞や名詞などの用例を、Webサイトから収集し、その出現頻度から感性評価指標の評価値を算出する技術がある(例えば非特許文献1参照)。この技術によれば、オノマトペの持つ音韻的な語感に着目したものである。そのために、出現文脈やニュアンスまでも理解できるようにしたものではない。
また、レビュー文章から、オノマトペを含む評価語の関連ネットワークを構築し、利用分野間の意味的な相違を分析する技術もある(例え非特許文献2参照)。オノマトペは特に、利用分野や文脈によって意味が大きく異なるためである。
更に、被験者による実験的数値によって、オノマトペ毎の微細な印象を推定する技術もある(例えば非特許文献3参照)。
その他、留学生を対象として、オノマトペの学習を支援するための電子絵本システムの技術もある(例えば非特許文献4参照)。この技術によれば、対話型のユーザ・インタフェースによって、比較的意味の近いオノマトペの利用状況の違いを視覚的に表すことができる。
他の研究論文として、複数のオノマトペを、「コレスポンディング分析」の散布図として表示する技術もある(例えば非特許文献5参照)。この技術は、各オノマトペを体系的に分析したものであるが、オノマトペ自体を理解させるものではない。
図1は、コレスポンディング分析の散布図である。
「コレスポンディング分析の散布図」とは、クロス集計表を視覚的に表すものであって、相関関係が高い要素ほど近くにプロットされる。
図1の散布図によれば、適用分野「食感」に基づく複数のオノマトペが、評価軸上の相対的位置にプロットされている。
第1の評価軸:力学的特性 (破砕のし易さ<->破砕のしづらさ)
第2の評価軸:幾何学的特性(空気的な軽さ<->空気的な重さ)
即ち、ユーザは、第1のオノマトペと第2のオノマトペとが座標的に近いほど、食感的にも近いことを、一見して理解するこができる。
特開2013−033351号公報 特開2010−256957号公報 特開平11−203278号公報 特開2012−123639号公報
中部文子、浅賀千里、渡辺知恵美、「感性情報を利用したオノマトペ学習システムの開発」、第1回データ工学と情報マネジメントに関するフォーラム(DEIM2009)、E5-1、2009. 千本達也、竹内和広、「分野データにより訓練した評価語関連ネットワークに対するオノマトペ表現の割り当て」、信学技報、TL2014-44,2014. 清水祐一郎、土斐崎龍一、坂本真樹、「オノマトペごとの微細な印象を推定するシステム」、人工知能学会論文誌、Vol.29 No.1、pp.41-52,2014. 前田安里紗、上間大生、松下光範、「留学生を対象としたオノマトペの学習を支援するための電子絵本システムの評価」、情報処理学会第76回全国大会、2ZF-8,2014. 早川文代、「日本語テクスチャー用語の体系化と官能評価への利用」、日本食品科学工学会誌、Vol.60、No.7、pp.311-322、2013.
前述した従来技術によれば、日本語のオノマトペを、外国人に理解させることは難しい。特に、オノマトペは、一般的な対訳辞書にも記述されておらず、使用場面やニュアンスを理解させることは極めて難しい。
これに対し、本願の発明者らは、異なる言語間では必ず、対訳辞書に記述することが難しい、人の感覚表現的な単語(例えばオノマトペ)があると認識している。即ち、外国人には、未知の言語(第1の言語、例えば旅行先の国の言語)における感覚表現的な単語に対して意味が近いであろう、既知の言語(第2の言語、例えば母国語)の単語を明示することができれば、理解できるのではないか、と考えた。
そこで、本願発明は、未知の言語の感覚表現的な単語に対して意味が近いであろう、既知の言語の単語を、ユーザに認識させることができる散布図を作成するプログラム、装置及び方法を提供することを目的とする。
本発明によれば、第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示するようにコンピュータを機能させるプログラムであって、
散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ようにコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
第1の言語に基づく第1の単語及び第2の単語は、オノマトペ(擬声語)である
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
散布図の評価軸は、コレスポンデンス分析に基づくもの、又は、任意の特徴ベクトルに基づくものである
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
散布図の評価軸は、人の感覚に基づく特性の強弱を表すものである
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
散布図に表示される第2の共起単語は、テキストに代えて、サムネイル画像として表示される
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1の言語に基づくコーパスを用いて、第1の言語に基づく第1の単語及び第2の単語の両方で共起度が高い、第1の言語に基づく第1の共起単語を抽出する第1の共起単語抽出手段と、
対訳辞書を用いて、第1の言語に基づく第1の共起単語を、第2の言語に基づく第2の共起単語に対訳する第2の共起単語抽出手段と、
第1の言語に基づく第1の単語と第2の単語との間に、第2の言語に基づく第2の共起単語を表示する散布図を作成する散布図作成手段と
してコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1の共起単語抽出手段は、第1の単語及び第1の共起単語の間の共起度と、第2の単語及び第1の共起単語の間の共起度との比率を算出し、
散布図表示手段は、第1の単語と第2の単語との間で比率に応じた位置に、第2の共起単語を表示する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
適用分野毎に、散布図を記憶した散布図記憶手段を更に有し、
ユーザ所望の適用分野に基づく散布図に対して、第2の共起単語を表示する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
ユーザに、第1の言語に基づく第1の単語を検索キーとして入力させる検索キー入力手段と、
散布図記憶手段から、検索キーを含む散布図を検索する散布図検索手段と、
検索した散布図を、ユーザに明示する散布図表示手段と
してコンピュータを更に機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
散布図毎に、適用分野に基づく1つ以上の適用態様語が更に対応付けられており、
検索キー入力手段は、第1の単語に対する適用態様語を更に入力し、
散布図検索手段は、検索キー入力手段に入力された適用態様語に対応付けられた1つ以上の散布図の中から、検索キーを含む散布図を検索する
ようにコンピュータを機能させることも好ましい。
本発明によれば、第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示する装置であって、
散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ことを特徴とする。
本発明によれば、第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示する装置の表示方法であって、
散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ことを特徴とする。
本願発明のプログラム、装置及び方法によれば、未知の言語の感覚表現的な単語に対して意味が近いであろう、既知の言語の単語を、ユーザに認識させることができる散布図を作成する。
コレスポンディング分析の散布図である。 本発明におけるコレスポンディング分析の散布図である。 サムネイル画像が表示された散布図である。 本発明におけるサーバの機能構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明におけるコレスポンディング分析の散布図である。
図2によれば、図1と同様に、複数のオノマトペ(擬声語)がプロットされた、コレスポンディング分析の散布図が表されている。散布図の評価軸は、適用分野「食感」の力学的特性及び幾何学的特性に基づくものであって、「人の感覚に基づく特性の強弱」を表すものである。オノマトペは、日本人にとっては日常会話の中で頻繁に用いるものであるが、人の感覚に基づくものである。そのために、オノマトペは、対訳辞書にも記述されていないか、又は、記述されていても伝えづらいものである。
英語(第2の言語)圏の外国人にとって、例えば、日本語(第1の言語)のmochimochiの意味合いが理解できないとする。
このとき、図2によれば、適用分野「食感」について、日本語(第1の言語)のオノマトペ(擬声語)として、「もちもち(mochimochi)」「つるつる(tsurutsuru)」が表されている。そして、日本語に基づくmochimochi(第1の単語)とtsurutsuru(第2の単語)との間に、mochimochi及びtsurutsuruの両方で共起度が高い「麺(第1の共起単語)」が導出され、その対訳となる英語(第2の言語)に基づく「noodle(第2の共起単語)」が表示されている。
その外国人は、図2の散布図を一見しただけで、日本語のmochimochiは、日本語のtsurutsuruと食感として近く、且つ、「noodle」の食感をイメージすることができる。
また、図2によれば、日本語に基づくtorotoro(第1の単語)とfuwafuwa(第2の単語)との間に、torotoro及びfuwafuwaの両方で共起度が高い「プリン(第1の共起単語)」が導出され、その対訳となる英語(第2の言語)に基づく「pudding(第2の共起単語)」が表示されている。
更に、図2によれば、日本語に基づくsakusaku(第1の単語)とboroboro(第2の単語)との間に、sakusaku及びboroboroの両方で共起度が高い「クッキー(第1の共起単語)」が導出され、その対訳となる英語(第2の言語)に基づく「cookie(第2の共起単語)」が表示されている。
尚、図2によれば、散布図は、2つの評価軸で2次元上に単語が散布されているが、3つ以上の評価軸でn次元上に単語が散布されたものであってもよい。
図3は、サムネイル画像が表示された散布図である。
図2によれば、日本語に基づくmochimochiとtsurutsuruとの間に、テキストとしての「noodle」が表示されている。これに対し、図3によれば、他の実施形態として、「麺」のサムネイル画像が表示されている。この場合、外国人としては、「noodle」を理解できない非英語圏の外国人であっても、mochimochiの食感をイメージすることができる。
図4は、本発明におけるサーバの機能構成図である。
図4によれば、サーバ1と、ユーザの所持する端末2とが、ネットワークを介して接続されている。
サーバ1は、散布図記憶部100と、コーパス101と、対訳辞書102と、第1の共起単語抽出部11と、第2の共起単語抽出部12と、散布図作成部13と、検索キー入力部14と、散布図検索部15と、散布図表示部16とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、散布図作成方法としても理解できる。
コーパス(corpus)101は、自然言語の文章を構造化し大規模に集積したデータベースである。
また、対訳辞書102は、例えば日本語(第1の言語)の単語の対訳となる、英語(第2の言語)の単語が記述された辞書である。
[散布図記憶部100]
散布図記憶部100は、適用分野毎に、散布図を記憶したものである。即ち、散布図は、適用分野「食感」「触感」「態度」「感情」「健康」「医療」「スポーツ」のように、それぞれ異なる評価軸で作成されたものである。このような人の感覚に基づく単語の中で、日本人には理解しやすくても、外国人には理解しにくいものとして、例えばオノマトペがある。
散布図の評価軸は、例えば以下のような分析に基づくものである。
(1)コレスポンディング分析
相関関係が高い要素ほど、近くにプロットされる。
(2)任意の特徴ベクトル
例えばword2vec(登録商標)であり、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮したものである。これは、2層からなるニューラルネットワークであって、入力されたテキストから、単語の特徴ベクトル(feature vector)を出力することができる。
例えばオノマトペは、適用分野によっては全く別の意味合いを持つ場合がある。例えば、「しこしこ」の場合、以下のような意味合いを持つ。
適用分野「食感」:「この麺は”しこしこ”している」
「”しこしこ”した歯ごたえ」
適用分野「態度」:「”しこしこ”と勉強する」
他の実施形態として、散布図毎に、適用分野に基づく1つ以上の「適用態様語」が更に対応付けられていることも好ましい。「適用態様語」とは、オノマトペの適用分野を表わすキーワードのことである。
例えば適用分野「食感」の散布図については、適用態様語として「食事」「料理」「食べ物」のようなキーワードを付与しておく。このようなキーワードは、後述する散布図検索部15によって用いられる。
図4によれば、散布図記憶部100は、前述した図1のような既存の散布図を、第1の共起単語抽出部11へ出力し、散布図作成部13から本発明の散布図を入力して蓄積する。即ち、既存の散布図が、第1の共起単語抽出部11と、第2の共起単語抽出部12と、散布図作成部13とによって、本発明の散布図に更新される。
[第1の共起単語抽出部11]
第1の共起単語抽出部11は、散布図記憶部100から散布図を入力する。そして、第1の共起単語抽出部11は、第1の言語に基づくコーパスを用いて、第1の言語に基づく第1の単語及び第2の単語の両方で共起度が高い、第1の言語に基づく第1の共起単語を抽出する。
具体的には、前述した図2によれば、日本語(第1の言語)のコーパス101を用いて、オノマトペ(擬声語)「もちもち(mochimochi)」「つるつる(tsurutsuru)」の両方で共起度が高い「麺(第1の共起単語)」を抽出する。
共起度は、キーとなる「もちもち」と、他の単語(例えば「麺」「餅」「うどん」「ご飯」等)それぞれとの間における、例えば相互情報量基準によって算出する。例えば、コーパスの中から、「もちもち」と共起する単語毎に、計数された出現頻度を「共起度」とする。例えば、コーパスに以下のような文章があるとする。
「"もちもち"した麺」
「麺が"もちもち"している」
「"もちもち"した餅」
「"もちもち"したうどん」
「"もちもち"したご飯」
・・・・・
ここで、共起度は、相互情報量(Mutual Information)として算出される。相互情報量とは、2つの確率変数要素xi,yjにおける相互依存の尺度を表す確率的方法であって、以下のように算出したものである。
I(xi,yj)=log{p(xi,yj)/p(xi)p(yj)}
p():出現回数
例えば10000語句の中で、以下のような出現回数があったとする。
”もちもち”及び”麺”の組み合わせの出現回数p=20回
”もちもち”の出現回数p=24回
”麺”の出現回数p=120回
この場合、”もちもち”と”麺”との相互情報量は、以下のように表される。
I(もちもち,麺)=log{p(もちもち,麺)/p(もちもち)p(麺)}
=log2{(20/10000)/((120/10000)・(24/10000))}
≒6.118
このように、全ての係り受け語に対する相互情報量を算出する。
I(もちもち,麺)
I(もちもち,餅)
I(もちもち,うどん)
I(もちもち,ご飯)
・・・・・
この中で、相互情報量が大きいほど、相対的に多く組み合わされて使用されていることを意味する。尚、適切な相互情報量を算出するために、コーパス101を用いて、一定以上の絶対出現頻度が観測されることが前提となる。一方で、それを満たさない少数事例は、対象外とすることによって、信頼性を確保する。
次に、散布図の中で、キーとなる「もちもち」の近くに配置される「つるつる」についても、前述と同様に、他の単語それぞれとの間における、例えば相互情報量基準によって算出する。例えば、コーパスに以下のような文章があるとする。
「"つるつる"した麺」
「"つるつる"したうどん」
「"つるつる"したラーメン」
「"つるつる"したそうめん」
・・・・・
この場合、全ての係り受け語に対する相互情報量は、以下のように算出される。
I(つるつる,麺)
I(つるつる,うどん)
I(つるつる,ラーメン)
I(つるつる,そうめん)
・・・・・
ここで、「もちもち」と「つるつる」との両方について、共起度が高い単語が「麺」であったとする。このとき、「麺」が、第1の共起単語として抽出される。「麺」(第1の共起単語)は、日本語(第1の言語)に基づく「もちもち」(第1の単語)及び「つるつる」(第2の単語)に対して、重要な連想概念の単語となる。
また、他の実施形態として、第1の共起単語抽出部11は、第1の単語及び第1の共起単語の間の共起度と、第2の単語及び第1の共起単語の間の共起度との比率を算出することも好ましい。
具体的には、第1の共起単語(例えば「麺」)について、第1の単語(例えば「もちもち」)との間の共起度と、第2の単語(例えば「つるつる」)との間の共起度との比率を算出する。例えば以下のようになるとする。
「もちもち」0.3:0.7「つるつる」
勿論、第1の単語(例えば「もちもち」)との間の共起度と、第2の単語(例えば「つるつる」)との間の共起度とが全く同じである場合、以下のようになる。
「もちもち」0.5:「つるつる」0.5
[第2の共起単語抽出部12]
第2の共起単語抽出部12は、対訳辞書102を用いて、第1の言語に基づく第1の共起単語を、第2の言語に基づく第2の共起単語に対訳する。
具体的には、日本語(第1の言語)に基づく「麺」(第1の共起単語)を、英語(第2の言語)に基づく「noodle」(第2の共起単語)に対訳する。これによって、英語圏の外国人は、適用分野「食感」における「もちもち」とは、「noodle」と近い食感であると理解することができる。
[散布図作成部13]
散布図作成部13は、第1の言語に基づく第1の単語と第2の単語との間に、第2の言語に基づく第2の共起単語を表示する散布図を作成する。
具体的には、日本語の「もちもち」(第1の単語)と「つるつる」(第2の単語)との間に、英語の「noodle」(第2の共起単語)が表示されるように、散布図を更新する。これによって、ユーザに対して、例えばオノマトペに対して出現頻度の多い単語(名詞や動詞)を表示することによって、母国語によらないユニバーサルなインタフェースを提供することができる。
また、第1の共起単語抽出部11によって複数の第1の共起単語を抽出し、第2の共起単語抽出部12によって対訳された複数の第2の共起単語を、第1の単語と第2の単語との間に表示してもよい。
このように更新された散布図は、散布図記憶部100へ出力される。
他の実施形態として、散布図作成部13は、第1の単語と第2の単語との間で共起度の比率に応じた位置に、第2の共起単語を表示することも好ましい。
図2によれば、例えば「麺」に対する「もちもち」と「つるつる」との共起度の比率が、0.3:0.7である場合、「つるつる」のプロット位置から、「もちもち」のプロット位置との間で、0.3:0.7の位置に、「麺」をプロットする。これは、「麺」は、「もちもち」よりも「つるつる」との共起度が高いことを、ユーザは一見して認識することができる。
尚、他の実施形態として、散布図にプロットされるオノマトペについて、音韻的な類似性のあるオノマトペを更にプロットすることもできる。日本語に基づくオノマトペは、造語傾向が強いために、新規の造語表現が生み出されてから定着(辞書等の知識源に反映)するまで、経過期間が存在する。そのような場合は、対応する訳語が見当たらないことも想定される。例えば、ふわふわ/とろとろ(オノマトペ)に対して、「ふわとろ」のような造語が流行する場合もある。その場合、出現文脈としては、「ふわふわ」「とろとろ」の両者に近いものと予想される。そこで、コーパス中の共起語の類似性から、散布図では、「ふわふわ」「とろとろ」の近傍に、「ふわとろ」がプロットされる。この場合、ユーザは、直接の訳語が表示されなくとも、近い関係にある語群の訳語を理解することができる。
[検索キー入力部14]
検索キー入力部14は、ユーザ所持の端末2から、第1の言語に基づく第1の単語を、「検索キー」として入力する。前述によれば、例えば外国人が日本語(第1の言語)の「もちもち」(第1の単語)の意味合いを知りたい場合に、検索キーとして「もちもち」が入力される。
入力された検索キーは、散布図検索部15へ出力される。
また、他の実施形態として、検索キー入力部14は、ユーザに、第1の単語に対する「適用態様語」を更に入力させることも好ましい。例えば「もちもち」に対する「食事」(適用態様語)のようなものである。適用態様語は、散布図検索部15が、適用分野に基づく散布図を検索するために用いられる。
更に、他の実施形態として、検索キー入力部14は、例えば検索用文章を入力し、その検索用文章の中から、オノマトペを検索キーとし、文脈として現れる単語を適用態様語として抽出するものであってもよい。
[散布図検索部15]
散布図検索部15は、散布図記憶部100を用いて、検索キーを含む散布図を検索する。具体的には、検索キー入力部14によって入力された「もちもち」(検索キー)を含む散布図を検索する。
このとき、異なる適用分野に基づく複数の散布図が検索される場合もある。そのために、散布図検索部15は、検索キー入力部14に入力された「適用態様語」に対応付けられた1つ以上の散布図の中から、検索キーを含む散布図を検索することも好ましい。
適用分野「食感」の散布図には、適用態様語として「食事」「料理」「食べ物」のようなキーワードが付与されている(前述した散布図記憶部100参照)。ユーザから、検索キー「もちもち」及び適用態様語「食事」が入力された場合、適用態様語「食事」が付与された1つ以上の散布図の中から、「もちもち」を含む散布図が検索される。
[散布図表示部16]
散布図表示部16は、散布図検索部15によって検索された散布図を、端末2へ返信する。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、未知の言語の感覚表現的な単語に対して意味が近いであろう、既知の言語の単語を、ユーザに認識させることができる散布図を作成する。
具体的には、未知の言語(第1の言語、例えば旅行先の国の言語)における感覚表現的な単語に対して意味が近いであろう、既知の言語(第2の言語、例えば母国語)の単語を明示することによって、外国人にも、その単語の使用場面及びニュアンスを理解させることができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 サーバ
100 散布図記憶部
101 コーパス部
102 対訳辞書部
11 第1の共起単語抽出部
12 第2の共起単語抽出部
13 散布図作成部
14 検索キー入力部
15 散布図検索部
16 散布図表示部

Claims (12)

  1. 第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示するようにコンピュータを機能させるプログラムであって、
    前記散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
    ようにコンピュータを機能させることを特徴とするプログラム。
  2. 第1の言語に基づく第1の単語及び第2の単語は、オノマトペ(擬声語)である
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 前記散布図の評価軸は、コレスポンデンス分析に基づくもの、又は、任意の特徴ベクトルに基づくものである
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
  4. 前記散布図の評価軸は、人の感覚に基づく特性の強弱を表すものである
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 前記散布図に表示される第2の共起単語は、テキストに代えて、サムネイル画像として表示される
    ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
  6. 第1の言語に基づくコーパスを用いて、第1の言語に基づく第1の単語及び第2の単語の両方で共起度が高い、第1の言語に基づく第1の共起単語を抽出する第1の共起単語抽出手段と、
    対訳辞書を用いて、第1の言語に基づく第1の共起単語を、第2の言語に基づく第2の共起単語に対訳する第2の共起単語抽出手段と、
    第1の言語に基づく第1の単語と第2の単語との間に、第2の言語に基づく第2の共起単語を表示する散布図を作成する散布図作成手段と
    してコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
  7. 第1の共起単語抽出手段は、第1の単語及び第1の共起単語の間の共起度と、第2の単語及び第1の共起単語の間の共起度との比率を算出し、
    前記散布図作成手段は、第1の単語と第2の単語との間で前記比率に応じた位置に、第2の共起単語を表示する
    ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。
  8. 適用分野毎に、散布図を記憶した散布図記憶手段を更に有し、
    ユーザ所望の適用分野に基づく散布図に対して、第2の共起単語を表示する
    ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のプログラム。
  9. ユーザに、第1の言語に基づく第1の単語を検索キーとして入力させる検索キー入力手段と、
    前記散布図記憶手段から、前記検索キーを含む散布図を検索する散布図検索手段と、
    検索した散布図を、ユーザに明示する散布図表示手段と
    してコンピュータを更に機能させることを特徴とする請求項8に記載のプログラム。
  10. 前記散布図毎に、前記適用分野に基づく1つ以上の適用態様語が更に対応付けられており、
    前記検索キー入力手段は、第1の単語に対する適用態様語を更に入力し、
    前記散布図検索手段は、前記検索キー入力手段に入力された前記適用態様語に対応付けられた1つ以上の散布図の中から、前記検索キーを含む散布図を検索する
    ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。
  11. 第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示する装置であって、
    前記散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
    ことを特徴とする装置。
  12. 第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示する装置の表示方法であって、
    前記散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
    ことを特徴とする装置の表示方法。

JP2017117314A 2017-06-15 2017-06-15 単語群が散布された散布図を作成するプログラム、装置及び方法 Active JP6745761B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017117314A JP6745761B2 (ja) 2017-06-15 2017-06-15 単語群が散布された散布図を作成するプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017117314A JP6745761B2 (ja) 2017-06-15 2017-06-15 単語群が散布された散布図を作成するプログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2019003387A JP2019003387A (ja) 2019-01-10
JP6745761B2 true JP6745761B2 (ja) 2020-08-26

Family

ID=65006096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017117314A Active JP6745761B2 (ja) 2017-06-15 2017-06-15 単語群が散布された散布図を作成するプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6745761B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7367754B2 (ja) * 2019-04-19 2023-10-24 富士通株式会社 特定方法および情報処理装置
JP7125794B2 (ja) * 2021-03-10 2022-08-25 哲 小林 情報処理システム、日本語の意味内容解釈方法及びプログラム

Also Published As

Publication number Publication date
JP2019003387A (ja) 2019-01-10

Similar Documents

Publication Publication Date Title
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
Saputri et al. Emotion classification on indonesian twitter dataset
Abdaoui et al. Feel: a french expanded emotion lexicon
Erk et al. A structured vector space model for word meaning in context
Li et al. Inferring affective meanings of words from word embedding
CN110114764B (zh) 在会话中提供饮食帮助
US20070174040A1 (en) Word alignment apparatus, example sentence bilingual dictionary, word alignment method, and program product for word alignment
JP6076425B1 (ja) 対話インターフェース
JP7142435B2 (ja) 要約装置、要約方法、及び要約プログラム
Bentz Adaptive languages: An information-theoretic account of linguistic diversity
Klavan Pitting corpus-based classification models against each other: A case study for predicting constructional choice in written Estonian
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
JP2017091570A (ja) 対話インターフェース
JP6745761B2 (ja) 単語群が散布された散布図を作成するプログラム、装置及び方法
Qudar et al. A survey on language models
Chauhan et al. Multidimensional sentiment analysis on twitter with semiotics
Kato et al. Extraction of onomatopoeia used for foods from food reviews and its application to restaurant search
Ptiček et al. Methods of annotating and identifying metaphors in the field of natural language processing
Singh et al. Natural language processing, understanding, and generation
Al Katat et al. Natural Language Processing for Arabic Sentiment Analysis: A Systematic Literature Review
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
JP5697164B2 (ja) 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ
Beysolow II et al. Topic modeling and word embeddings
CN114064846A (zh) 一种主题相似度确定方法、装置、电子设备和存储介质
JP2017037602A (ja) 対話インターフェース

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200804

R150 Certificate of patent or registration of utility model

Ref document number: 6745761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150