JP6745761B2 - 単語群が散布された散布図を作成するプログラム、装置及び方法 - Google Patents
単語群が散布された散布図を作成するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP6745761B2 JP6745761B2 JP2017117314A JP2017117314A JP6745761B2 JP 6745761 B2 JP6745761 B2 JP 6745761B2 JP 2017117314 A JP2017117314 A JP 2017117314A JP 2017117314 A JP2017117314 A JP 2017117314A JP 6745761 B2 JP6745761 B2 JP 6745761B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- occurrence
- language
- scatter diagram
- scatter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方で、観光目的で日本を訪問した外国人にとっても、日本語のオノマトペを正しく理解することができれば、単なる言語的意味を越えたコミュニケーションの理解にも役立つ。
その他、留学生を対象として、オノマトペの学習を支援するための電子絵本システムの技術もある(例えば非特許文献4参照)。この技術によれば、対話型のユーザ・インタフェースによって、比較的意味の近いオノマトペの利用状況の違いを視覚的に表すことができる。
図1の散布図によれば、適用分野「食感」に基づく複数のオノマトペが、評価軸上の相対的位置にプロットされている。
第1の評価軸:力学的特性 (破砕のし易さ<->破砕のしづらさ)
第2の評価軸:幾何学的特性(空気的な軽さ<->空気的な重さ)
即ち、ユーザは、第1のオノマトペと第2のオノマトペとが座標的に近いほど、食感的にも近いことを、一見して理解するこができる。
散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ようにコンピュータを機能させることを特徴とする。
第1の言語に基づく第1の単語及び第2の単語は、オノマトペ(擬声語)である
ようにコンピュータを機能させることも好ましい。
散布図の評価軸は、コレスポンデンス分析に基づくもの、又は、任意の特徴ベクトルに基づくものである
ようにコンピュータを機能させることも好ましい。
散布図の評価軸は、人の感覚に基づく特性の強弱を表すものである
ようにコンピュータを機能させることも好ましい。
散布図に表示される第2の共起単語は、テキストに代えて、サムネイル画像として表示される
ようにコンピュータを機能させることも好ましい。
第1の言語に基づくコーパスを用いて、第1の言語に基づく第1の単語及び第2の単語の両方で共起度が高い、第1の言語に基づく第1の共起単語を抽出する第1の共起単語抽出手段と、
対訳辞書を用いて、第1の言語に基づく第1の共起単語を、第2の言語に基づく第2の共起単語に対訳する第2の共起単語抽出手段と、
第1の言語に基づく第1の単語と第2の単語との間に、第2の言語に基づく第2の共起単語を表示する散布図を作成する散布図作成手段と
してコンピュータを機能させることも好ましい。
第1の共起単語抽出手段は、第1の単語及び第1の共起単語の間の共起度と、第2の単語及び第1の共起単語の間の共起度との比率を算出し、
散布図表示手段は、第1の単語と第2の単語との間で比率に応じた位置に、第2の共起単語を表示する
ようにコンピュータを機能させることも好ましい。
適用分野毎に、散布図を記憶した散布図記憶手段を更に有し、
ユーザ所望の適用分野に基づく散布図に対して、第2の共起単語を表示する
ようにコンピュータを機能させることも好ましい。
ユーザに、第1の言語に基づく第1の単語を検索キーとして入力させる検索キー入力手段と、
散布図記憶手段から、検索キーを含む散布図を検索する散布図検索手段と、
検索した散布図を、ユーザに明示する散布図表示手段と
してコンピュータを更に機能させることも好ましい。
散布図毎に、適用分野に基づく1つ以上の適用態様語が更に対応付けられており、
検索キー入力手段は、第1の単語に対する適用態様語を更に入力し、
散布図検索手段は、検索キー入力手段に入力された適用態様語に対応付けられた1つ以上の散布図の中から、検索キーを含む散布図を検索する
ようにコンピュータを機能させることも好ましい。
散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ことを特徴とする。
散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ことを特徴とする。
このとき、図2によれば、適用分野「食感」について、日本語(第1の言語)のオノマトペ(擬声語)として、「もちもち(mochimochi)」「つるつる(tsurutsuru)」が表されている。そして、日本語に基づくmochimochi(第1の単語)とtsurutsuru(第2の単語)との間に、mochimochi及びtsurutsuruの両方で共起度が高い「麺(第1の共起単語)」が導出され、その対訳となる英語(第2の言語)に基づく「noodle(第2の共起単語)」が表示されている。
その外国人は、図2の散布図を一見しただけで、日本語のmochimochiは、日本語のtsurutsuruと食感として近く、且つ、「noodle」の食感をイメージすることができる。
更に、図2によれば、日本語に基づくsakusaku(第1の単語)とboroboro(第2の単語)との間に、sakusaku及びboroboroの両方で共起度が高い「クッキー(第1の共起単語)」が導出され、その対訳となる英語(第2の言語)に基づく「cookie(第2の共起単語)」が表示されている。
サーバ1は、散布図記憶部100と、コーパス101と、対訳辞書102と、第1の共起単語抽出部11と、第2の共起単語抽出部12と、散布図作成部13と、検索キー入力部14と、散布図検索部15と、散布図表示部16とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、散布図作成方法としても理解できる。
また、対訳辞書102は、例えば日本語(第1の言語)の単語の対訳となる、英語(第2の言語)の単語が記述された辞書である。
散布図記憶部100は、適用分野毎に、散布図を記憶したものである。即ち、散布図は、適用分野「食感」「触感」「態度」「感情」「健康」「医療」「スポーツ」のように、それぞれ異なる評価軸で作成されたものである。このような人の感覚に基づく単語の中で、日本人には理解しやすくても、外国人には理解しにくいものとして、例えばオノマトペがある。
(1)コレスポンディング分析
相関関係が高い要素ほど、近くにプロットされる。
(2)任意の特徴ベクトル
例えばword2vec(登録商標)であり、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮したものである。これは、2層からなるニューラルネットワークであって、入力されたテキストから、単語の特徴ベクトル(feature vector)を出力することができる。
適用分野「食感」:「この麺は”しこしこ”している」
「”しこしこ”した歯ごたえ」
適用分野「態度」:「”しこしこ”と勉強する」
例えば適用分野「食感」の散布図については、適用態様語として「食事」「料理」「食べ物」のようなキーワードを付与しておく。このようなキーワードは、後述する散布図検索部15によって用いられる。
第1の共起単語抽出部11は、散布図記憶部100から散布図を入力する。そして、第1の共起単語抽出部11は、第1の言語に基づくコーパスを用いて、第1の言語に基づく第1の単語及び第2の単語の両方で共起度が高い、第1の言語に基づく第1の共起単語を抽出する。
具体的には、前述した図2によれば、日本語(第1の言語)のコーパス101を用いて、オノマトペ(擬声語)「もちもち(mochimochi)」「つるつる(tsurutsuru)」の両方で共起度が高い「麺(第1の共起単語)」を抽出する。
「"もちもち"した麺」
「麺が"もちもち"している」
「"もちもち"した餅」
「"もちもち"したうどん」
「"もちもち"したご飯」
・・・・・
I(xi,yj)=log{p(xi,yj)/p(xi)p(yj)}
p():出現回数
例えば10000語句の中で、以下のような出現回数があったとする。
”もちもち”及び”麺”の組み合わせの出現回数p=20回
”もちもち”の出現回数p=24回
”麺”の出現回数p=120回
この場合、”もちもち”と”麺”との相互情報量は、以下のように表される。
I(もちもち,麺)=log{p(もちもち,麺)/p(もちもち)p(麺)}
=log2{(20/10000)/((120/10000)・(24/10000))}
≒6.118
I(もちもち,麺)
I(もちもち,餅)
I(もちもち,うどん)
I(もちもち,ご飯)
・・・・・
この中で、相互情報量が大きいほど、相対的に多く組み合わされて使用されていることを意味する。尚、適切な相互情報量を算出するために、コーパス101を用いて、一定以上の絶対出現頻度が観測されることが前提となる。一方で、それを満たさない少数事例は、対象外とすることによって、信頼性を確保する。
「"つるつる"した麺」
「"つるつる"したうどん」
「"つるつる"したラーメン」
「"つるつる"したそうめん」
・・・・・
この場合、全ての係り受け語に対する相互情報量は、以下のように算出される。
I(つるつる,麺)
I(つるつる,うどん)
I(つるつる,ラーメン)
I(つるつる,そうめん)
・・・・・
具体的には、第1の共起単語(例えば「麺」)について、第1の単語(例えば「もちもち」)との間の共起度と、第2の単語(例えば「つるつる」)との間の共起度との比率を算出する。例えば以下のようになるとする。
「もちもち」0.3:0.7「つるつる」
勿論、第1の単語(例えば「もちもち」)との間の共起度と、第2の単語(例えば「つるつる」)との間の共起度とが全く同じである場合、以下のようになる。
「もちもち」0.5:「つるつる」0.5
第2の共起単語抽出部12は、対訳辞書102を用いて、第1の言語に基づく第1の共起単語を、第2の言語に基づく第2の共起単語に対訳する。
具体的には、日本語(第1の言語)に基づく「麺」(第1の共起単語)を、英語(第2の言語)に基づく「noodle」(第2の共起単語)に対訳する。これによって、英語圏の外国人は、適用分野「食感」における「もちもち」とは、「noodle」と近い食感であると理解することができる。
散布図作成部13は、第1の言語に基づく第1の単語と第2の単語との間に、第2の言語に基づく第2の共起単語を表示する散布図を作成する。
具体的には、日本語の「もちもち」(第1の単語)と「つるつる」(第2の単語)との間に、英語の「noodle」(第2の共起単語)が表示されるように、散布図を更新する。これによって、ユーザに対して、例えばオノマトペに対して出現頻度の多い単語(名詞や動詞)を表示することによって、母国語によらないユニバーサルなインタフェースを提供することができる。
また、第1の共起単語抽出部11によって複数の第1の共起単語を抽出し、第2の共起単語抽出部12によって対訳された複数の第2の共起単語を、第1の単語と第2の単語との間に表示してもよい。
このように更新された散布図は、散布図記憶部100へ出力される。
図2によれば、例えば「麺」に対する「もちもち」と「つるつる」との共起度の比率が、0.3:0.7である場合、「つるつる」のプロット位置から、「もちもち」のプロット位置との間で、0.3:0.7の位置に、「麺」をプロットする。これは、「麺」は、「もちもち」よりも「つるつる」との共起度が高いことを、ユーザは一見して認識することができる。
検索キー入力部14は、ユーザ所持の端末2から、第1の言語に基づく第1の単語を、「検索キー」として入力する。前述によれば、例えば外国人が日本語(第1の言語)の「もちもち」(第1の単語)の意味合いを知りたい場合に、検索キーとして「もちもち」が入力される。
入力された検索キーは、散布図検索部15へ出力される。
散布図検索部15は、散布図記憶部100を用いて、検索キーを含む散布図を検索する。具体的には、検索キー入力部14によって入力された「もちもち」(検索キー)を含む散布図を検索する。
適用分野「食感」の散布図には、適用態様語として「食事」「料理」「食べ物」のようなキーワードが付与されている(前述した散布図記憶部100参照)。ユーザから、検索キー「もちもち」及び適用態様語「食事」が入力された場合、適用態様語「食事」が付与された1つ以上の散布図の中から、「もちもち」を含む散布図が検索される。
散布図表示部16は、散布図検索部15によって検索された散布図を、端末2へ返信する。
具体的には、未知の言語(第1の言語、例えば旅行先の国の言語)における感覚表現的な単語に対して意味が近いであろう、既知の言語(第2の言語、例えば母国語)の単語を明示することによって、外国人にも、その単語の使用場面及びニュアンスを理解させることができる。
100 散布図記憶部
101 コーパス部
102 対訳辞書部
11 第1の共起単語抽出部
12 第2の共起単語抽出部
13 散布図作成部
14 検索キー入力部
15 散布図検索部
16 散布図表示部
Claims (12)
- 第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示するようにコンピュータを機能させるプログラムであって、
前記散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ようにコンピュータを機能させることを特徴とするプログラム。 - 第1の言語に基づく第1の単語及び第2の単語は、オノマトペ(擬声語)である
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 前記散布図の評価軸は、コレスポンデンス分析に基づくもの、又は、任意の特徴ベクトルに基づくものである
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 前記散布図の評価軸は、人の感覚に基づく特性の強弱を表すものである
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - 前記散布図に表示される第2の共起単語は、テキストに代えて、サムネイル画像として表示される
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 - 第1の言語に基づくコーパスを用いて、第1の言語に基づく第1の単語及び第2の単語の両方で共起度が高い、第1の言語に基づく第1の共起単語を抽出する第1の共起単語抽出手段と、
対訳辞書を用いて、第1の言語に基づく第1の共起単語を、第2の言語に基づく第2の共起単語に対訳する第2の共起単語抽出手段と、
第1の言語に基づく第1の単語と第2の単語との間に、第2の言語に基づく第2の共起単語を表示する散布図を作成する散布図作成手段と
してコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。 - 第1の共起単語抽出手段は、第1の単語及び第1の共起単語の間の共起度と、第2の単語及び第1の共起単語の間の共起度との比率を算出し、
前記散布図作成手段は、第1の単語と第2の単語との間で前記比率に応じた位置に、第2の共起単語を表示する
ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。 - 適用分野毎に、散布図を記憶した散布図記憶手段を更に有し、
ユーザ所望の適用分野に基づく散布図に対して、第2の共起単語を表示する
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のプログラム。 - ユーザに、第1の言語に基づく第1の単語を検索キーとして入力させる検索キー入力手段と、
前記散布図記憶手段から、前記検索キーを含む散布図を検索する散布図検索手段と、
検索した散布図を、ユーザに明示する散布図表示手段と
してコンピュータを更に機能させることを特徴とする請求項8に記載のプログラム。 - 前記散布図毎に、前記適用分野に基づく1つ以上の適用態様語が更に対応付けられており、
前記検索キー入力手段は、第1の単語に対する適用態様語を更に入力し、
前記散布図検索手段は、前記検索キー入力手段に入力された前記適用態様語に対応付けられた1つ以上の散布図の中から、前記検索キーを含む散布図を検索する
ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。 - 第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示する装置であって、
前記散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ことを特徴とする装置。 - 第1の言語に基づく複数の単語が複数の評価軸上に散布された散布図を、ディスプレイに表示する装置の表示方法であって、
前記散布図について、第1の言語に基づく第1の単語と第2の単語との間に、第1の単語及び第2の単語の両方で共起度が高い第1の共起単語を導出し、その対訳となる第2の言語に基づく第2の共起単語を表示する
ことを特徴とする装置の表示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117314A JP6745761B2 (ja) | 2017-06-15 | 2017-06-15 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117314A JP6745761B2 (ja) | 2017-06-15 | 2017-06-15 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019003387A JP2019003387A (ja) | 2019-01-10 |
JP6745761B2 true JP6745761B2 (ja) | 2020-08-26 |
Family
ID=65006096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017117314A Active JP6745761B2 (ja) | 2017-06-15 | 2017-06-15 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6745761B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7367754B2 (ja) * | 2019-04-19 | 2023-10-24 | 富士通株式会社 | 特定方法および情報処理装置 |
JP7125794B2 (ja) * | 2021-03-10 | 2022-08-25 | 哲 小林 | 情報処理システム、日本語の意味内容解釈方法及びプログラム |
-
2017
- 2017-06-15 JP JP2017117314A patent/JP6745761B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019003387A (ja) | 2019-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Imbalanced text sentiment classification using universal and domain-specific knowledge | |
Saputri et al. | Emotion classification on indonesian twitter dataset | |
Abdaoui et al. | Feel: a french expanded emotion lexicon | |
Erk et al. | A structured vector space model for word meaning in context | |
Li et al. | Inferring affective meanings of words from word embedding | |
CN110114764B (zh) | 在会话中提供饮食帮助 | |
US20070174040A1 (en) | Word alignment apparatus, example sentence bilingual dictionary, word alignment method, and program product for word alignment | |
JP6076425B1 (ja) | 対話インターフェース | |
JP7142435B2 (ja) | 要約装置、要約方法、及び要約プログラム | |
Bentz | Adaptive languages: An information-theoretic account of linguistic diversity | |
Klavan | Pitting corpus-based classification models against each other: A case study for predicting constructional choice in written Estonian | |
CN114722174A (zh) | 提词方法和装置、电子设备及存储介质 | |
JP2017091570A (ja) | 対話インターフェース | |
JP6745761B2 (ja) | 単語群が散布された散布図を作成するプログラム、装置及び方法 | |
Qudar et al. | A survey on language models | |
Chauhan et al. | Multidimensional sentiment analysis on twitter with semiotics | |
Kato et al. | Extraction of onomatopoeia used for foods from food reviews and its application to restaurant search | |
Ptiček et al. | Methods of annotating and identifying metaphors in the field of natural language processing | |
Singh et al. | Natural language processing, understanding, and generation | |
Al Katat et al. | Natural Language Processing for Arabic Sentiment Analysis: A Systematic Literature Review | |
Ali et al. | Word embedding based new corpus for low-resourced language: Sindhi | |
JP5697164B2 (ja) | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ | |
Beysolow II et al. | Topic modeling and word embeddings | |
CN114064846A (zh) | 一种主题相似度确定方法、装置、电子设备和存储介质 | |
JP2017037602A (ja) | 対話インターフェース |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200727 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6745761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |