JP2020123227A - 単語出力方法、単語出力プログラム及び情報処理装置 - Google Patents

単語出力方法、単語出力プログラム及び情報処理装置 Download PDF

Info

Publication number
JP2020123227A
JP2020123227A JP2019015778A JP2019015778A JP2020123227A JP 2020123227 A JP2020123227 A JP 2020123227A JP 2019015778 A JP2019015778 A JP 2019015778A JP 2019015778 A JP2019015778 A JP 2019015778A JP 2020123227 A JP2020123227 A JP 2020123227A
Authority
JP
Japan
Prior art keywords
word
relationship
words
semantic
semantic relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019015778A
Other languages
English (en)
Inventor
信子 高瀬
Nobuko Takase
信子 高瀬
尚洋 伊藤
Naohiro Ito
尚洋 伊藤
幸太 山越
Kota Yamakoshi
幸太 山越
享 永田
Toru Nagata
享 永田
勝明 川口
Katsuaki Kawaguchi
勝明 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019015778A priority Critical patent/JP2020123227A/ja
Publication of JP2020123227A publication Critical patent/JP2020123227A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】複数の単語から構成される用語の抽出精度を向上すること。【解決手段】形態素解析部12が文章群2を入力し、基本辞書11を参照して形態素解析を行い、各文章から単語を抽出して単語記憶部13に格納する。そして、意味関係解析部16が、文法情報記憶部14と意味構造変換辞書15を参照して、形態素解析結果から意味構造を作成し、意味構造記憶部17に格納する。意味関係解析部16は、隣り合う2つの単語の意味の組み合わせと当該単語間の文法関係とに基づいて当該単語間のアークを生成する。そして、専門用語抽出部18が、特定の種別のアークでつながり、「RENGO」アークを持つ単語を含む単語列から専門用語を生成し、単語記憶部13を更新する。【選択図】図4

Description

本発明は、単語出力方法、単語出力プログラム及び情報処理装置に関する。
文章をクラスタリングする技術は、例えば、ユーザからの問合せに回答するサービスデスク担当者を支援するシステムで利用されている。ここで、クラスタリングとは、データの集まりについて、似ているものをまとめることである。
図12は、文章のクラスタリングを説明するための図である。図12に示すように、「サーバが壊れた」、「ネットワークに接続できない」、「ネットワークにつながらない」及び「サーバが止まった」の4つの文章の集合は、サーバのクラスタとネットワークのクラスタに分割される。サーバのクラスタには、「サーバが壊れた」及び「サーバが止まった」が含まれ、ネットワークのクラスタには、「ネットワークに接続できない」及び「ネットワークにつながらない」が含まれる。
サービスデスク担当者を支援するシステムは、ユーザの問合せを解析して問合せのクラスタを特定し、特定したクラスタに対応する回答例をサービスデスク担当者に提供することで、サービスデスク担当者を支援することができる。
図13Aは、文章のクラスタリングのしくみを説明するための図である。図13Aに示すように、文章のクラスタリングでは、基本辞書を用いて文章が形態素解析される。そして、単語の出現頻度情報(例えばTF(Term Frequency)−IDF(Inverse Document Frequency))を利用して文章がベクトル化され、ベクトル間のコサイン類似度が計算される。そして、コサイン類似度が閾値を超える文章がまとめられる。
図13Bは、文章のベクトル化とコサイン類似度に基づくクラスタリングの例を示す図である。図13Bに示すように、文章#1「サーバが壊れた」、文章#2「ネットワークに接続できない」、文章#3「サーバが止まった」及び文章#4「ネットワークにつながらない」は、単語の頻度でベクトル化される。
そして、文章#1「サーバが壊れた」と文章#3「サーバが止まった」のコサイン類似度として「0.7」が計算され、文章#2「ネットワークに接続できない」と文章#4「ネットワークにつながらない」のコサイン類似度として「0.4」が計算される。また、文章#1「サーバが壊れた」と文章#4「ネットワークにつながらない」のコサイン類似度として「0.0」が計算される。
そして、文章#1「サーバが壊れた」と文章#3「サーバが止まった」が1つのクラスタとしてまとめられ、文章#2「ネットワークに接続できない」と文章#4「ネットワークにつながらない」が1つのクラスタとしてまとめられる。このような文章のクラスタリングでは、利用する辞書によってクラスタリング結果が変わってくる。
なお、従来技術として、特許請求の範囲から文法上の構造単位の大小関係と、それぞれの持つ名詞の概念階層の双方を考慮に入れ、特許の広さを評価する技術がある。この技術では、格成分抽出プログラムが、電子データ化された特許明細書における特許請求の範囲の記載から文字列を抽出し、抽出した文字列について形態素解析及び構文解析を行うことにより、これらを単語に分解した上で、所定の文字列を一単語とする。
そして、格成分抽出プログラムは、所定の文字列が一単語とされた文字列から名詞句を抽出し、抽出した名詞句から格成分を抽出する。そして、格成分抽出プログラムは、名詞の概念が上位概念から下位概念まで階層化されて記憶されている概念辞書を参照して、抽出した各格成分に含まれる名詞の概念階層をそれぞれ特定する。そして、格成分抽出プログラムは、抽出した格成分の数と、特定した各格成分における名詞の概念階層とに基づいて評価値を算出する。
また、従来技術として、解析速度の向上のために複合語を1つに纏め上げたときに、検索システムの再現率や適合率の低下を防止する自然言語処理システムがある。この自然言語システムは、連続する形態素をまとめて1つの複合語を形成する際に、元の形態素間に区切り文字を与え、形態素解析結果から元の形態素を容易に取り出すことができる構造とすることで、検索システムにおける再現率を維持する。
また、従来技術として、解析結果を簡易に表示することが可能な言語処理装置がある。この言語処理装置は、句判定部、拡張部、表示処理部、表示部を有する。句判定部は、入力された文に含まれる複数の単語を抽出して文の意味を解析した解析結果に基づき、複数の単語のそれぞれについて、単語を含み一つの意味を成す句があるか否かを判定し、句を出力する。拡張部は、複数の単語のうちの互いに関係する2つの単語同士の関係を示す関係情報及び句判定部の判別結果に基づき、単語又は句を前後の単語又は句とつなげて別の句として表示させるか否かの判別を行う。表示処理部は、文を表示させる際に、別の句として表示させると判別された単語又は句を一つの句として表示させる。表示部は、解析結果及び表示処理部での処理の結果に基づき、文を表示する。
また、従来技術として、解析が難しかった複合語、重文、複文を効率的に解析できる構文解析方法がある。この構文解析方法は、入力文を分析して構文要素を判別し、構文要素を分岐点として入力文を分割し、分割結果に対して形態素分析を行い品詞情報を持った単語列を生成する。そして、この構文解析方法は、分割結果に対して、予め用意した複合語化規則を適応し、品詞情報を持った単語列を結合し複合語データを生成する。そして、この構文解析方法は、予め用意した構文規則と構文要素とを参照して、複合語及び複合化規則適用後も単一で残った単語の格情報を獲得し、格情報を持った単語及び格情報を持った複合語からなるリスト(構文表現)を生成する。
また、従来技術として、2語以上にわたる広範囲な係り受け関係の全体概観から、詳細な絞り込み表示までの自由で対話的な分析を可能にするテキストマイニング装置がある。このテキストマイニング装置は、2語以上の単語間の係り受け関係を抽出し、単語間の係り受け関係を構成する単語をカテゴリ別に分類し、分類されたカテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する。そして、このテキストマイニング装置は、単語間の係り受け関係ネットワーク構造を表示し、表示条件の設定の入力を受け付け、表示された単語間の係り受け関係ネットワーク構造に対し、表示条件の設定を指示する。
特開2015−72573号公報 特開2005−92617号公報 特開2014−110026号公報 特開2001−125898号公報 特開2007−293685号公報
図13Aに示したクラスタリングには、専門用語を構成する複数の単語が別々に抽出され、類似していない文章が同じクラスタに分類されるという問題がある。図14は、図13Aに示したクラスタリングの問題を説明するための図である。図14において、「時間によってプライベート接続オプションに接続されます。」と「プライベートな時間を、オプションに接続して楽しめます。」は、違うクラスタに分類されるべきである。
これら2つの文章を違うクラスタに分類するためには、形態素解析において、「プライベート接続オプション」を1つの単語として抽出する必要がある。しかしながら、基本辞書を用いた形態素解析では、2つの文章から「プライベート」、「接続」及び「オプション」が単語として抽出されるため、2つの文章は似ていると判定される。
なお、手作業で基本辞書に専門用語を加えることで図14に示した問題を解決することができるが、専門用語の数が多い場合には作業に多くの時間がかかる。また、形態素解析の結果に対して、名詞句が連続した複合名詞又は単名詞を抽出する等の規則を適用することにより、専門用語を抽出することが考えられるが、この方法では、専門用語以外の用語も抽出されてしまう。
図15は、専門用語以外の用語の抽出例を示す図である。図15に示すように、形態素解析の結果に対して、名詞句が連続した複合名詞又は単名詞を抽出する等の規則を適用すると、「提供範囲」が単語として抽出される。その結果、「プライベート接続オプションの提供範囲です。」と「プライベート接続オプションが提供する範囲です。」は、同じクラスタに分類されるべきであるが、異なるクラスタに分類される。
本発明は、1つの側面では、複数の単語から構成される用語の抽出精度を向上することを目的とする。
1つの態様では、単語出力方法は、文字列データを受け付け、受け付けた前記文字列データより隣り合う第1の単語及び第2の単語を抽出する処理をコンピュータが実行する。そして、前記単語出力方法は、前記第1の単語及び前記第2の単語間で特定される意味関係が特定の意味関係である場合、前記第1の単語及び前記第2の単語を含む新たな単語を生成し、生成した前記単語を出力する処理を前記コンピュータが実行する。ここで、前記単語出力方法は、抽出した前記第1の単語及び前記第2の単語の意味の組み合わせと、前記第1の単語及び前記第2の単語間の文法関係と、により前記意味関係を特定する。
1つの側面では、本発明は、複数の単語から構成される用語の抽出精度を向上することができる。
図1は、実施例に係るクラスタリング装置による専門用語抽出を説明するための図である。 図2は、ノードの品詞が名詞以外の場合で抽出される専門用語の例を示す図である。 図3は、専門用語として抽出されない他の例を示す図である。 図4は、実施例に係るクラスタリング装置の機能構成を示す図である。 図5は、「プライベート接続オプションの提供範囲です。」という文章の意味構造を示す図である。 図6は、専門用語の抽出に用いられる特定の種別を示す図である。 図7は、抽出される専門用語の例を示す図である。 図8は、抽出される専門用語の例を示す図である。 図9は、クラスタリング装置による処理のフローを示すフローチャートである。 図10は、抽出部による処理のフローを示すフローチャートである。 図11は、実施例に係るクラスタリングプログラムを実行するコンピュータのハードウェア構成を示す図である。 図12は、文章のクラスタリングを説明するための図である。 図13Aは、文章のクラスタリングのしくみを説明するための図である。 図13Bは、文章のベクトル化とコサイン類似度に基づくクラスタリングの例を示す図である。 図14は、図13Aに示したクラスタリングの問題を説明するための図である。 図15は、専門用語以外の用語の抽出例を示す図である。
以下に、本願の開示する単語出力方法、単語出力プログラム及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係るクラスタリング装置による専門用語抽出について説明する。図1は、実施例に係るクラスタリング装置による専門用語抽出を説明するための図である。図1に示すように、実施例に係るクラスタリング装置は、形態素解析の結果に対して、意味関係解析を行うことで、アークの種別に基づく専門用語抽出を行い、抽出した専門用語による置き換えを行う。
ここで、意味関係解析とは、形態素解析の結果に対して構文解析と意味解析を含む解析を行って文章に対応する意味構造を作成することである。意味構造は、文章の意味を表す構造である。図1では、例として、「プライベート接続オプション」の意味構造グラフと「提供範囲」の意味構造グラフが示されている。意味構造グラフは、意味構造をグラフ表現したものである。意味構造グラフにおいて、ノードは単語を表す。ノード間を接続するアークは、文章を意味関係解析して得られる単語間の意味的な関係(意味関係)を表す。
アークには、意味関係を示す種別がある。図1では、「RENGO」、「MOD.A」、「PRED.N」がアークの種別の例である。「RENGO」は、単語が連語として使用されることを示す。「MOD.A」は、名詞が形容詞的な性質や状態の修飾であることを示す。「プライベート接続オプション」の意味構造グラフは、「プライベート」と「接続」と「オプション」とが「プライベート(という性質)で接続された(状態の)オプション」という意味でつながっていることを表す。「PRED.N」は、単語が名詞述語として使用されることを示す。「提供範囲」の意味構造グラフは、「提供」と「範囲」とが「提供する範囲だ」の意味でつながっていることを表す。
アークの種別に基づく専門用語抽出では、実施例に係るクラスタリング装置は、例えば、「RENGO」を持つノードを含み「MOD.A」で接続されるものを専門用語として抽出する。ここで、「RENGO」を持つノードとは、種別が「RENGO」のアークと接続するノードである。また、実施例に係るクラスタリング装置は、「RENGO」を持つノードを含んでも、例えば、「PRED.N」で接続されるものは専門用語として抽出しない。
図1では、ノードの品詞が全て名詞である場合を示したが、実施例に係るクラスタリング装置は、ノードの品詞が名詞以外の場合にも専門用語を抽出することができる。図2は、ノードの品詞が名詞以外の場合で抽出される専門用語の例を示す図である。図2(a)は「インシデント取り下げフラグ」が専門用語として抽出される場合を示し、図2(b)は「K5クライアント証明書」が専門用語として抽出される場合を示す。
図2(a)に示すように、「インシデント取り下げフラグ」には、動詞の「取り下げ」が含まれる。実施例に係るクラスタリング装置は、「RENGO」を持つノードを含み、例えば「MOD.A」又は「MOD」で接続されるものを専門用語として抽出することで、動詞が含まれる場合にも、専門用語を抽出することができる。なお、「MOD」は、非修飾概念に対する世界の限定を示す。「インシデント取り下げフラグ」の意味構造グラフは、「インシデント」と「取り下げ」と「フラグ」とが「インシデント(という性質)の取り下げの(限定の)フラグ」の意味でつながっていることを表す。
図2(b)に示すように、「K5クライアント証明書」には、辞書にない固有名詞の「K5」が含まれる。実施例に係るクラスタリング装置は、「RENGO」を持つノードを含み、例えば「MOD」で接続されるものを専門用語として抽出することで、固有名詞が含まれる場合にも、専門用語を抽出することができる。なお、「K5クライアント証明書」の意味構造グラフは、「K5」と「クライアント」と「証明書」とが「K5のクライアントの証明書」の意味でつながっていることを表す。
図3は、専門用語として抽出されない他の例を示す図である。図3(a)は「対処済」の意味構造グラフを示し、図3(b)は「設定不可」の意味構造グラフを示す。図3(a)において、「PERFECT」は動作の完了を表すアークである。「PERFECT」により「済」の意味が表される。「PERFECT」を持つノードは専門用語として抽出されない。
図3(b)において、「ASP」は様相(ありさま)を表すアークであり、「NOT」は述語の否定を表すアークである。ノード「可」とアーク「NOT」により「不可」が表される。「NOT」を持つノードを含むものは専門用語として抽出されない。
次に、実施例に係るクラスタリング装置の機能構成について説明する。図4は、実施例に係るクラスタリング装置の機能構成を示す図である。図4に示すように、実施例に係るクラスタリング装置1は、文章群2を入力し、各文章をクラスタ#1〜クラスタ#mで表されるm個のクラスタ3に分類する。クラスタリング装置1は、基本辞書11と、形態素解析部12と、単語記憶部13と、文法情報記憶部14と、意味構造変換辞書15と、意味関係解析部16と、意味構造記憶部17と、専門用語抽出部18と、ベクトル化部19と、類似度計算部20とを有する。
基本辞書11は、文章で使われる単語、単語の品詞等の情報を記憶する。形態素解析部12は、文章群2を例えばファイルから入力して形態素解析を行い、文章から単語を抽出し、抽出した単語を文章と対応付けて単語記憶部13に格納する。単語記憶部13は、形態素解析により抽出された単語を文章毎に記憶する。
文法情報記憶部14は、文章の文法に関する情報を記憶する。文法情報記憶部14が記憶する情報は、文章の構文解析に用いられる。意味構造変換辞書15は、意味構造を作成するための情報を記憶する。意味構造変換辞書15が記憶する情報は、意味解析で用いられる。
意味関係解析部16は、文法情報記憶部14が記憶する情報と意味構造変換辞書15が記憶する情報を参照して、形態素解析結果に対して構文解析と意味解析を含む解析を行い、意味構造を作成して意味構造記憶部17に格納する。
意味関係解析部16は、構文解析部16aと意味解析部16bとを有する。構文解析部16aは、文法情報記憶部14が記憶する情報に基づいて、形態素解析結果に対して構文解析を行う。意味解析部16bは、意味構造変換辞書15が記憶する情報に基づいて、構文解析結果に対して意味解析を行う。
意味関係解析部16は、構文解析と意味解析を連携することで意味構造を作成する。意味関係解析部16は、隣り合う2つの単語の意味の組み合わせと当該単語間の文法関係とに基づいて当該単語間のアークの種別を特定する。
なお、意味関係解析部16によって行われる意味関係解析処理は、既存の機械翻訳技術を使って実現される。意味関係解析処理には、例えば、特開平6−68160号公報、特開昭63−136260号公報や特開平4−372061号公報に開示されている機械翻訳技術が用いられる。また、意味構造は、例えば、特開2012−73951号公報に開示されている。
意味構造記憶部17は、意味構造を記憶する。図5は、意味構造の一例を示す図である。図5は、「プライベート接続オプションの提供範囲です。」という文章の意味構造を示す図である。図5に示すように、意味構造には、単語一覧とグラフ構造とが含まれる。
単語一覧には、表記、品詞、概念記号等が含まれる。表記は、単語の表現法を示す。品詞は、単語の文法上の区分けである。例えば、「AN」は形容動詞を示し、「SN」はサ変名詞を示し、「N」は名詞を示す。概念記号は、単語の概念を示す記号である。例えば、「プライベート」と表記される単語は、形容動詞であり、その概念を示す記号は「PRIVATE」である。
グラフ構造は、単語間の意味関係を表す。グラフ構造において、「( )」は概念記号を示し、「< >」はアークの種別を示し、「−−>」はアークの方向を示す。
単語一覧とグラフ構造を用いて図1に示した意味構造グラフが生成される。概念記号を対応する表記で置き換えたものが意味構造グラフのノードに対応する。「−−>」に基づいてノード間のアークが生成され、生成されたアークにアークの種別が付加される。「(NULL)」は、接続先のノードがないことを示す。
専門用語抽出部18は、形態素解析結果と意味構造に基づいて、専門用語を抽出し、抽出した専門用語を用いて単語記憶部13を更新する。すなわち、専門用語抽出部18は、抽出した専門用語を構成する単語列を、抽出した専門用語で置き換える。専門用語抽出部18は、抽出部18aと出力部18bとを有する。
抽出部18aは、以下の条件#1を満たす単語列を専門用語として抽出する。
条件#1:意味構造において特定の種別のアークでつながった単語列であって種別が「RENGO」のアークを持つ単語を含む単語列
図6は、専門用語の抽出に用いられる特定の種別を示す図である。図6に示すように、専門用語の抽出に用いられる特定の種別には、「MOD」、「MOD.A」、「MOD.IND」、「MOD.NUM」及び「ENUM」がある。「MOD.IND」は、「非」、「被」等の先頭の接頭語であることを示す。「MOD.NUM」は、序数詞の文節と名詞句をつなぐ関係を示す。「ENUM」は、対等の関係であることを示す。
図7は、抽出される専門用語の例を示す図である。図7は、「FENICSネットワークサービスはプライベート接続オプションの提供範囲です。」から抽出される専門用語を示す。図7に示すように、「FENICS(概念記号もFENICS)」と「ネットワーク(概念記号はNETWORK)」と「サービス(概念記号はSERVICE)」はアーク「MOD」でつながり、「FENICS」は「RENGO」のアークを持つ。したがって、「FENICSネットワークサービス」が専門用語として抽出される。
また、「プライベート」と「接続オプション」と「オプション」はアーク「MOD.A」でつながり、「プライベート」は「RENGO」のアークを持つ。したがって、「プライベート接続オプション」が専門用語として抽出される。
なお、「提供」と「範囲」はアーク「PRED.N」でつながるため、専門用語と認識されない。
また、抽出部18aは、中黒「・」によってn個の固まりが「固まり#1・固まり#2・〜・固まり#n」のように結合されたもので、以下の条件#2A及び条件#2Bを満たす単語列を専門用語として抽出する。
条件#2A:各固まりは1単語のみか、又は、条件#1を満たす単語列
条件#2B:「固まり#n」以外の固まりは、種別が「MIDPOINT」のアークを持つ単語を含む
ここで、「MIDPOINT」は、カタカナ語とカタカナ語の間に中黒があることを示す。
図8は、抽出される専門用語の例を示す図である。図8は、「ダイナミック・キュー・コントロール機能により、安定したレスポンスを保証しています。」から抽出される専門用語を示す。図8に示すように、「コントロール(概念記号はCONTROL)」と「機能(概念記号はFUNCTION)」はアーク「MOD」でつながり、「コントロール」は「RENGO」のアークを持つ。したがって、「コントロール機能」は固まり#1として抽出される。
固まり#1に対してアーク「MIDPOINT」を持つ「キュー(概念記号はCUE=KYU−)」がつながり、さらに、アーク「MIDPOINT」を持つ「ダイナミック(概念記号はDYNAMIC)」がつながる。したがって、「ダイナミック・キュー・コントロール機能」が専門用語として抽出される。なお、「TOUTEN」は、文章中に読点が含まれることを示し、「M.SEQ」は、異種記号の連続を示す。
図4に戻って、出力部18bは、単語記憶部13が記憶する単語のうち、抽出された専門用語を構成する単語列を専門用語で置き換える。なお、出力部18bは、抽出した専門用語を基本辞書11に加えてもよい。この場合、クラスタリング装置1は、専門用語が追加された基本辞書11を用いて再度形態素解析を行う。
ベクトル化部19は、単語記憶部13が記憶する単語に基づいて各文章をベクトル化する。類似度計算部20は、ベクトル化部19によるベクトル結果に基づいて、文章の類似度を計算し、文章群2をクラスタ#1〜クラスタ#mで表されるm個のクラスタ3に分割する。
次に、クラスタリング装置1による処理のフローについて説明する。図9は、クラスタリング装置1による処理のフローを示すフローチャートである。図9に示すように、クラスタリング装置1は、文章群2を入力し(ステップS1)、基本辞書11を用いて文章群2の形態素解析を行って単語を抽出し、抽出した単語を単語記憶部13に格納する(ステップS2)。
そして、クラスタリング装置1は、文法情報記憶部14及び意味構造変換辞書15を用いて形態素解析結果に対して意味関係解析を行い意味構造を作成する(ステップS3)。そして、クラスタリング装置1は、形態素解析結果と意味構造を用いて専門用語を抽出し(ステップS4)、単語記憶部13を更新する(ステップS5)。そして、クラスタリング装置1は、単語記憶部13を用いて文章群2をベクトル化する(ステップS6)。なお、クラスタリング装置1は、ステップS1〜ステップS6の処理を文章毎に行ってもよい。
そして、クラスタリング装置1は、文章間の類似度を計算し(ステップS7)、文章群2を複数のクラスタ3に分割する(ステップS8)。
このように、クラスタリング装置1は、形態素解析結果と意味構造を用いて専門用語を抽出するので、専門用語を含む文章を適切にクラスタリングすることができる。
次に、抽出部18aによる処理のフローについて説明する。図10は、抽出部18aによる処理のフローを示すフローチャートである。なお、抽出部18aは、図10に示す処理を文章毎に行う。また、抽出部18aは、文章の形態素解析結果を単語列として受け取る。
図10に示すように、抽出部18aは、単語列が存在するか否かを判定し(ステップS11)、存在しない場合には、処理を終了する。一方、単語列が存在する場合には、抽出部18aは、単語列を現単語列にコピーする。ここで、現単語列は、後述するステップS17において、単語が最後から順番に削除されていく単語列を記憶する。
そして、抽出部18aは、(現単語列の単語に特定の6個のアークのいずれかのアークがある)、又は、(単語の表記が中黒でつながっていて、かつ、最後のノード以外には「MIDPOINT」アークがある)か否かを判定する(ステップS12)。ここで、特定の6個のアークは、「MOD」、「MOD.A」、「MOD.IND」、「MOD.NUM」、「ENUM」、「MIDPOINT」である。
ステップS12の判定結果が「Yes」の場合には、抽出部18aは、現単語列に「RENGO」アークを持った単語があるか否かを判定し(ステップS13)、ある場合には、現単語列を専門用語として抽出する(ステップS14)。そして、抽出部18aは、現単語列を含んだ単語の列を単語列の先頭から削除し(ステップS16)、ステップS11に戻る。
一方、現単語列に「RENGO」アークを持った単語がない場合には、抽出部18aは、現単語列に「MIDPOINT」アークを持った単語があるか否かを判定し(ステップS15)、ある場合には、ステップS14に移動する。一方、現単語列に「MIDPOINT」アークを持った単語がない場合には、抽出部18aは、ステップS16に移動する。
また、ステップS12の判定結果が「No」の場合には、抽出部18aは、現単語列の最後の単語を削除し(ステップS17)、残りが1単語であるか否かを判定する(ステップS18)。そして、残りが1単語である場合には、抽出部18aは、残りの1単語を単語列の先頭から削除し(ステップS19)、ステップS11に戻る。一方、残りが1単語でない場合には、抽出部18aは、ステップS12に戻る。
このように、抽出部18aは、形態素解析結果を意味構造を用いて処理することで、専門用語を抽出することができる。
次に、「FENICS」、「ネットワーク」、「サービス」、「は」、「プライベート」、「接続」、「オプション」、「の」、「提供」、「範囲」及び「です」を単語列の例として、図10に示した処理を説明する。「FENICS」、「ネットワーク」、「サービス」、「は」、「プライベート」、「接続」、「オプション」、「の」、「提供」、「範囲」及び「です」の単語列に対してステップS11の判定結果は「No」であり、ステップS12の判定が行われる。
すると、「は」、「の」、「提供」、「範囲」及び「です」には特定の6個のアークのうちのいずれもなく、中黒でつながっていないので、ステップS12の判定結果は「No」となる。そして、ステップS17において、最後の単語「です」が削除され、現単語列は、「FENICS」、「ネットワーク」、「サービス」、「は」、「プライベート」、「接続」、「オプション」、「の」、「提供」及び「範囲」となる。
そして、ステップS11に戻って、「FENICS」、「ネットワーク」、「サービス」、「は」、「プライベート」、「接続」、「オプション」、「の」、「提供」及び「範囲」の現単語列が同様に処理され、ステップS17において、最後の「範囲」が削除される。同様の繰り返しにより、ステップS17において、「提供」、「の」、「オプション」、「接続」、「プライベート」及び「は」が順番に削除され、現単語列が「FENICS」、「ネットワーク」及び「サービス」となる。
そして、ステップS11に戻り、「FENICS」、「ネットワーク」及び「サービス」には「MOD」アークがあるため、ステップS12の判定結果は「Yes」となる。そして、「FENICS」は「RENGO」アークを持つので、ステップS13の判定結果が「Yes」となり、ステップS14において、「FENICSネットワークサービス」が専門用語として抽出される。そして、ステップS16において、「FENICS」、「ネットワーク」及び「サービス」が単語列から削除され、単語列は、「は」、「プライベート」、「接続」、「オプション」、「の」、「提供」、「範囲」及び「です」となる。
そして、ステップS17において、「です」、「範囲」、「提供」、「の」、「オプション」、「接続」及び「プライベート」が順に削除され、現単語列が「は」となる。そして、ステップS18の判定結果が「Yes」となり、ステップS19において「は」が単語列「は」、「プライベート」、「接続」、「オプション」、「の」、「提供」、「範囲」及び「です」から削除される。そして、単語列は、「プライベート」、「接続」、「オプション」、「の」、「提供」、「範囲」及び「です」となる。
そして、ステップS17において、「です」、「範囲」、「提供」及び「の」が順に削除され、現単語列が「プライベート」、「接続」及び「オプション」となる。そして、ステップS12において、「プライベート」、「接続」及び「オプション」には「MOD.A」アークがあるので、判定結果は「Yes」となる。そして、「プライベート」は「RENGO」アークを持つので、ステップS13の判定結果が「Yes」となり、ステップS14において、「プライベート接続オプション」が専門用語として抽出される。そして、ステップS16において、「プライベート」、「接続」及び「オプション」が単語列から削除され、単語列は、「の」、「提供」、「範囲」及び「です」となる。
そして、ステップS12の判定結果が「Yes」となる場合はなくなるため、ステップS19において、単語列から「の」、「提供」、「範囲」、「です」の順に削除され、最後に単語列がなくなり、処理が終了する。
上述してきたように、実施例では、形態素解析部12が文章群2を入力し、基本辞書11を参照して形態素解析を行い、各文章から単語を抽出して単語記憶部13に格納する。そして、意味関係解析部16が、文法情報記憶部14と意味構造変換辞書15を参照して、形態素解析結果から意味構造を作成し、意味構造記憶部17に格納する。意味関係解析部16は、隣り合う2つの単語の意味の組み合わせと当該単語間の文法関係とに基づいて当該単語間のアークを生成する。そして、専門用語抽出部18が、特定の種別のアークでつながり、「RENGO」アークを持つ単語を含む単語列から専門用語を生成し、単語記憶部13を更新する。したがって、クラスタリング装置1は、複数の単語から構成される専門用語を文章から抽出することができる。
また、実施例では、専門用語抽出部18は、中黒によってn個の固まりが「固まり#1・固まり#2・〜・固まり#n」のように結合されたもので、条件#2A及び条件#2Bを満たす単語列を専門用語として抽出する。したがって、中黒によって単語又は専門用語が結合される専門用語を文章から抽出することができる。
なお、実施例では、クラスタリング装置1について説明したが、クラスタリング装置1が有する構成をソフトウェアによって実現することで、同様の機能を有するクラスタリングプログラムを得ることができる。そこで、クラスタリングプログラムを実行するコンピュータについて説明する。
図11は、実施例に係るクラスタリングプログラムを実行するコンピュータのハードウェア構成を示す図である。図11に示すように、コンピュータ50は、メインメモリ51と、CPU(Central Processing Unit)52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果等を記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボード等の入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行されるクラスタリングプログラムは、コンピュータ50により読み出し可能な記録媒体の一例であるDVDに記憶され、ODD57によってDVDから読み出されてコンピュータ50にインストールされる。あるいは、クラスタリングプログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされたデータ処理プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例では、クラスタリング装置1について説明したが、クラスタリング装置1からベクトル化部19及び類似度計算部20を取り除くことで、文章から専門用語を生成して出力する単語出力装置を得ることができる。
1 クラスタリング装置
2 文章群
3 クラスタ
11 基本辞書
12 形態素解析部
13 単語記憶部
14 文法情報記憶部
15 意味構造変換辞書
16 意味関係解析部
16a 構文解析部
16b 意味解析部
17 意味構造記憶部
18 専門用語抽出部
18a 抽出部
18b 出力部
19 ベクトル化部
20 類似度計算部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD

Claims (7)

  1. 文字列データを受け付け、
    受け付けた前記文字列データより隣り合う第1の単語及び第2の単語を抽出し、
    抽出した前記第1の単語及び前記第2の単語の意味の組み合わせと、前記第1の単語及び前記第2の単語間の文法関係と、により前記第1の単語及び前記第2の単語間で特定される意味関係が特定の意味関係である場合、前記第1の単語及び前記第2の単語を含む新たな単語を生成し、
    生成した前記単語を出力する、
    処理をコンピュータが実行することを特徴とする単語出力方法。
  2. 前記生成する処理は、前記第1の単語と前記第2の単語の少なくとも一方が連語として使用されることを示す意味関係を持つ場合、前記新たな単語を生成することを特徴とする請求項1に記載の単語出力方法。
  3. 前記生成する処理は、前記第1の単語と前記第2の単語が中黒で結合され、前記第1の単語は、カタカナ語とカタカナ語の間に中黒があることを示す意味関係を持つ場合、前記第1の単語、前記中黒及び前記第2の単語を含む新たな単語を生成することを特徴とする請求項1又は2に記載の単語出力方法。
  4. 前記生成する処理は、前記第1の単語及び前記第2の単語間で特定される意味関係が特定の意味関係である場合に前記第1の単語及び前記第2の単語から生成した新たな単語と該新たな単語と隣り合う第3の単語が中黒で結合され、前記第1の単語及び前記第2の単語は、カタカナ語とカタカナ語の間に中黒があることを示す意味関係を持つ場合、該新たな単語、前記中黒及び前記第3の単語を含む新たな単語を生成することを特徴とする請求項1又は2に記載の単語出力方法。
  5. 前記特定の意味関係は、被修飾概念に対して世界を限定する関係、名詞が形容詞的に限定する関係、前記第1の単語が前記第2の単語の接頭語である関係、前記第1の単語が前記第2の単語の序数詞である関係、前記第1の単語と前記第2の単語が対等である関係を含むことを特徴とする請求項1〜4のいずれか1つに記載の単語出力方法。
  6. 文字列データを受け付け、
    受け付けた前記文字列データより隣り合う第1の単語及び第2の単語を抽出し、
    抽出した前記第1の単語及び前記第2の単語の意味の組み合わせと、前記第1の単語及び前記第2の単語間の文法関係と、により前記第1の単語及び前記第2の単語間で特定される意味関係が特定の意味関係である場合、前記第1の単語及び前記第2の単語を含む新たな単語を生成し、
    生成した前記単語を出力する、
    処理をコンピュータに実行させることを特徴とする単語出力プログラム。
  7. 文字列データを受け付け、受け付けた前記文字列データより隣り合う第1の単語及び第2の単語を抽出する単語抽出部と、
    前記単語抽出部により抽出された前記第1の単語及び前記第2の単語の意味の組み合わせと、前記第1の単語及び前記第2の単語間の文法関係と、により前記第1の単語及び前記第2の単語間で特定される意味関係が特定の意味関係である場合、前記第1の単語及び前記第2の単語を含む新たな単語を生成し、生成した前記単語を出力する単語出力部と
    を有することを特徴とする情報処理装置。
JP2019015778A 2019-01-31 2019-01-31 単語出力方法、単語出力プログラム及び情報処理装置 Pending JP2020123227A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019015778A JP2020123227A (ja) 2019-01-31 2019-01-31 単語出力方法、単語出力プログラム及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019015778A JP2020123227A (ja) 2019-01-31 2019-01-31 単語出力方法、単語出力プログラム及び情報処理装置

Publications (1)

Publication Number Publication Date
JP2020123227A true JP2020123227A (ja) 2020-08-13

Family

ID=71992773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019015778A Pending JP2020123227A (ja) 2019-01-31 2019-01-31 単語出力方法、単語出力プログラム及び情報処理装置

Country Status (1)

Country Link
JP (1) JP2020123227A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210556A (ja) * 1994-01-21 1995-08-11 Toshiba Corp 自然言語処理装置及び自然言語処理方法
JPH11167568A (ja) * 1997-12-04 1999-06-22 Omron Corp 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム
JP2016009415A (ja) * 2014-06-26 2016-01-18 日本電気株式会社 用語集作成支援システムおよび方法、プログラム
JP2017151553A (ja) * 2016-02-22 2017-08-31 富士通株式会社 機械翻訳装置、機械翻訳方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210556A (ja) * 1994-01-21 1995-08-11 Toshiba Corp 自然言語処理装置及び自然言語処理方法
JPH11167568A (ja) * 1997-12-04 1999-06-22 Omron Corp 単語区切り処理装置、単語区切り処理方法、および単語区切り処理プログラム記録媒体
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム
JP2016009415A (ja) * 2014-06-26 2016-01-18 日本電気株式会社 用語集作成支援システムおよび方法、プログラム
JP2017151553A (ja) * 2016-02-22 2017-08-31 富士通株式会社 機械翻訳装置、機械翻訳方法、及びプログラム

Similar Documents

Publication Publication Date Title
Qi et al. Openhownet: An open sememe-based lexical knowledge base
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
US9588958B2 (en) Cross-language text classification
Toraman et al. Impact of tokenization on language models: An analysis for turkish
US9495358B2 (en) Cross-language text clustering
Casalnuovo et al. Studying the difference between natural and programming language corpora
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
Şahin To augment or not to augment? A comparative study on text augmentation techniques for low-resource NLP
Joshi et al. Dense semantic graph and its application in single document summarisation
US11227119B2 (en) Cognitive word processing
Sameen et al. Measuring short text reuse for the Urdu language
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
Wintner Morphological processing of semitic languages
Rizki et al. Word formation process in novel alice’s adventures in wonderland by Lewis Carroll and movie alice in wonderland by Walt Disney
Yeniterzi et al. Turkish named-entity recognition
US11422798B2 (en) Context-based word embedding for programming artifacts
Hailu et al. Semantic role labeling for Amharic text using multiple embeddings and deep neural network
WO2018179729A1 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
Murauer et al. Generating cross-domain text classification corpora from social media comments
Van Thin et al. A Systematic Literature Review on Vietnamese Aspect-based Sentiment Analysis
JP2020123227A (ja) 単語出力方法、単語出力プログラム及び情報処理装置
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Zhang et al. Generating abbreviations for chinese named entities using recurrent neural network with dynamic dictionary

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230905