JP6368633B2 - 用語意味学習装置、用語意味判定装置、方法、及びプログラム - Google Patents

用語意味学習装置、用語意味判定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6368633B2
JP6368633B2 JP2014248130A JP2014248130A JP6368633B2 JP 6368633 B2 JP6368633 B2 JP 6368633B2 JP 2014248130 A JP2014248130 A JP 2014248130A JP 2014248130 A JP2014248130 A JP 2014248130A JP 6368633 B2 JP6368633 B2 JP 6368633B2
Authority
JP
Japan
Prior art keywords
term
meaning
feature vector
character string
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014248130A
Other languages
English (en)
Other versions
JP2016110440A (ja
Inventor
昭典 藤野
昭典 藤野
鈴木 潤
潤 鈴木
平尾 努
努 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014248130A priority Critical patent/JP6368633B2/ja
Publication of JP2016110440A publication Critical patent/JP2016110440A/ja
Application granted granted Critical
Publication of JP6368633B2 publication Critical patent/JP6368633B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、用語意味学習装置、用語意味判定装置、方法、及びプログラムに係り、特に、用語に対する意味コードを判定するための用語意味学習装置、意味判定装置、方法、及びプログラムに関する。
用語には、ひらがな、カタカナ、及び漢字などの異なる文字を用いた表記や、略語や省略などのような表記揺れがある。また、同義語及び類義語などのように同じ意味を表すが異なる表現の用語がある。このような異なる表記又は表現の用語に同じ意味であることを表す意味コードを付与する問題に対しては、非特許文献1に記載されている、用語のペアが同義語であるかどうかを文脈類似度と表記類似度を用いて推定する技術を利用できる。また、非特許文献2に記載されている、「スパゲッティ」と「スパゲッティー」など、一部の表記が異なる編集距離の小さい異表記対を抽出する技術を利用できる。あるいは、非特許文献3に記載されている、実際の文書で一緒に用いられる単語の情報をもとに用語を分類する技術を利用できる。
森本康嗣, 柳井孝介, 岩山真,「文脈類似度と表記類似度を用いた教師あり同義語抽出」,言語処理学会第16 回年次大会発表論文集, 974−977 (2010). 小島正裕, 村田真樹, 風間淳一, 黒田航, 藤田篤, 荒牧英治, 土田正明, 渡辺靖彦, 鳥澤健太郎,「機械学習と種々の素性を用いた編集距離の小さい日本語異表記対の抽出」,言語処理学会第16 回年次大会発表論文集, 928−931 (2010). 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦,「医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究」, 医療情報学, Vol.25, No.6,pp.463-474, 2006.
本発明が解決しようとする課題は、事前に人手で定義されている意味コードを専門用語に付与する問題において、非常に多数の意味コードの候補の中から、各用語に最も適した意味コードを1つ選択することである。
一般の単語と異なり、正確に内容を伝達するために、大部分の専門用語には専門分野ごとにそれぞれ唯一の意味が定義されている、と考えられる。したがって、専門分野が既知の文書に含まれる専門用語に意味コードを付与する問題は、専門用語に唯一の意味が定義されているという仮定のもとで、同じ意味をもつが異なる表記又は表現で書かれた用語に同じ意味コードを付与することに相当する。
従来の技術では、非特許文献1、及び非特許文献2に記載のように、2つの用語が同じ意味をもつかどうかを推定するか、非特許文献3のように、クラスタリング技術を利用して用語の集合を類似の意味をもつ用語に分けることが行われている。本発明が解決しようとする課題に非特許文献1、及び非特許文献2の技術を適用する場合、例えば、意味コードごとに用語例を1つ選択し、意味コードを付与したい用語がどの用語例に近いかを該当技術で調べることで意味コードを推定できる。
しかし、この方法では、用語例の選択の仕方に意味コードの推定精度が大きく影響される可能性がある。一方、本発明が解決しようとする課題に非特許文献3の技術を用いる場合、クラスタリング技術で機械的に分類された用語の集合と、人手で定義された意味コードとを一対一に対応付けることは容易ではない。専門用語に対して付与すべき意味コードを推定する問題に対して、高い推定精度を達成する手法を開発することが課題である。
本発明は、上記問題点を解決するために成されたものであり、精度よく用語の意味コードを判定するための用語意味学習装置、用語意味判定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る用語意味学習装置は、入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成する判定ルール生成部と、を含んで構成されている。
また、第1の発明に係る用語意味学習装置において、前記用語を、特定の専門分野において唯一の意味が定義されている専門用語としてもよい。
また、第1の発明に係る用語意味学習装置において、前記特徴ベクトル生成部は、前記複数の用語の各々について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数とを表す前記特徴ベクトルを生成してもよい。
また、第1の発明に係る用語意味学習装置において、前記特徴ベクトル生成部は、前記複数の用語の各々について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数と、前記用語に含まれる各文字の文字種とを表す前記特徴ベクトルを生成してもよい。更に、前記用語にふうまれる各部分文字列の文字種を更に表す前記特徴ベクトルを生成してもよい。
また、第1の発明に係る用語意味学習装置において、入力された、用語の意味コードが予め付与された複数の用語と、同義語又は類義語が格納されている辞書とに基づいて、前記意味コードが予め付与されている用語の同義語又は類似語となる用語に、前記意味コードを付与する同義語類義語意味コード付与部を更に含み、前記特徴ベクトル生成部は、前記用語の意味コードが予め付与された複数の用語、及び同義語類義語意味コード付与部によって意味コードが付与された前記同義語又は類似語となる用語の各々について、前記特徴ベクトルを生成するように構成してもよい。
また、上記判定ルール生成部は、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、前記意味コード毎に、用語に前記意味コードを付与するか否かを識別するための2値分類器を、前記判定ルールとして生成するようにしてもよい。
第2の発明に係る用語意味判定装置は、入力された用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトル生成部により生成された前記特徴ベクトルと、あらかじめ学習された、用語の意味コードを判定するための判定ルールとに基づいて、前記用語の意味コードを判定する意味コード判定部と、を含んで構成されている。
また、第2の発明に係る用語意味判定装置において、前記用語を、特定の専門分野において唯一の意味が定義されている専門用語としてもよい。
また、第2の発明に係る用語意味判定装置において、前記特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数とを表す前記特徴ベクトルを生成してもよい。
第1の発明に係る用語意味学習方法は、特徴ベクトル生成部が、入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成するステップと、判定ルール生成部が、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成するステップと、を含んで実行することを特徴とする。
第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る用語意味学習装置、又は上記第2の発明に係る用語意味判定装置を構成する各部として機能させるためのプログラムである。
本発明の用語意味学習装置、用語意味判定装置、方法、及びプログラムによれば、複数の用語の各々について、用語に含まれる文字又は部分文字列から、特徴ベクトルを生成し、複数の用語の各々について生成された特徴ベクトルと、複数の用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく用語の意味コードを判定するための判定ルールを学習することができる、という効果が得られる。
また、用語意味判定装置、方法、及びプログラムによれば、用語に含まれる文字又は部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく用語の意味コードを判定することができる、という効果が得られる。
本発明の第1〜第3の実施の形態に係る用語意味学習装置の機能的構成を示すブロック図である。 専門用語に含まれる部分文字列に対応する特徴量のインデックスを示す概念図である。 本発明の実施の形態に係る用語意味判定装置の機能的構成を示すブロック図である。 本発明の第1〜第3の実施の形態に係る用語意味学習装置における用語意味学習処理ルーチンのフローチャート図である。 本発明の実施の形態に係る用語意味判定装置における用語意味判定処理ルーチンのフローチャート図である。 専門用語に含まれる文字と、部分文字列とに対応する特徴量のインデックスを示す概念図である。 専門用語に含まれる文字と、部分文字列と、各文字の文字種とに対応する特徴量のインデックスを示す概念図である。 本発明の第4の実施の形態に係る用語意味学習装置の機能的構成を示すブロック図である。 本発明の第4の実施の形態に係る用語意味学習装置における用語意味学習処理ルーチンのフローチャート図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の第1の実施の形態に係る用語意味学習装置の構成>
まず、本発明の第1の実施の形態に係る用語意味学習装置の構成について説明する。
図1に示すように、本発明の第1の実施の形態に係る用語意味学習装置100は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、専門用語の意味コードが予め付与された複数の専門用語を訓練データ集合として受け付け、訓練データ集合データベース28に格納する。入力される、意味コードが予め付与された複数の専門用語は、意味コードを定義するのに用いられている専門用語、人手で意味コードを付与した実際の文書から抽出した専門用語、及び同義語及び類義語の関係が記載されている任意の辞書から抽出した専門用語を用いて構成される。任意の辞書に含まれている専門用語には、通常、意味コードが付与されていないので、辞書から抽出する際に、意味コードを定義するのに用いられている専門用語と、辞書に記載の同義語及び類義語の関係と、を利用して意味コードを付与する。例えば、意味コードを定義するのに用いられている専門用語と同義語及び類義語の関係にある専門用語に対して同一の意味コードを付与すればよい。
演算部20は、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。
特徴ベクトル生成部30は、訓練データ集合データベース28に格納されている複数の専門用語の各々について、当該専門用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す特徴ベクトルを生成する。なお、各部分文字列の有無を表す特徴ベクトルを生成してもよい。
特徴ベクトル生成部30では、専門用語を構成する部分文字列、例えば、文字ベースのbi−gram、又はtri−gramなどを特徴量とし、専門用語に含まれる各特徴量の個数を表す特徴ベクトルを生成する。例えば、図2に示すような、「ピロリ菌」という専門用語の文字列に含まれる部分文字列に対応する特徴量のインデックスを仮定する。このとき、専門用語「ピロリ菌」は、i∈{b,b,b,b,b,t,t,t,t}のときにx=1、iが、「ピロリ菌」に含まれない部分文字列の特徴量のときにx=0の要素からなる特徴ベクトル^x=(x,...,x,...,x)で表すことができる。なお、ベクトルを表す記号には、記号の前に「^」を付して表現する。また、図2において、「_」が記号の先頭に付いているものは専門用語の文字列の先端を表し、記号の末尾に付いているものは専門用語の文字列の終端を表す。また、例えば、ひらがな、カタカナ、又はアルファベットなど、専門用語に含まれる文字の文字種を用いて定義される特徴量を追加で用いてもよい。
判定ルール生成部32は、特徴ベクトル生成部30により複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成する。
判定ルール生成部32は、具体的には、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、例えば、サポートベクトルマシン(SVM)、あるいはロジスティック回帰モデルのような2値分類器を利用して、意味コードk毎に、スコア関数のパラメータ^wの値を推定することにより、判定ルールを機械的に生成し、判定ルール40として記憶する。本実施の形態では、意味コードkのスコア関数のパラメータ^wに対して、意味コードkが付与された専門用語を正例、k以外の意味コードが付与された専門用語を負例として、2値分類器の目的関数を最大化させるパラメータ^wを計算する。
<本発明の第1の実施の形態に係る用語意味判定装置の構成>
次に、本発明の第1の実施の形態に係る用語意味判定装置の構成について説明する。図3に示すように、本発明の第1の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、用語の入力を受け付ける。
演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。
判定ルール240には、判定ルール40と同じ判定ルールが記憶されている。
特徴ベクトル生成部230は、入力部210で受け付けた用語の文字列に含まれる部分文字列から、特徴ベクトル生成部30と同様に、各部分文字列の個数を表す特徴ベクトルを生成する。なお、各部分文字列の有無を表す特徴ベクトルを生成してもよい。
意味コード判定部232は、特徴ベクトル生成部230により生成された特徴ベクトルと、判定ルール240とに基づいて、入力部210で受け付けた用語の意味コードを判定する。
意味コード判定部232は、具体的には、特徴ベクトル生成部230で生成した特徴ベクトル^xと、判定ルール240とを用いて、意味コードk毎に、判定ルール240のスコア関数のパラメータ^wの値に従って、特徴ベクトル^xで表される用語が意味コードkに関連する度合いを表すスコア関数f(^x;^w) を計算する。そして、スコア関数f(^x;^w)の値が最大になる意味コードkを、当該用語に適した意味コードとして選択することで、当該用語の意味コードを判定し、出力部250により出力する。このように予め機械的に学習しておいた判定ルール240を用いて用語の意味コードを判定することで、事前に定義されている意味コードの中から最も適した意味コードを1つ選択することができる。
<本発明の第1の実施の形態に係る用語意味学習装置の作用>
次に、本発明の第1の実施の形態に係る用語意味学習装置100の作用について説明する。入力部10において、専門用語の意味コードが予め付与された複数の専門用語を訓練データ集合として受け付け、訓練データ集合データベース28に格納すると、用語意味学習装置100は、図4に示す用語意味学習処理ルーチンを実行する。
まず、ステップS100では、訓練データ集合データベース28に格納されている複数の専門用語の各々を取得する。
次に、ステップS102では、ステップS100で取得した複数の専門用語の各々について、当該専門用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す特徴ベクトルを生成する。
ステップS104では、ステップS102で複数の専門用語の各々について生成された特徴ベクトルと、ステップS100で取得した複数の専門用語の各々に付与された意味コードとに基づいて、意味コードk毎に、スコア関数のパラメータ^wの値を推定することにより、判定ルールを生成し、判定ルール40に記憶して、処理を終了する。
以上説明したように、第1の実施の形態に係る用語意味学習装置によれば、複数の専門用語の各々について、用語に含まれる部分文字列から、特徴ベクトルを生成し、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく専門用語の意味コードを判定するための判定ルールを学習することができる。
<本発明の第1の実施の形態に係る用語意味判定装置の作用>
次に、本発明の第1の実施の形態に係る用語意味判定装置200の作用について説明する。入力部210において用語を受け付けると、用語意味判定装置200は、図5に示す用語意味判定処理ルーチンを実行する。
まず、ステップS200では、入力部10において受け付けた用語を取得する。
次に、ステップS202では、ステップS200で取得した用語について、当該専門用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す特徴ベクトルを生成する。
ステップS204では、ステップS202で生成された特徴ベクトルと、判定ルール240とに基づいて、意味コードk毎に、判定ルール240のスコア関数のパラメータ^wの値に従って、スコア関数f(^x;^w^) を計算し、計算の結果、スコア関数f(^x;^w)の値が最大になる意味コードkを、ステップS200で取得した用語に適した意味コードとして選択することで、ステップS200で取得した用語の意味コードを判定する。
ステップS206では、ステップS204による判定で得られた用語の意味コードを出力部250により出力し、処理を終了する。
以上説明したように、第1の実施の形態に係る用語意味判定装置によれば、用語に含まれる部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。
<本発明の第2の実施の形態に係る用語意味学習装置の構成>
次に、本発明の第2の実施の形態に係る用語意味学習装置の構成について説明する。なお、第1の実施の形態の用語意味学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図1に示すように、本発明の第2の実施の形態に係る用語意味学習装置100は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
第2の実施の形態に係る入力部10は、第1の実施の形態と同様に、専門用語の意味コードが予め付与された複数の専門用語を、訓練データ集合として受け付け、訓練データ集合データベース28に格納する。
第2の実施の形態に係る演算部20は、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。
第2の実施の形態に係る特徴ベクトル生成部30は、入力部10で受け付けた複数の専門用語の各々について、当該専門用語に含まれる文字、及び当該専門用語の文字列に含まれる部分文字列から、各文字の個数と、各部分文字列の個数とを表す特徴ベクトルを生成する。なお、文字の有無、及び各部分文字列の有無を表す特徴ベクトルを生成してもよい。
第2の実施の形態に係る特徴ベクトル生成部30では、専門用語を構成する文字、例えば、文字ベースのuni−gramと、専門用語を構成する部分文字列、例えば、bi−gram又はtri−gramなどを、特徴量とし、用語に含まれる各特徴量の個数を表す特徴ベクトルを生成する。例えば、図6に示すような、「ピロリ菌」という専門用語に含まれる文字と、専門用語の文字列に含まれる部分文字列との特徴量のインデックスを仮定する。このとき、専門用語「ピロリ菌」は、i∈{u,u,u,u,b,b,b,b,b,t,t,t,t}のときにx=1、iが、「ピロリ菌」に含まれない文字、又は部分文字列の特徴量のときにx=0の要素からなる特徴ベクトル^x=(x,...,x,...,x)で表すことができる。
なお、第2の実施の形態に係る用語意味学習装置の他の構成及び作用は、第1の実施の形態の用語意味学習装置100と同様であるため詳細な説明を省略する。
<本発明の第2の実施の形態に係る用語意味判定装置の構成>
次に、本発明の第2の実施の形態に係る用語意味判定装置の構成について説明する。なお、第1の実施の形態の用語意味判定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図3に示すように、本発明の第2の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
第2の実施の形態に係る演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。
第2の実施の形態に係る特徴ベクトル生成部230は、入力部210で受け付けた用語の文字列に含まれる文字及び部分文字列から、第1の実施の形態に係る特徴ベクトル生成部30と同様に、各文字の個数及び各部分文字列の個数を表す特徴ベクトルを生成する。なお、各文字の有無及び各部分文字列の有無を表す特徴ベクトルを生成してもよい。
なお、第2の実施の形態に係る用語意味判定装置の他の構成及び作用は、第1の実施の形態の用語意味判定装置200と同様であるため詳細な説明を省略する。
以上説明したように、第2の実施の形態に係る用語意味学習装置によれば、複数の専門用語の各々について、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく専門用語の意味コードを判定することができる。
また、第2の実施の形態に係る用語意味判定装置によれば、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。
<本発明の第3の実施の形態に係る用語意味学習装置の構成>
次に、本発明の第3の実施の形態に係る用語意味学習装置の構成について説明する。なお、第2の実施の形態の用語意味学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図1に示すように、本発明の第3の実施の形態に係る用語意味学習装置100は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
第3の実施の形態に係る演算部220は、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。
第3の実施の形態に係る特徴ベクトル生成部30は、入力部10で受け付けた複数の専門用語の各々について、当該専門用語に含まれる文字、及び当該専門用語の文字列に含まれる部分文字列から、各文字の個数と、各部分文字列の個数と、当該専門用語に含まれる各文字の文字種とを表す特徴ベクトルを生成する。なお、各文字の有無及び各部分文字列の有無を表す特徴ベクトルを生成してもよい。
第3の実施の形態に係る特徴ベクトル生成部30では、専門用語を構成する文字、例えば、文字ベースのuni−gramと、専門用語を構成する部分文字列、例えば、bi−gram又はtri−gramなどを特徴量とした用語に含まれる各特徴量の個数と、専門用語を構成する各文字の文字種、例えば、ひらがな、カタカナ、又はアルファベットなどを特徴量とした用語に含まれる各特徴量の個数とを組み合わせた特徴ベクトルを生成する。例えば、図7に示すような、「頚部リンパ節腫脹」という専門用語に含まれる文字、及び専門用語の文字に含まれる部分文字列の特徴量と、専門用語に含まれる各文字の文字種の特徴量とを組み合わせたインデックスを仮定する。ここで、cは専門用語に含まれるt番目の文字を表し、sは専門用語に含まれるt番目の文字の文字種を表す。「頚部リンパ節腫脹」であれば、cについては、c=頚、c=部、c=リ、・・・と表すことができ、sについては、s=s=“CJK unified Ideographs(漢字)”、s=“Katakana(カタカナ)”、等と表すことができる。なお、文字種のN−gramを特徴量として、用語に含まれる各特徴量の個数を表す特徴ベクトルを生成してもよい。
なお、第3の実施の形態に係る用語意味判定装置の他の構成及び作用は、第2の実施の形態の用語意味学習装置100と同様であるため詳細な説明を省略する。
<本発明の第3の実施の形態に係る用語意味判定装置の構成>
次に、本発明の第3の実施の形態に係る用語意味判定装置の構成について説明する。なお、第2の実施の形態の用語意味判定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図3に示すように、本発明の第3の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
第3の実施の形態に係る演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。
なお、第3の実施の形態に係る用語意味判定装置の他の構成及び作用は、第2の実施の形態の用語意味判定装置200と同様であるため詳細な説明を省略する。
以上説明したように、第3の実施の形態に係る用語意味学習装置によれば、複数の専門用語の各々について、用語に含まれる文字及び部分文字列、並びに文字の文字種から、特徴ベクトルを生成し、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく専門用語の意味コードを判定することができる。
また、第3の実施の形態に係る用語意味判定装置によれば、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。
<本発明の第4の実施の形態に係る用語意味学習装置の構成>
次に、本発明の第4の実施の形態に係る用語意味学習装置の構成について説明する。なお、第2の実施の形態の用語意味学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
図8に示すように、本発明の第4の実施の形態に係る用語意味学習装置300は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図8に示すように入力部310と、演算部320とを備えている。
入力部310は、専門用語の意味コードが予め付与された複数の専門用語と、専門用語の同義語及び類義語を格納した辞書とを、受け付ける。
演算部320は、同義語類義語意味コード付与部326と、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。
同義語類義語意味コード付与部326は、入力部310で受け付けた、専門用語の意味コードが予め付与された複数の専門用語と辞書とに基づいて、意味コードが付与された専門用語の各々について、当該専門用語の同義語又は類義語となる専門用語の各々に、同じ意味コードを付与する。そして、入力部310で受け付けた、意味コードが予め付与された専門用語、及び意味コードが付与された同義語または類義語となる専門用語を、訓練データ集合として、訓練データ集合データベース28に格納する。
なお、第3の実施の形態に係る用語意味学習装置の他の構成及び作用は、第2の実施の形態の用語意味学習装置100と同様であるため詳細な説明を省略する。
<本発明の第4の実施の形態に係る用語意味判定装置の構成>
次に、本発明の第4の実施の形態に係る用語意味判定装置の構成について説明する。なお、第2の実施の形態の用語意味判定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図3に示すように、本発明の第4の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。
第4の実施の形態に係る演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。
なお、第4の実施の形態に係る用語意味判定装置の他の構成及び作用は、第2の実施の形態の用語意味判定装置200と同様であるため詳細な説明を省略する。
<本発明の第4の実施の形態に係る用語意味学習装置の作用>
次に、本発明の第4の実施の形態に係る用語意味学習装置300の作用について説明する。入力部10において、専門用語の意味コードが予め付与された複数の専門用語、及び同義語及び類似語を格納した辞書を受け付けると、第4の実施の形態に係る用語意味学習装置300は、図9に示す用語意味学習処理ルーチンを実行する。なお、第4の実施の形態に係る用語意味学習装置の作用について、第2の実施の形態と同様の作用となる部分については、同一符号を付して説明を省略する。
ステップS300では、同義語及び類似語を格納した辞書に基づいて、ステップS100で取得した複数の専門用語の各々について、当該専門用語の同義語又は類義語となる専門用語に対して、当該専門用語と同じ意味コードを付与する。
なお、第4の実施の形態に係る用語意味学習装置の他の作用については、第2の実施の形態と同様であるため、詳細な説明を省略する。
以上説明したように、第4の実施の形態に係る用語意味学習装置によれば、辞書に格納されている同義語及び類義語に対して、意味コードを付与することで、意味コードを付与した訓練データを増やすことができる。
また、第4の実施の形態に係る用語意味判定装置によれば、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。
<実験結果>
上記第3の実施の形態に係る手法を適用して、国立情報学研究所(NII)主催の評価型ワークショップNTCIR−11のMedNLP2タスク(http://mednlp.jp/ntcir11/)で配布された疑似医療文書のベンチマークセットを用いて実験を行った。このベンチマークセットには、訓練データとテストデータが含まれており、それぞれのデータには、疑似医療文書中に、意味コードとしてICDコードが付与された病名及び症状を表す専門用語を含むものである。ICDコードは、病態管理および情報共有のためのコードであり、医療用語の標準化のために開発されたコードである。ICDコードを利用することで、様々な省略形や漢字、かな表記の違いなど、同一の意味をもつ異表現の用語を把握、管理することができる。ICD10対応標準病名マスター(http://www2.medis.or.jp/stdcd/byomei/)には数千種類のICDコードが定義されている。
性能評価では、ICDコードを意味コードとし、疑似医療文書に含まれる病名及び症状を表す専門用語にICDコードを付与する問題に対して、上記第3の実施の形態に係る手法を適用した場合に得られるICDコードの判定精度を調べた。
本実験では、上記ベンチマークセットの訓練データと、ICD10対応標準病名マスターに含まれる病名基本テーブルに含まれる専門用語とを訓練データ集合データベース28に格納した。また、ICD10対応標準病名マスターの検索テーブルに含まれる専門用語も訓練データ集合データベース28に格納した。また、ICD10対応標準病名マスターの病名基本テーブルに含まれる専門用語と同義又は類義の専門用語について、当該病名基本テーブルに含まれる専門用語と同一のICDコードを付与して訓練データ集合データベース28に格納した。さらに、ライフサイエンス辞書(http://lsd.pharm.kyoto-u.ac.jp/ja/index.html)、T辞書(http://www.tdic.co.jp/)、及びUMLSメタシソーラス(http://www.nlm.nih.gov/research/umls/)から取り出したMedDRA辞書の各々から、ICD10対応標準病名マスターに含まれる専門用語と同義又は類義の専門用語を抽出し、当該ICD10対応標準病名マスターに含まれる専門用語と同一のICDコードを付与して訓練データ集合データベース28に格納した。
本実験では、意味コード判定部232で用いる判定ルールを生成するために、判定ルール生成部32において、ロジスティック回帰モデルを適用して、スコア関数f(^x;^w)のパラメータ値を推定した。
表1に、上記第3の実施の形態に係る手法で判定ルールを生成して、ベンチマークセットのテストデータに含まれる2134個の病名及び症状を表す専門用語に適用した場合の意味コードの正解率と、正しく意味コードが推定された専門用語の個数(正解数)を示す。表1において、ADOC、 MEDIS、及びEXDICは訓練データ集合データベース28に格納された用語の種類を表している。ADICはベンチマークセットの訓練データに格納されていた用語を、MEDISはICD10対応標準病名マスターの基本病名テーブルと検索テーブルから抽出した用語を、EXDICはライフサイエンス辞書、T辞書、及びMedDRA辞書から抽出した用語を表す。表1から、より多くの専門用語を辞書から集めて判定ルールの生成に利用することで意味コードの推定精度が向上することがわかる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した第1〜第4の実施の形態では、特定の専門分野において唯一の意味が定義されている専門用語から、意味コードを判定するため判定ルールを生成する用語意味学習装置を例に説明したが、これに限定されるものではなく、意味コードが予め付与された用語を用いるのであれば、どのような分野の用語であっても判定ルールを生成し、意味コードを判定することができる。例えば、用語意味学習装置で、ある一定の分野(自然科学、経済等の分野)の用語について、判定ルールを生成し、用語意味判定装置で、生成された判定ルールを用いて、当該分野の用語について、意味コードを判定することができる。
また、用語意味学習装置と用語意味判定装置とを別々の装置で構成する場合を例に説明したが、これに限定されるものではなく、用語意味学習装置と用語意味判定装置とを一つの装置で構成するようにしてもよい。
10、210、310 入力部
20、220、320 演算部
28 訓練データ集合データベース
30、230 特徴ベクトル生成部
32 判定ルール生成部
40、240 判定ルール
100、300 用語意味学習装置
200 用語意味判定装置
232 意味コード判定部
250 出力部
326 同義語類義語意味コード付与部

Claims (8)

  1. 入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、
    前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成する判定ルール生成部と、
    を含む用語意味学習装置であって、
    前記用語について生成された前記特徴ベクトルが表す部分文字列に含まれる全ての文字を要素とする集合と、前記用語の文字列に含まれる全ての文字を要素とする集合とは一致する、用語意味学習装置
  2. 前記複数の用語の各々は、用語、及び意味コードの対の集合である訓練データとして入力され、
    前記訓練データを構成する各用語は、特定の専門分野において唯一の意味が定義されている用語とし
    前記判定ルール生成部は、前記訓練データにおいて意味コードkが付与された用語を正例、前記意味コードk以外の意味コードが付与された用語を負例として、前記判定ルールを生成する、
    請求項1に記載の用語意味学習装置。
  3. 入力された用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、
    前記特徴ベクトル生成部により生成された前記特徴ベクトルと、あらかじめ学習された、用語の意味コードを判定するための判定ルールとに基づいて、前記入力された用語の意味コードを判定する意味コード判定部と、
    を含む用語意味判定装置であって、
    前記入力された用語について生成された前記特徴ベクトルが表す部分文字列に含まれる全ての文字を要素とする集合と、前記入力された用語の文字列に含まれる全ての文字を要素とする集合とは一致する、用語意味判定装置
  4. 前記判定ルールは、特定の専門分野において唯一の意味が定義されている用語、及び意味コードの対の集合である訓練データを用いて、前記入力された用語の特徴量ベクトルを入力として、前記入力された用語の意味コードを判定するよう、あらかじめ学習されたものとする、
    請求項に記載の用語意味判定装置。
  5. 前記特徴ベクトル生成部は、前記入力された用語の文字の文字種を用いて定義される特徴量を追加した前記特徴ベクトルを生成する請求項3又は請求項4に記載の用語意味判定装置。
  6. 特徴ベクトル生成部が、入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成するステップと、
    判定ルール生成部が、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成するステップと、
    を含む用語意味学習方法であって、
    前記用語について生成された前記特徴ベクトルが表す部分文字列に含まれる全ての文字を要素とする集合と、前記用語の文字列に含まれる全ての文字を要素とする集合とは一致する、用語意味学習方法
  7. コンピュータを、請求項1又は請求項に記載の用語意味学習装置を構成する各部として機能させるためのプログラム。
  8. コンピュータを、請求項3〜5の何れか1項に記載の用語意味判定装置を構成する各部として機能させるためのプログラム。
JP2014248130A 2014-12-08 2014-12-08 用語意味学習装置、用語意味判定装置、方法、及びプログラム Active JP6368633B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248130A JP6368633B2 (ja) 2014-12-08 2014-12-08 用語意味学習装置、用語意味判定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248130A JP6368633B2 (ja) 2014-12-08 2014-12-08 用語意味学習装置、用語意味判定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016110440A JP2016110440A (ja) 2016-06-20
JP6368633B2 true JP6368633B2 (ja) 2018-08-01

Family

ID=56122301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248130A Active JP6368633B2 (ja) 2014-12-08 2014-12-08 用語意味学習装置、用語意味判定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6368633B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7198408B2 (ja) 2017-01-15 2023-01-04 cotobox株式会社 商標情報処理装置及び方法、並びにプログラム
CN112434756A (zh) * 2020-12-15 2021-03-02 杭州依图医疗技术有限公司 医学数据的训练方法、处理方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021139A (ja) * 2006-07-13 2008-01-31 National Institute Of Information & Communication Technology 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
JP2009230270A (ja) * 2008-03-19 2009-10-08 Fuji Xerox Co Ltd データ解析装置及びプログラム
WO2013052555A1 (en) * 2011-10-03 2013-04-11 Kyaw Thu Systems and methods for performing contextual classification using supervised and unsupervised training

Also Published As

Publication number Publication date
JP2016110440A (ja) 2016-06-20

Similar Documents

Publication Publication Date Title
Mukhtar et al. Urdu sentiment analysis using supervised machine learning approach
Yu et al. Learning composition models for phrase embeddings
Bastian et al. Linkedin skills: large-scale topic extraction and inference
JP5356197B2 (ja) 単語意味関係抽出装置
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
Igarashi et al. Tohoku at SemEval-2016 task 6: Feature-based model versus convolutional neural network for stance detection
Bhaskar et al. Enhanced sentiment analysis of informal textual communication in social media by considering objective words and intensifiers
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
Huang et al. Siamese network-based supervised topic modeling
Andrew Automatic extraction of entities and relation from legal documents
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
Chandola et al. Online resume parsing system using text analytics
CN114139537A (zh) 词向量的生成方法及装置
JP6368633B2 (ja) 用語意味学習装置、用語意味判定装置、方法、及びプログラム
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
JP2021501387A (ja) 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
Maisha et al. Supervised machine learning algorithms for sentiment analysis of Bangla newspaper
JP6232358B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
Majumder et al. Event extraction from biomedical text using crf and genetic algorithm
Saha et al. A transformer based multi-task model for domain classification, intent detection and slot-filling
Bouhoun et al. Information Retrieval Using Domain Adapted Language Models: Application to Resume Documents for HR Recruitment Assistance
Umare et al. A survey on machine learning techniques to extract chemical names from text documents
Saias Senti. ue: Tweet overall sentiment classification approach for SemEval-2014 task 9

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R150 Certificate of patent or registration of utility model

Ref document number: 6368633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150