JP2016110440A - Term meaning learning device, term meaning determining device, method, and program - Google Patents

Term meaning learning device, term meaning determining device, method, and program Download PDF

Info

Publication number
JP2016110440A
JP2016110440A JP2014248130A JP2014248130A JP2016110440A JP 2016110440 A JP2016110440 A JP 2016110440A JP 2014248130 A JP2014248130 A JP 2014248130A JP 2014248130 A JP2014248130 A JP 2014248130A JP 2016110440 A JP2016110440 A JP 2016110440A
Authority
JP
Japan
Prior art keywords
term
meaning
feature vector
character string
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014248130A
Other languages
Japanese (ja)
Other versions
JP6368633B2 (en
Inventor
昭典 藤野
Akinori Fujino
昭典 藤野
潤 鈴木
Jun Suzuki
潤 鈴木
努 平尾
Tsutomu Hirao
努 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014248130A priority Critical patent/JP6368633B2/en
Publication of JP2016110440A publication Critical patent/JP2016110440A/en
Application granted granted Critical
Publication of JP6368633B2 publication Critical patent/JP6368633B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To generate a determination rule for determining a meaning code for a term.SOLUTION: A feature-vector generation part 30 generates a feature vector on each of a plurality of technical terms. A determination rule generation part 32 generates a determination rule for determining a meaning code based on the feature vector generated for each of the plurality of technical terms and the meaning code added to each of the plurality of technical terms.SELECTED DRAWING: Figure 1

Description

本発明は、用語意味学習装置、用語意味判定装置、方法、及びプログラムに係り、特に、用語に対する意味コードを判定するための用語意味学習装置、意味判定装置、方法、及びプログラムに関する。   The present invention relates to a term meaning learning device, term meaning determination device, method, and program, and more particularly, to a term meaning learning device, meaning determination device, method, and program for determining a meaning code for a term.

用語には、ひらがな、カタカナ、及び漢字などの異なる文字を用いた表記や、略語や省略などのような表記揺れがある。また、同義語及び類義語などのように同じ意味を表すが異なる表現の用語がある。このような異なる表記又は表現の用語に同じ意味であることを表す意味コードを付与する問題に対しては、非特許文献1に記載されている、用語のペアが同義語であるかどうかを文脈類似度と表記類似度を用いて推定する技術を利用できる。また、非特許文献2に記載されている、「スパゲッティ」と「スパゲッティー」など、一部の表記が異なる編集距離の小さい異表記対を抽出する技術を利用できる。あるいは、非特許文献3に記載されている、実際の文書で一緒に用いられる単語の情報をもとに用語を分類する技術を利用できる。   Terms include notation using different characters such as hiragana, katakana, and kanji, and notation shaking such as abbreviations and abbreviations. Further, there are terms having the same meaning but different expressions such as synonyms and synonyms. For the problem of assigning a meaning code indicating the same meaning to terms of different notation or expression, whether the pair of terms is synonymous or not is described in Non-Patent Document 1. A technique for estimating using the similarity and the notation similarity can be used. Further, a technique described in Non-Patent Document 2, such as “spaghetti” and “spaghetti”, can be used to extract different notation pairs with a small edit distance that are different in some notations. Alternatively, a technique described in Non-Patent Document 3 for classifying terms based on word information used together in an actual document can be used.

森本康嗣, 柳井孝介, 岩山真,「文脈類似度と表記類似度を用いた教師あり同義語抽出」,言語処理学会第16 回年次大会発表論文集, 974−977 (2010).Yasutomo Morimoto, Kosuke Yanai, Makoto Iwayama, “Supervised Synonym Extraction Using Context Similarity and Notation Similarity”, Proc. Of the 16th Annual Conference of the Language Processing Society, 974-977 (2010). 小島正裕, 村田真樹, 風間淳一, 黒田航, 藤田篤, 荒牧英治, 土田正明, 渡辺靖彦, 鳥澤健太郎,「機械学習と種々の素性を用いた編集距離の小さい日本語異表記対の抽出」,言語処理学会第16 回年次大会発表論文集, 928−931 (2010).Masahiro Kojima, Masaki Murata, Junichi Kazama, Ko Kuroda, Atsushi Fujita, Eiji Aramaki, Masaaki Tsuchida, Toshihiko Watanabe, Kentaro Torizawa, “Extracting Japanese Annotated Pairs with Small Editing Distance Using Machine Learning”, Proc. Of the 16th Annual Conference of the Language Processing Society, 928-931 (2010). 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦,「医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究」, 医療情報学, Vol.25, No.6,pp.463-474, 2006.Eiji Aramaki, Ken Imai, Masayuki Kanno, Kengo Miyo, Kazuhiko Oe, “Research on automatic terminology and terminology classification using medical dictionary”, Medical Informatics, Vol.25, No.6 , pp.463-474, 2006.

本発明が解決しようとする課題は、事前に人手で定義されている意味コードを専門用語に付与する問題において、非常に多数の意味コードの候補の中から、各用語に最も適した意味コードを1つ選択することである。   The problem to be solved by the present invention is that, in the problem of assigning a pre-defined semantic code to a technical term, the most suitable semantic code for each term is selected from a large number of semantic code candidates. It is to select one.

一般の単語と異なり、正確に内容を伝達するために、大部分の専門用語には専門分野ごとにそれぞれ唯一の意味が定義されている、と考えられる。したがって、専門分野が既知の文書に含まれる専門用語に意味コードを付与する問題は、専門用語に唯一の意味が定義されているという仮定のもとで、同じ意味をもつが異なる表記又は表現で書かれた用語に同じ意味コードを付与することに相当する。   Unlike general words, in order to accurately convey the contents, most technical terms are considered to have a unique meaning for each specialized field. Therefore, the problem of assigning a semantic code to a terminology contained in a document with a known technical field is the same meaning but different notation or expression under the assumption that the terminology has a unique meaning. This is equivalent to giving the same meaning code to the written term.

従来の技術では、非特許文献1、及び非特許文献2に記載のように、2つの用語が同じ意味をもつかどうかを推定するか、非特許文献3のように、クラスタリング技術を利用して用語の集合を類似の意味をもつ用語に分けることが行われている。本発明が解決しようとする課題に非特許文献1、及び非特許文献2の技術を適用する場合、例えば、意味コードごとに用語例を1つ選択し、意味コードを付与したい用語がどの用語例に近いかを該当技術で調べることで意味コードを推定できる。   In the conventional technique, as described in Non-Patent Document 1 and Non-Patent Document 2, it is estimated whether two terms have the same meaning, or as in Non-Patent Document 3, using a clustering technique Dividing a set of terms into terms with similar meanings. When applying the techniques of Non-Patent Document 1 and Non-Patent Document 2 to the problem to be solved by the present invention, for example, one term example is selected for each semantic code, and the term example to which the semantic code is to be assigned Semantic codes can be estimated by examining whether they are close to

しかし、この方法では、用語例の選択の仕方に意味コードの推定精度が大きく影響される可能性がある。一方、本発明が解決しようとする課題に非特許文献3の技術を用いる場合、クラスタリング技術で機械的に分類された用語の集合と、人手で定義された意味コードとを一対一に対応付けることは容易ではない。専門用語に対して付与すべき意味コードを推定する問題に対して、高い推定精度を達成する手法を開発することが課題である。   However, in this method, there is a possibility that the estimation accuracy of the semantic code is greatly influenced by the way of selecting the term examples. On the other hand, when the technique of Non-Patent Document 3 is used for the problem to be solved by the present invention, a set of terms mechanically classified by the clustering technique and a semantic code defined manually are assigned one-to-one. It's not easy. The problem is to develop a technique for achieving high estimation accuracy for the problem of estimating the semantic code to be assigned to the technical term.

本発明は、上記問題点を解決するために成されたものであり、精度よく用語の意味コードを判定するための用語意味学習装置、用語意味判定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and an object of the present invention is to provide a term meaning learning device, term meaning determination device, method, and program for accurately determining the meaning code of a term. And

上記目的を達成するために、第1の発明に係る用語意味学習装置は、入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成する判定ルール生成部と、を含んで構成されている。   In order to achieve the above object, the term meaning learning device according to the first aspect of the present invention provides a partial character included in a character string of the term for each of a plurality of terms that have been given a meaning code for the term in advance. A feature vector generation unit that generates a feature vector indicating the presence or number of each partial character string from the column, the feature vector generated for each of the plurality of terms by the feature vector generation unit, and a plurality of terms And a determination rule generation unit that generates a determination rule for determining the meaning code of the term based on the meaning code assigned to each.

また、第1の発明に係る用語意味学習装置において、前記用語を、特定の専門分野において唯一の意味が定義されている専門用語としてもよい。   In the term meaning learning device according to the first invention, the term may be a technical term having a unique meaning defined in a specific technical field.

また、第1の発明に係る用語意味学習装置において、前記特徴ベクトル生成部は、前記複数の用語の各々について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数とを表す前記特徴ベクトルを生成してもよい。   Further, in the term meaning learning device according to the first invention, the feature vector generation unit, for each of the plurality of terms, from a character included in the term and a partial character string included in the character string of the term, The feature vector representing the presence or number of each character and the presence or number of each partial character string may be generated.

また、第1の発明に係る用語意味学習装置において、前記特徴ベクトル生成部は、前記複数の用語の各々について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数と、前記用語に含まれる各文字の文字種とを表す前記特徴ベクトルを生成してもよい。更に、前記用語にふうまれる各部分文字列の文字種を更に表す前記特徴ベクトルを生成してもよい。   Further, in the term meaning learning device according to the first invention, the feature vector generation unit, for each of the plurality of terms, from a character included in the term and a partial character string included in the character string of the term, The feature vector that represents the presence or number of each character, the presence or number of each partial character string, and the character type of each character included in the term may be generated. Further, the feature vector that further represents the character type of each partial character string used in the term may be generated.

また、第1の発明に係る用語意味学習装置において、入力された、用語の意味コードが予め付与された複数の用語と、同義語又は類義語が格納されている辞書とに基づいて、前記意味コードが予め付与されている用語の同義語又は類似語となる用語に、前記意味コードを付与する同義語類義語意味コード付与部を更に含み、前記特徴ベクトル生成部は、前記用語の意味コードが予め付与された複数の用語、及び同義語類義語意味コード付与部によって意味コードが付与された前記同義語又は類似語となる用語の各々について、前記特徴ベクトルを生成するように構成してもよい。   Further, in the term meaning learning device according to the first invention, the meaning code is based on a plurality of terms that are input with a meaning code of the term in advance and a dictionary in which synonyms or synonyms are stored. Further includes a synonym synonym meaning code assigning unit for assigning the meaning code to a term that is a synonym or similar to a term that has been assigned in advance, and the feature vector generation unit is preassigned the meaning code of the term The feature vector may be generated for each of the plurality of terms and the terms that are synonyms or similar terms to which the meaning code is assigned by the synonym synonym meaning code assignment unit.

また、上記判定ルール生成部は、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、前記意味コード毎に、用語に前記意味コードを付与するか否かを識別するための2値分類器を、前記判定ルールとして生成するようにしてもよい。   Further, the determination rule generation unit is configured to generate the semantic code based on the feature vector generated for each of the plurality of terms by the feature vector generation unit and the meaning code assigned to each of the plurality of terms. Each time, a binary classifier for identifying whether or not the meaning code is given to a term may be generated as the determination rule.

第2の発明に係る用語意味判定装置は、入力された用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトル生成部により生成された前記特徴ベクトルと、あらかじめ学習された、用語の意味コードを判定するための判定ルールとに基づいて、前記用語の意味コードを判定する意味コード判定部と、を含んで構成されている。   A term meaning determination device according to a second invention includes a feature vector generation unit that generates a feature vector representing the presence or the number of each partial character string from a partial character string included in a character string of an input term; A semantic code determination unit that determines a semantic code of the term based on the feature vector generated by the vector generation unit and a determination rule for determining the semantic code of the term that has been learned in advance. It is configured.

また、第2の発明に係る用語意味判定装置において、前記用語を、特定の専門分野において唯一の意味が定義されている専門用語としてもよい。   In the term meaning determination device according to the second invention, the term may be a technical term having a unique meaning defined in a specific technical field.

また、第2の発明に係る用語意味判定装置において、前記特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数とを表す前記特徴ベクトルを生成してもよい。   Further, in the term meaning determination device according to the second invention, the feature vector generation unit includes, for the term, presence / absence of each character from a character included in the term and a partial character string included in the character string of the term. Alternatively, the feature vector representing the number and the presence / absence or number of each partial character string may be generated.

第1の発明に係る用語意味学習方法は、特徴ベクトル生成部が、入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成するステップと、判定ルール生成部が、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成するステップと、を含んで実行することを特徴とする。   In the term meaning learning method according to the first invention, the feature vector generation unit inputs, from each of a plurality of terms to which a term meaning code is assigned in advance, from a partial character string included in the term character string. A step of generating a feature vector representing the presence or number of each partial character string, and the determination rule generating unit generating the feature vector for each of the plurality of terms by the feature vector generating unit, and the plurality of terms Generating a determination rule for determining the meaning code of the term based on the meaning code assigned to each of the above.

第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る用語意味学習装置、又は上記第2の発明に係る用語意味判定装置を構成する各部として機能させるためのプログラムである。   A program according to a third invention is a program for causing a computer to function as each component constituting the term meaning learning device according to the first invention or the term meaning judging device according to the second invention.

本発明の用語意味学習装置、用語意味判定装置、方法、及びプログラムによれば、複数の用語の各々について、用語に含まれる文字又は部分文字列から、特徴ベクトルを生成し、複数の用語の各々について生成された特徴ベクトルと、複数の用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく用語の意味コードを判定するための判定ルールを学習することができる、という効果が得られる。   According to the term meaning learning device, term meaning determination device, method, and program of the present invention, for each of a plurality of terms, a feature vector is generated from a character or a partial character string included in the term, and each of the plurality of terms By generating a determination rule for determining a semantic code based on the feature vector generated for and a semantic code assigned to each of a plurality of terms, it is possible to accurately determine the semantic code of a term The effect that the determination rule can be learned is obtained.

また、用語意味判定装置、方法、及びプログラムによれば、用語に含まれる文字又は部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく用語の意味コードを判定することができる、という効果が得られる。   In addition, according to the term meaning determination device, method, and program, a feature vector is generated from a character or a partial character string included in the term, and based on the generated feature vector and a previously learned determination rule, By determining the meaning code of the term, the effect that the meaning code of the term can be determined with high accuracy is obtained.

本発明の第1〜第3の実施の形態に係る用語意味学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the term meaning learning apparatus which concerns on the 1st-3rd embodiment of this invention. 専門用語に含まれる部分文字列に対応する特徴量のインデックスを示す概念図である。It is a conceptual diagram which shows the index of the feature-value corresponding to the partial character string contained in a technical term. 本発明の実施の形態に係る用語意味判定装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the term meaning determination apparatus which concerns on embodiment of this invention. 本発明の第1〜第3の実施の形態に係る用語意味学習装置における用語意味学習処理ルーチンのフローチャート図である。It is a flowchart figure of the term meaning learning process routine in the term meaning learning apparatus which concerns on the 1st-3rd embodiment of this invention. 本発明の実施の形態に係る用語意味判定装置における用語意味判定処理ルーチンのフローチャート図である。It is a flowchart figure of the term meaning determination processing routine in the term meaning determination apparatus which concerns on embodiment of this invention. 専門用語に含まれる文字と、部分文字列とに対応する特徴量のインデックスを示す概念図である。It is a conceptual diagram which shows the index of the feature-value corresponding to the character contained in a technical term, and a partial character string. 専門用語に含まれる文字と、部分文字列と、各文字の文字種とに対応する特徴量のインデックスを示す概念図である。It is a conceptual diagram which shows the index of the feature-value corresponding to the character contained in a technical term, the partial character string, and the character type of each character. 本発明の第4の実施の形態に係る用語意味学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the term meaning learning apparatus which concerns on the 4th Embodiment of this invention. 本発明の第4の実施の形態に係る用語意味学習装置における用語意味学習処理ルーチンのフローチャート図である。It is a flowchart figure of the term meaning learning process routine in the term meaning learning apparatus which concerns on the 4th Embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の第1の実施の形態に係る用語意味学習装置の構成> <Configuration of the term meaning learning device according to the first embodiment of the present invention>

まず、本発明の第1の実施の形態に係る用語意味学習装置の構成について説明する。   First, the configuration of the term meaning learning device according to the first embodiment of the present invention will be described.

図1に示すように、本発明の第1の実施の形態に係る用語意味学習装置100は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。   As shown in FIG. 1, the term meaning learning device 100 according to the first embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning learning processing routine described later, and various data. It can be composed of a computer including a ROM. Functionally, the term meaning learning device 100 includes an input unit 10 and a calculation unit 20 as shown in FIG.

入力部10は、専門用語の意味コードが予め付与された複数の専門用語を訓練データ集合として受け付け、訓練データ集合データベース28に格納する。入力される、意味コードが予め付与された複数の専門用語は、意味コードを定義するのに用いられている専門用語、人手で意味コードを付与した実際の文書から抽出した専門用語、及び同義語及び類義語の関係が記載されている任意の辞書から抽出した専門用語を用いて構成される。任意の辞書に含まれている専門用語には、通常、意味コードが付与されていないので、辞書から抽出する際に、意味コードを定義するのに用いられている専門用語と、辞書に記載の同義語及び類義語の関係と、を利用して意味コードを付与する。例えば、意味コードを定義するのに用いられている専門用語と同義語及び類義語の関係にある専門用語に対して同一の意味コードを付与すればよい。   The input unit 10 receives, as a training data set, a plurality of technical terms to which a semantic code of technical terms has been assigned in advance, and stores it in the training data set database 28. A plurality of technical terms with semantic codes assigned in advance are technical terms used to define the semantic codes, technical terms extracted from actual documents with manual semantic codes, and synonyms And technical terms extracted from an arbitrary dictionary in which synonym relationships are described. The terminology included in any dictionary is usually not given a semantic code, so when extracting from the dictionary, the terminology used to define the semantic code and A semantic code is assigned using the relationship between synonyms and synonyms. For example, the same semantic code may be given to technical terms that are synonyms and synonyms with the technical terms used to define the semantic codes.

演算部20は、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。   The calculation unit 20 includes a training data set database 28, a feature vector generation unit 30, a determination rule generation unit 32, and a determination rule 40.

特徴ベクトル生成部30は、訓練データ集合データベース28に格納されている複数の専門用語の各々について、当該専門用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す特徴ベクトルを生成する。なお、各部分文字列の有無を表す特徴ベクトルを生成してもよい。   For each of the plurality of technical terms stored in the training data set database 28, the feature vector generation unit 30 calculates a feature vector representing the number of each partial character string from the partial character strings included in the character string of the technical term. Generate. Note that a feature vector representing the presence or absence of each partial character string may be generated.

特徴ベクトル生成部30では、専門用語を構成する部分文字列、例えば、文字ベースのbi−gram、又はtri−gramなどを特徴量とし、専門用語に含まれる各特徴量の個数を表す特徴ベクトルを生成する。例えば、図2に示すような、「ピロリ菌」という専門用語の文字列に含まれる部分文字列に対応する特徴量のインデックスを仮定する。このとき、専門用語「ピロリ菌」は、i∈{b,b,b,b,b,t,t,t,t}のときにx=1、iが、「ピロリ菌」に含まれない部分文字列の特徴量のときにx=0の要素からなる特徴ベクトル^x=(x,...,x,...,x)で表すことができる。なお、ベクトルを表す記号には、記号の前に「^」を付して表現する。また、図2において、「_」が記号の先頭に付いているものは専門用語の文字列の先端を表し、記号の末尾に付いているものは専門用語の文字列の終端を表す。また、例えば、ひらがな、カタカナ、又はアルファベットなど、専門用語に含まれる文字の文字種を用いて定義される特徴量を追加で用いてもよい。 The feature vector generation unit 30 uses a partial character string constituting a technical term, for example, a character-based bi-gram, tri-gram, or the like as a feature amount, and a feature vector representing the number of each feature amount included in the technical term. Generate. For example, as shown in FIG. 2, an index of feature amounts corresponding to a partial character string included in a character string of the technical term “H. pylori” is assumed. At this time, the technical term “H. pylori” means that x i = 1, i when i∈ {b 1 , b 2 , b 3 , b 4 , b 5 , t 1 , t 2 , t 3 , t 4 }. Is a feature value of a partial character string not included in “H. pylori”, a feature vector ^ x = (x 1 ,..., X i ,..., X I ) composed of elements with x i = 0. Can be expressed as A symbol representing a vector is represented by adding “^” before the symbol. In FIG. 2, “_” attached to the beginning of a symbol represents the leading end of the technical term character string, and “_” attached to the end of the symbol represents the end of the technical term character string. Further, for example, a feature amount defined using a character type of a character included in a technical term such as hiragana, katakana, or alphabet may be additionally used.

判定ルール生成部32は、特徴ベクトル生成部30により複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成する。   The determination rule generation unit 32 determines the meaning code of the term based on the feature vector generated for each of the plurality of technical terms by the feature vector generation unit 30 and the semantic code assigned to each of the plurality of technical terms. A determination rule is generated for

判定ルール生成部32は、具体的には、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、例えば、サポートベクトルマシン(SVM)、あるいはロジスティック回帰モデルのような2値分類器を利用して、意味コードk毎に、スコア関数のパラメータ^wの値を推定することにより、判定ルールを機械的に生成し、判定ルール40として記憶する。本実施の形態では、意味コードkのスコア関数のパラメータ^wに対して、意味コードkが付与された専門用語を正例、k以外の意味コードが付与された専門用語を負例として、2値分類器の目的関数を最大化させるパラメータ^wを計算する。 Specifically, the determination rule generation unit 32 performs, for example, a support vector machine (SVM) based on the feature vector generated for each of the plurality of technical terms and the semantic code assigned to each of the plurality of technical terms. ), Or by using a binary classifier such as a logistic regression model to estimate the value of the score function parameter ^ w k for each semantic code k, thereby generating a determination rule mechanically. Store as 40. In the present embodiment, a technical term to which a semantic code k is assigned as a positive example and a technical term to which a semantic code other than k is assigned as a negative example with respect to the score function parameter ^ w k of the semantic code k, Compute a parameter {circumflex over (w) } k that maximizes the objective function of the binary classifier.

<本発明の第1の実施の形態に係る用語意味判定装置の構成> <Configuration of Term Meaning Determination Device According to First Embodiment of the Present Invention>

次に、本発明の第1の実施の形態に係る用語意味判定装置の構成について説明する。図3に示すように、本発明の第1の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。   Next, the configuration of the term meaning determination device according to the first embodiment of the present invention will be described. As shown in FIG. 3, the term meaning determination device 200 according to the first embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning determination processing routine described later, and various data. It can be composed of a computer including a ROM. Functionally, the term meaning determination apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

入力部210は、用語の入力を受け付ける。   The input unit 210 accepts input of terms.

演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。   The calculation unit 220 includes a feature vector generation unit 230, a semantic code determination unit 232, and a determination rule 240.

判定ルール240には、判定ルール40と同じ判定ルールが記憶されている。   The determination rule 240 stores the same determination rule as the determination rule 40.

特徴ベクトル生成部230は、入力部210で受け付けた用語の文字列に含まれる部分文字列から、特徴ベクトル生成部30と同様に、各部分文字列の個数を表す特徴ベクトルを生成する。なお、各部分文字列の有無を表す特徴ベクトルを生成してもよい。   Similar to the feature vector generation unit 30, the feature vector generation unit 230 generates a feature vector representing the number of each partial character string from the partial character string included in the term character string received by the input unit 210. Note that a feature vector representing the presence or absence of each partial character string may be generated.

意味コード判定部232は、特徴ベクトル生成部230により生成された特徴ベクトルと、判定ルール240とに基づいて、入力部210で受け付けた用語の意味コードを判定する。   The semantic code determination unit 232 determines the semantic code of the term accepted by the input unit 210 based on the feature vector generated by the feature vector generation unit 230 and the determination rule 240.

意味コード判定部232は、具体的には、特徴ベクトル生成部230で生成した特徴ベクトル^xと、判定ルール240とを用いて、意味コードk毎に、判定ルール240のスコア関数のパラメータ^wの値に従って、特徴ベクトル^xで表される用語が意味コードkに関連する度合いを表すスコア関数f(^x;^w) を計算する。そして、スコア関数f(^x;^w)の値が最大になる意味コードkを、当該用語に適した意味コードとして選択することで、当該用語の意味コードを判定し、出力部250により出力する。このように予め機械的に学習しておいた判定ルール240を用いて用語の意味コードを判定することで、事前に定義されている意味コードの中から最も適した意味コードを1つ選択することができる。 Specifically, the semantic code determination unit 232 uses the feature vector ^ x generated by the feature vector generation unit 230 and the determination rule 240 to use the score function parameter ^ w of the determination rule 240 for each semantic code k. according to the value of k, the score function f k representing the degree to which the term represented by the feature vector ^ x associated with the meaning code k; calculating the (^ x ^ w k). Then, by selecting the semantic code k that maximizes the value of the score function f k (^ x m ; ^ w k ) as the semantic code suitable for the term, the semantic code of the term is determined, and the output unit It outputs by 250. By selecting the meaning code of the term using the determination rule 240 that has been mechanically learned in advance as described above, one of the most suitable meaning codes is selected from the predefined meaning codes. Can do.

<本発明の第1の実施の形態に係る用語意味学習装置の作用> <Operation of the term meaning learning device according to the first embodiment of the present invention>

次に、本発明の第1の実施の形態に係る用語意味学習装置100の作用について説明する。入力部10において、専門用語の意味コードが予め付与された複数の専門用語を訓練データ集合として受け付け、訓練データ集合データベース28に格納すると、用語意味学習装置100は、図4に示す用語意味学習処理ルーチンを実行する。   Next, the operation of the term meaning learning device 100 according to the first embodiment of the present invention will be described. When the input unit 10 accepts a plurality of technical terms to which the meaning codes of technical terms are assigned in advance as a training data set and stores them in the training data set database 28, the term meaning learning device 100 performs the term meaning learning process shown in FIG. 4. Run the routine.

まず、ステップS100では、訓練データ集合データベース28に格納されている複数の専門用語の各々を取得する。   First, in step S100, each of a plurality of technical terms stored in the training data set database 28 is acquired.

次に、ステップS102では、ステップS100で取得した複数の専門用語の各々について、当該専門用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す特徴ベクトルを生成する。   Next, in step S102, for each of the plurality of technical terms acquired in step S100, a feature vector representing the number of each partial character string is generated from the partial character strings included in the technical term character string.

ステップS104では、ステップS102で複数の専門用語の各々について生成された特徴ベクトルと、ステップS100で取得した複数の専門用語の各々に付与された意味コードとに基づいて、意味コードk毎に、スコア関数のパラメータ^wの値を推定することにより、判定ルールを生成し、判定ルール40に記憶して、処理を終了する。 In step S104, a score is obtained for each semantic code k based on the feature vector generated for each of the plurality of technical terms in step S102 and the semantic code assigned to each of the plurality of technical terms acquired in step S100. By estimating the value of the function parameter ^ w k , a determination rule is generated, stored in the determination rule 40, and the process ends.

以上説明したように、第1の実施の形態に係る用語意味学習装置によれば、複数の専門用語の各々について、用語に含まれる部分文字列から、特徴ベクトルを生成し、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく専門用語の意味コードを判定するための判定ルールを学習することができる。   As described above, according to the term meaning learning device according to the first embodiment, for each of a plurality of technical terms, a feature vector is generated from a partial character string included in the term, and a plurality of technical terms Based on the feature vectors generated for each and the semantic codes assigned to each of the multiple technical terms, the semantic codes of the technical terms are determined with high accuracy by generating judgment rules for determining the semantic codes. It is possible to learn a determination rule for

<本発明の第1の実施の形態に係る用語意味判定装置の作用> <Operation of Term Meaning Determination Device According to First Embodiment of the Present Invention>

次に、本発明の第1の実施の形態に係る用語意味判定装置200の作用について説明する。入力部210において用語を受け付けると、用語意味判定装置200は、図5に示す用語意味判定処理ルーチンを実行する。   Next, the operation of the term meaning determination device 200 according to the first embodiment of the present invention will be described. When the input unit 210 accepts a term, the term meaning determination device 200 executes a term meaning determination processing routine shown in FIG.

まず、ステップS200では、入力部10において受け付けた用語を取得する。   First, in step S200, the terms accepted by the input unit 10 are acquired.

次に、ステップS202では、ステップS200で取得した用語について、当該専門用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す特徴ベクトルを生成する。   Next, in step S202, for the term acquired in step S200, a feature vector representing the number of each partial character string is generated from the partial character string included in the character string of the technical term.

ステップS204では、ステップS202で生成された特徴ベクトルと、判定ルール240とに基づいて、意味コードk毎に、判定ルール240のスコア関数のパラメータ^wの値に従って、スコア関数f(^x;^w^) を計算し、計算の結果、スコア関数f(^x;^w)の値が最大になる意味コードkを、ステップS200で取得した用語に適した意味コードとして選択することで、ステップS200で取得した用語の意味コードを判定する。 In step S204, on the basis of the feature vector generated in step S202 and the determination rule 240, the score function f k (^ x) for each semantic code k according to the value of the parameter ^ w k of the score function of the determination rule 240. ; ^ w ^ k) is calculated and the result of the calculation, the score function f k (^ x m; the meaning code k to the value of ^ w k) is maximum, as a means code suitable for the terminology which has been acquired in step S200 By selecting, the meaning code of the term acquired in step S200 is determined.

ステップS206では、ステップS204による判定で得られた用語の意味コードを出力部250により出力し、処理を終了する。   In step S206, the meaning code of the term obtained by the determination in step S204 is output by the output unit 250, and the process ends.

以上説明したように、第1の実施の形態に係る用語意味判定装置によれば、用語に含まれる部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。   As described above, according to the term meaning determination device according to the first embodiment, a feature vector is generated from a partial character string included in a term, the generated feature vector, and a determination rule learned in advance. By determining the meaning code of the term based on the above, the meaning code of the technical term can be determined with high accuracy.

<本発明の第2の実施の形態に係る用語意味学習装置の構成> <Configuration of Term Meaning Learning Device According to Second Embodiment of the Present Invention>

次に、本発明の第2の実施の形態に係る用語意味学習装置の構成について説明する。なお、第1の実施の形態の用語意味学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the term meaning learning device according to the second embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the term meaning learning apparatus 100 of 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図1に示すように、本発明の第2の実施の形態に係る用語意味学習装置100は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。   As shown in FIG. 1, the term meaning learning device 100 according to the second embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning learning processing routine described later, and various data. And a computer including a ROM. Functionally, the term meaning learning device 100 includes an input unit 10 and a calculation unit 20 as shown in FIG.

第2の実施の形態に係る入力部10は、第1の実施の形態と同様に、専門用語の意味コードが予め付与された複数の専門用語を、訓練データ集合として受け付け、訓練データ集合データベース28に格納する。   Similar to the first embodiment, the input unit 10 according to the second embodiment accepts a plurality of technical terms to which a semantic code of technical terms is assigned in advance as a training data set, and the training data set database 28. To store.

第2の実施の形態に係る演算部20は、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。   The computing unit 20 according to the second embodiment includes a training data set database 28, a feature vector generation unit 30, a determination rule generation unit 32, and a determination rule 40.

第2の実施の形態に係る特徴ベクトル生成部30は、入力部10で受け付けた複数の専門用語の各々について、当該専門用語に含まれる文字、及び当該専門用語の文字列に含まれる部分文字列から、各文字の個数と、各部分文字列の個数とを表す特徴ベクトルを生成する。なお、文字の有無、及び各部分文字列の有無を表す特徴ベクトルを生成してもよい。   The feature vector generation unit 30 according to the second embodiment includes, for each of a plurality of technical terms received by the input unit 10, a character included in the technical term and a partial character string included in the character string of the technical term Then, a feature vector representing the number of characters and the number of partial character strings is generated. Note that feature vectors representing the presence or absence of characters and the presence or absence of each partial character string may be generated.

第2の実施の形態に係る特徴ベクトル生成部30では、専門用語を構成する文字、例えば、文字ベースのuni−gramと、専門用語を構成する部分文字列、例えば、bi−gram又はtri−gramなどを、特徴量とし、用語に含まれる各特徴量の個数を表す特徴ベクトルを生成する。例えば、図6に示すような、「ピロリ菌」という専門用語に含まれる文字と、専門用語の文字列に含まれる部分文字列との特徴量のインデックスを仮定する。このとき、専門用語「ピロリ菌」は、i∈{u,u,u,u,b,b,b,b,b,t,t,t,t}のときにx=1、iが、「ピロリ菌」に含まれない文字、又は部分文字列の特徴量のときにx=0の要素からなる特徴ベクトル^x=(x,...,x,...,x)で表すことができる。 In the feature vector generation unit 30 according to the second embodiment, characters constituting technical terms such as character-based uni-grams and partial character strings constituting technical terms such as bi-grams or tri-grams. Are used as feature quantities, and feature vectors representing the number of feature quantities included in the term are generated. For example, as shown in FIG. 6, assume an index of feature amounts of characters included in the technical term “H. pylori” and partial character strings included in the technical term character string. At this time, the technical term “H. pylori” is i∈ {u 1 , u 2 , u 3 , u 4 , b 1 , b 2 , b 3 , b 4 , b 5 , t 1 , t 2 , t 3 , x i = 1, i at t 4} is a character not included in the "H. pylori", or substring of features of elements of x i = 0 when the feature vector ^ x = (x 1 , ..., x i , ..., x I ).

なお、第2の実施の形態に係る用語意味学習装置の他の構成及び作用は、第1の実施の形態の用語意味学習装置100と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the term meaning learning apparatus which concern on 2nd Embodiment are the same as that of the term meaning learning apparatus 100 of 1st Embodiment, detailed description is abbreviate | omitted.

<本発明の第2の実施の形態に係る用語意味判定装置の構成> <Configuration of Term Meaning Determination Device According to Second Embodiment of the Present Invention>

次に、本発明の第2の実施の形態に係る用語意味判定装置の構成について説明する。なお、第1の実施の形態の用語意味判定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the term meaning determination device according to the second embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the term meaning determination apparatus 200 of 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図3に示すように、本発明の第2の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。   As shown in FIG. 3, the term meaning determination apparatus 200 according to the second embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning determination processing routine described later, and various data. And a computer including a ROM. Functionally, the term meaning determination apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

第2の実施の形態に係る演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。   The calculation unit 220 according to the second embodiment includes a feature vector generation unit 230, a semantic code determination unit 232, and a determination rule 240.

第2の実施の形態に係る特徴ベクトル生成部230は、入力部210で受け付けた用語の文字列に含まれる文字及び部分文字列から、第1の実施の形態に係る特徴ベクトル生成部30と同様に、各文字の個数及び各部分文字列の個数を表す特徴ベクトルを生成する。なお、各文字の有無及び各部分文字列の有無を表す特徴ベクトルを生成してもよい。   The feature vector generation unit 230 according to the second embodiment is similar to the feature vector generation unit 30 according to the first embodiment from characters and partial character strings included in the character string of terms accepted by the input unit 210. In addition, a feature vector representing the number of characters and the number of partial character strings is generated. Note that feature vectors representing the presence or absence of each character and the presence or absence of each partial character string may be generated.

なお、第2の実施の形態に係る用語意味判定装置の他の構成及び作用は、第1の実施の形態の用語意味判定装置200と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the term meaning determination apparatus based on 2nd Embodiment are the same as that of the term meaning determination apparatus 200 of 1st Embodiment, detailed description is abbreviate | omitted.

以上説明したように、第2の実施の形態に係る用語意味学習装置によれば、複数の専門用語の各々について、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく専門用語の意味コードを判定することができる。   As described above, according to the term meaning learning device according to the second embodiment, for each of a plurality of technical terms, a feature vector is generated from a character and a partial character string included in the term, and a plurality of specialized terms is obtained. Semantic codes of technical terms with high accuracy by generating judgment rules for judging semantic codes based on the feature vectors generated for each term and the semantic codes assigned to each of a plurality of technical terms Can be determined.

また、第2の実施の形態に係る用語意味判定装置によれば、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。   Further, according to the term meaning determination device according to the second embodiment, a feature vector is generated from characters and partial character strings included in the term, and the generated feature vector and a previously learned determination rule are used. Based on the determination of the meaning code of the term, the meaning code of the technical term can be determined with high accuracy.

<本発明の第3の実施の形態に係る用語意味学習装置の構成> <Configuration of Term Meaning Learning Device According to Third Embodiment of the Present Invention>

次に、本発明の第3の実施の形態に係る用語意味学習装置の構成について説明する。なお、第2の実施の形態の用語意味学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the term meaning learning device according to the third embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the term meaning learning apparatus 100 of 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図1に示すように、本発明の第3の実施の形態に係る用語意味学習装置100は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。   As shown in FIG. 1, the term meaning learning device 100 according to the third embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning learning processing routine described later, and various data. And a computer including a ROM. Functionally, the term meaning learning device 100 includes an input unit 10 and a calculation unit 20 as shown in FIG.

第3の実施の形態に係る演算部220は、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。   The calculation unit 220 according to the third embodiment includes a training data set database 28, a feature vector generation unit 30, a determination rule generation unit 32, and a determination rule 40.

第3の実施の形態に係る特徴ベクトル生成部30は、入力部10で受け付けた複数の専門用語の各々について、当該専門用語に含まれる文字、及び当該専門用語の文字列に含まれる部分文字列から、各文字の個数と、各部分文字列の個数と、当該専門用語に含まれる各文字の文字種とを表す特徴ベクトルを生成する。なお、各文字の有無及び各部分文字列の有無を表す特徴ベクトルを生成してもよい。   The feature vector generation unit 30 according to the third exemplary embodiment includes a character included in the technical term and a partial character string included in the technical term for each of the plurality of technical terms received by the input unit 10. Then, a feature vector representing the number of characters, the number of partial character strings, and the character type of each character included in the technical term is generated. Note that feature vectors representing the presence or absence of each character and the presence or absence of each partial character string may be generated.

第3の実施の形態に係る特徴ベクトル生成部30では、専門用語を構成する文字、例えば、文字ベースのuni−gramと、専門用語を構成する部分文字列、例えば、bi−gram又はtri−gramなどを特徴量とした用語に含まれる各特徴量の個数と、専門用語を構成する各文字の文字種、例えば、ひらがな、カタカナ、又はアルファベットなどを特徴量とした用語に含まれる各特徴量の個数とを組み合わせた特徴ベクトルを生成する。例えば、図7に示すような、「頚部リンパ節腫脹」という専門用語に含まれる文字、及び専門用語の文字に含まれる部分文字列の特徴量と、専門用語に含まれる各文字の文字種の特徴量とを組み合わせたインデックスを仮定する。ここで、cは専門用語に含まれるt番目の文字を表し、sは専門用語に含まれるt番目の文字の文字種を表す。「頚部リンパ節腫脹」であれば、cについては、c=頚、c=部、c=リ、・・・と表すことができ、sについては、s=s=“CJK unified Ideographs(漢字)”、s=“Katakana(カタカナ)”、等と表すことができる。なお、文字種のN−gramを特徴量として、用語に含まれる各特徴量の個数を表す特徴ベクトルを生成してもよい。 In the feature vector generation unit 30 according to the third embodiment, characters that constitute technical terms, for example, character-based uni-grams, and partial character strings that constitute technical terms, for example, bi-grams or tri-grams. The number of each feature amount included in a term that has a feature amount, etc., and the number of each feature amount included in a term that has the character type of each character that constitutes a technical term, for example, hiragana, katakana, or alphabet To generate a feature vector. For example, as shown in FIG. 7, the character included in the technical term “cervical lymphadenopathy” and the feature amount of the partial character string included in the technical term character and the character type of each character included in the technical term Assume an index combined with quantity. Here, c t represents a t-th character in the jargon, s t represents a character type t-th character in the terminology. If it is "cervical lymph node enlargement", for the c t, c 1 = neck, c 2 = Department, c 3 = can be expressed Li, and..., For s t is, s 1 = s 2 = It can be expressed as “CJK unified Ideographs”, s 3 = “Katakana”. Note that a feature vector representing the number of each feature quantity included in the term may be generated using the N-gram of the character type as the feature quantity.

なお、第3の実施の形態に係る用語意味判定装置の他の構成及び作用は、第2の実施の形態の用語意味学習装置100と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the term meaning determination apparatus which concerns on 3rd Embodiment are the same as that of the term meaning learning apparatus 100 of 2nd Embodiment, detailed description is abbreviate | omitted.

<本発明の第3の実施の形態に係る用語意味判定装置の構成> <Configuration of Term Meaning Determination Device According to Third Embodiment of the Present Invention>

次に、本発明の第3の実施の形態に係る用語意味判定装置の構成について説明する。なお、第2の実施の形態の用語意味判定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the term meaning determination device according to the third embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the term meaning determination apparatus 200 of 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図3に示すように、本発明の第3の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。   As shown in FIG. 3, the term meaning determination device 200 according to the third embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning determination processing routine described later, and various data. And a computer including a ROM. Functionally, the term meaning determination apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

第3の実施の形態に係る演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。   The calculation unit 220 according to the third embodiment includes a feature vector generation unit 230, a semantic code determination unit 232, and a determination rule 240.

なお、第3の実施の形態に係る用語意味判定装置の他の構成及び作用は、第2の実施の形態の用語意味判定装置200と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the term meaning determination apparatus which concerns on 3rd Embodiment are the same as that of the term meaning determination apparatus 200 of 2nd Embodiment, detailed description is abbreviate | omitted.

以上説明したように、第3の実施の形態に係る用語意味学習装置によれば、複数の専門用語の各々について、用語に含まれる文字及び部分文字列、並びに文字の文字種から、特徴ベクトルを生成し、複数の専門用語の各々について生成された特徴ベクトルと、複数の専門用語の各々に付与された意味コードとに基づいて、意味コードを判定するための判定ルールを生成することで、精度よく専門用語の意味コードを判定することができる。   As described above, according to the term meaning learning device according to the third embodiment, for each of a plurality of technical terms, a feature vector is generated from the character and partial character string included in the term and the character type of the character. And by generating a determination rule for determining a semantic code based on the feature vector generated for each of the technical terms and the semantic code assigned to each of the technical terms The semantic code of the technical term can be determined.

また、第3の実施の形態に係る用語意味判定装置によれば、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。   Moreover, according to the term meaning determination apparatus according to the third embodiment, a feature vector is generated from characters and partial character strings included in the term, and the generated feature vector and a previously learned determination rule are used. Based on the determination of the meaning code of the term, the meaning code of the technical term can be determined with high accuracy.

<本発明の第4の実施の形態に係る用語意味学習装置の構成> <Configuration of Term Meaning Learning Device According to Fourth Embodiment of the Present Invention>

次に、本発明の第4の実施の形態に係る用語意味学習装置の構成について説明する。なお、第2の実施の形態の用語意味学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the term meaning learning device according to the fourth embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the term meaning learning apparatus 100 of 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

図8に示すように、本発明の第4の実施の形態に係る用語意味学習装置300は、CPUと、RAMと、後述する用語意味学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味学習装置100は、機能的には図8に示すように入力部310と、演算部320とを備えている。   As shown in FIG. 8, the term meaning learning device 300 according to the fourth embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning learning processing routine described later, and various data. It can be composed of a computer including a ROM. Functionally, the term meaning learning device 100 includes an input unit 310 and a calculation unit 320 as shown in FIG.

入力部310は、専門用語の意味コードが予め付与された複数の専門用語と、専門用語の同義語及び類義語を格納した辞書とを、受け付ける。   The input unit 310 accepts a plurality of technical terms to which a technical term meaning code is assigned in advance and a dictionary storing synonyms and synonyms of the technical terms.

演算部320は、同義語類義語意味コード付与部326と、訓練データ集合データベース28と、特徴ベクトル生成部30と、判定ルール生成部32と、判定ルール40とを含んで構成されている。   The calculation unit 320 includes a synonym synonym meaning code assigning unit 326, a training data set database 28, a feature vector generation unit 30, a determination rule generation unit 32, and a determination rule 40.

同義語類義語意味コード付与部326は、入力部310で受け付けた、専門用語の意味コードが予め付与された複数の専門用語と辞書とに基づいて、意味コードが付与された専門用語の各々について、当該専門用語の同義語又は類義語となる専門用語の各々に、同じ意味コードを付与する。そして、入力部310で受け付けた、意味コードが予め付与された専門用語、及び意味コードが付与された同義語または類義語となる専門用語を、訓練データ集合として、訓練データ集合データベース28に格納する。   The synonym synonym meaning code assigning unit 326 accepts the meaning code of the technical term received in the input unit 310 based on a plurality of technical terms and a dictionary, and each of the technical terms assigned the semantic code, The same meaning code is assigned to each technical term that is a synonym or synonym of the technical term. Then, the technical terms to which the semantic code is assigned in advance and the technical terms that are synonyms or synonyms to which the semantic code is assigned, which are received by the input unit 310, are stored in the training data set database 28 as a training data set.

なお、第3の実施の形態に係る用語意味学習装置の他の構成及び作用は、第2の実施の形態の用語意味学習装置100と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the term meaning learning apparatus which concern on 3rd Embodiment are the same as that of the term meaning learning apparatus 100 of 2nd Embodiment, detailed description is abbreviate | omitted.

<本発明の第4の実施の形態に係る用語意味判定装置の構成> <Configuration of Term Meaning Determination Device According to Fourth Embodiment of the Present Invention>

次に、本発明の第4の実施の形態に係る用語意味判定装置の構成について説明する。なお、第2の実施の形態の用語意味判定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the term meaning determination device according to the fourth embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the term meaning determination apparatus 200 of 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図3に示すように、本発明の第4の実施の形態に係る用語意味判定装置200は、CPUと、RAMと、後述する用語意味判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味判定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部250とを備えている。   As shown in FIG. 3, the term meaning determination device 200 according to the fourth embodiment of the present invention stores a CPU, a RAM, a program for executing a term meaning determination processing routine described later, and various data. And a computer including a ROM. Functionally, the term meaning determination apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

第4の実施の形態に係る演算部220は、特徴ベクトル生成部230と、意味コード判定部232と、判定ルール240とを含んで構成されている。   The calculation unit 220 according to the fourth embodiment includes a feature vector generation unit 230, a semantic code determination unit 232, and a determination rule 240.

なお、第4の実施の形態に係る用語意味判定装置の他の構成及び作用は、第2の実施の形態の用語意味判定装置200と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the term meaning determination apparatus which concerns on 4th Embodiment are the same as that of the term meaning determination apparatus 200 of 2nd Embodiment, detailed description is abbreviate | omitted.

<本発明の第4の実施の形態に係る用語意味学習装置の作用> <Operation of the term meaning learning device according to the fourth embodiment of the present invention>

次に、本発明の第4の実施の形態に係る用語意味学習装置300の作用について説明する。入力部10において、専門用語の意味コードが予め付与された複数の専門用語、及び同義語及び類似語を格納した辞書を受け付けると、第4の実施の形態に係る用語意味学習装置300は、図9に示す用語意味学習処理ルーチンを実行する。なお、第4の実施の形態に係る用語意味学習装置の作用について、第2の実施の形態と同様の作用となる部分については、同一符号を付して説明を省略する。   Next, the operation of the term meaning learning device 300 according to the fourth exemplary embodiment of the present invention will be described. When the input unit 10 accepts a dictionary storing a plurality of technical terms to which the semantic codes of technical terms are assigned in advance, and synonyms and similar terms, the term meaning learning device 300 according to the fourth embodiment The term meaning learning process routine shown in FIG. 9 is executed. In addition, about the effect | action of the term meaning learning apparatus which concerns on 4th Embodiment, about the part which becomes an effect | action similar to 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

ステップS300では、同義語及び類似語を格納した辞書に基づいて、ステップS100で取得した複数の専門用語の各々について、当該専門用語の同義語又は類義語となる専門用語に対して、当該専門用語と同じ意味コードを付与する。   In step S300, for each of the plurality of technical terms acquired in step S100 based on a dictionary storing synonyms and similar terms, the technical terms are synonymous with or synonymous with the technical terms. Assign the same semantic code.

なお、第4の実施の形態に係る用語意味学習装置の他の作用については、第2の実施の形態と同様であるため、詳細な説明を省略する。   In addition, since it is the same as that of 2nd Embodiment about the other effect | action of the term meaning learning apparatus based on 4th Embodiment, detailed description is abbreviate | omitted.

以上説明したように、第4の実施の形態に係る用語意味学習装置によれば、辞書に格納されている同義語及び類義語に対して、意味コードを付与することで、意味コードを付与した訓練データを増やすことができる。   As explained above, according to the term meaning learning device according to the fourth embodiment, training with a meaning code is given by giving a meaning code to synonyms and synonyms stored in the dictionary. Data can be increased.

また、第4の実施の形態に係る用語意味判定装置によれば、用語に含まれる文字及び部分文字列から、特徴ベクトルを生成し、生成された特徴ベクトルと、予め学習された判定ルールとに基づいて、用語の意味コードを判定することで、精度よく専門用語の意味コードを判定することができる。   Moreover, according to the term meaning determination apparatus according to the fourth embodiment, a feature vector is generated from characters and partial character strings included in the term, and the generated feature vector and a previously learned determination rule are used. Based on the determination of the meaning code of the term, the meaning code of the technical term can be determined with high accuracy.

<実験結果> <Experimental result>

上記第3の実施の形態に係る手法を適用して、国立情報学研究所(NII)主催の評価型ワークショップNTCIR−11のMedNLP2タスク(http://mednlp.jp/ntcir11/)で配布された疑似医療文書のベンチマークセットを用いて実験を行った。このベンチマークセットには、訓練データとテストデータが含まれており、それぞれのデータには、疑似医療文書中に、意味コードとしてICDコードが付与された病名及び症状を表す専門用語を含むものである。ICDコードは、病態管理および情報共有のためのコードであり、医療用語の標準化のために開発されたコードである。ICDコードを利用することで、様々な省略形や漢字、かな表記の違いなど、同一の意味をもつ異表現の用語を把握、管理することができる。ICD10対応標準病名マスター(http://www2.medis.or.jp/stdcd/byomei/)には数千種類のICDコードが定義されている。   Distributed by MedNLP2 task (http://mednlp.jp/ntcir11/) of evaluation type workshop NTCIR-11 sponsored by National Institute of Informatics (NII) by applying the method according to the third embodiment. An experiment was conducted using a benchmark set of simulated medical documents. This benchmark set includes training data and test data, and each data includes technical terms representing disease names and symptoms to which an ICD code is assigned as a semantic code in a pseudo medical document. The ICD code is a code for pathological management and information sharing, and is a code developed for standardization of medical terms. By using the ICD code, it is possible to grasp and manage differently expressed terms having the same meaning, such as various abbreviations, kanji, and kana notation. Thousands of types of ICD codes are defined in the ICD10 compatible standard disease name master (http://www2.medis.or.jp/stdcd/byomei/).

性能評価では、ICDコードを意味コードとし、疑似医療文書に含まれる病名及び症状を表す専門用語にICDコードを付与する問題に対して、上記第3の実施の形態に係る手法を適用した場合に得られるICDコードの判定精度を調べた。   In the performance evaluation, when the method according to the third embodiment is applied to the problem of assigning an ICD code to a technical term representing a disease name and a symptom included in a pseudo-medical document using an ICD code as a semantic code. The determination accuracy of the obtained ICD code was examined.

本実験では、上記ベンチマークセットの訓練データと、ICD10対応標準病名マスターに含まれる病名基本テーブルに含まれる専門用語とを訓練データ集合データベース28に格納した。また、ICD10対応標準病名マスターの検索テーブルに含まれる専門用語も訓練データ集合データベース28に格納した。また、ICD10対応標準病名マスターの病名基本テーブルに含まれる専門用語と同義又は類義の専門用語について、当該病名基本テーブルに含まれる専門用語と同一のICDコードを付与して訓練データ集合データベース28に格納した。さらに、ライフサイエンス辞書(http://lsd.pharm.kyoto-u.ac.jp/ja/index.html)、T辞書(http://www.tdic.co.jp/)、及びUMLSメタシソーラス(http://www.nlm.nih.gov/research/umls/)から取り出したMedDRA辞書の各々から、ICD10対応標準病名マスターに含まれる専門用語と同義又は類義の専門用語を抽出し、当該ICD10対応標準病名マスターに含まれる専門用語と同一のICDコードを付与して訓練データ集合データベース28に格納した。   In this experiment, the training data of the benchmark set and the technical terms included in the disease name basic table included in the ICD10 compatible standard disease name master were stored in the training data set database 28. Further, technical terms included in the search table of the standard disease name master corresponding to ICD 10 are also stored in the training data set database 28. Further, the technical data synonymous with or similar to the technical terms included in the disease name basic table of the standard disease name master corresponding to the ICD10 are assigned the same ICD code as the technical terms included in the basic disease name table, and are added to the training data set database 28. Stored. In addition, life science dictionary (http://lsd.pharm.kyoto-u.ac.jp/en/index.html), T dictionary (http://www.tdic.co.jp/), and UMLS metathesaurus From each of the MedDRA dictionaries extracted from (http://www.nlm.nih.gov/research/umls/), a technical term that is synonymous with or similar to the technical term included in the ICD10-compliant standard disease name master is extracted, and The same ICD codes as the technical terms included in the ICD10-compliant standard disease name master were assigned and stored in the training data set database 28.

本実験では、意味コード判定部232で用いる判定ルールを生成するために、判定ルール生成部32において、ロジスティック回帰モデルを適用して、スコア関数f(^x;^w)のパラメータ値を推定した。 In this experiment, in order to generate a determination rule used in the semantic code determination unit 232, the determination rule generation unit 32 applies a logistic regression model and sets the parameter value of the score function f k (^ x; ^ w k ). Estimated.

表1に、上記第3の実施の形態に係る手法で判定ルールを生成して、ベンチマークセットのテストデータに含まれる2134個の病名及び症状を表す専門用語に適用した場合の意味コードの正解率と、正しく意味コードが推定された専門用語の個数(正解数)を示す。表1において、ADOC、 MEDIS、及びEXDICは訓練データ集合データベース28に格納された用語の種類を表している。ADICはベンチマークセットの訓練データに格納されていた用語を、MEDISはICD10対応標準病名マスターの基本病名テーブルと検索テーブルから抽出した用語を、EXDICはライフサイエンス辞書、T辞書、及びMedDRA辞書から抽出した用語を表す。表1から、より多くの専門用語を辞書から集めて判定ルールの生成に利用することで意味コードの推定精度が向上することがわかる。   Table 1 shows the correct rate of semantic codes when a determination rule is generated by the method according to the third embodiment and applied to technical terms representing 2134 disease names and symptoms included in the test data of the benchmark set. And the number of technical terms (number of correct answers) for which the semantic code is correctly estimated. In Table 1, ADOC, MEDIS, and EXDIC represent the types of terms stored in the training data set database 28. ADIC extracted the terms stored in the training data of the benchmark set, MEDIS extracted the terms extracted from the basic disease name table and search table of the ICD10 compatible standard disease name master, and EXDIC extracted from the life science dictionary, T dictionary, and MedDRA dictionary Represents a term. It can be seen from Table 1 that the accuracy of the semantic code estimation is improved by collecting more technical terms from the dictionary and using them for generating the decision rule.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、上述した第1〜第4の実施の形態では、特定の専門分野において唯一の意味が定義されている専門用語から、意味コードを判定するため判定ルールを生成する用語意味学習装置を例に説明したが、これに限定されるものではなく、意味コードが予め付与された用語を用いるのであれば、どのような分野の用語であっても判定ルールを生成し、意味コードを判定することができる。例えば、用語意味学習装置で、ある一定の分野(自然科学、経済等の分野)の用語について、判定ルールを生成し、用語意味判定装置で、生成された判定ルールを用いて、当該分野の用語について、意味コードを判定することができる。   For example, in the above-described first to fourth embodiments, a term meaning learning device that generates a determination rule for determining a meaning code from a technical term having a unique meaning defined in a specific specialized field is taken as an example. As described above, the present invention is not limited to this, and if a term with a semantic code is used in advance, a determination rule can be generated and a semantic code can be determined for terms in any field. it can. For example, the term meaning learning device generates a determination rule for a term in a certain field (natural science, economy, etc.), and the term meaning determination device uses the generated determination rule to generate a term in the field. The semantic code can be determined.

また、用語意味学習装置と用語意味判定装置とを別々の装置で構成する場合を例に説明したが、これに限定されるものではなく、用語意味学習装置と用語意味判定装置とを一つの装置で構成するようにしてもよい。   Further, the case where the term meaning learning device and the term meaning determination device are configured as separate devices has been described as an example, but the present invention is not limited to this, and the term meaning learning device and the term meaning determination device are one device. You may make it comprise.

10、210、310 入力部
20、220、320 演算部
28 訓練データ集合データベース
30、230 特徴ベクトル生成部
32 判定ルール生成部
40、240 判定ルール
100、300 用語意味学習装置
200 用語意味判定装置
232 意味コード判定部
250 出力部
326 同義語類義語意味コード付与部
10, 210, 310 Input unit 20, 220, 320 Operation unit 28 Training data set database 30, 230 Feature vector generation unit 32 Determination rule generation unit 40, 240 Determination rule 100, 300 Term meaning learning device 200 Term meaning determination device 232 Meaning Code determination unit 250 Output unit 326 Synonym synonym meaning code giving unit

Claims (8)

入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、
前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成する判定ルール生成部と、
を含む用語意味学習装置。
A feature vector for generating a feature vector representing the presence or number of each partial character string from the partial character strings included in the character string of each term, for each of a plurality of terms to which the meaning code of the term is given in advance A generator,
A determination rule for determining a semantic code of a term based on the feature vector generated for each of the plurality of terms by the feature vector generation unit and a semantic code assigned to each of the plurality of terms. A determination rule generation unit to generate,
A term meaning learning device.
前記用語を、特定の専門分野において唯一の意味が定義されている専門用語とした請求項1に記載の用語意味学習装置。   The term meaning learning device according to claim 1, wherein the term is a technical term whose unique meaning is defined in a specific technical field. 前記特徴ベクトル生成部は、前記複数の用語の各々について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数とを表す前記特徴ベクトルを生成する請求項1又は請求項2に記載の用語意味学習装置。   The feature vector generation unit, for each of the plurality of terms, from the character included in the term and the partial character string included in the character string of the term, the presence or absence of each character and the presence or absence of each partial character string The term meaning learning device according to claim 1, wherein the feature vector representing the number or the number is generated. 入力された用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成する特徴ベクトル生成部と、
前記特徴ベクトル生成部により生成された前記特徴ベクトルと、あらかじめ学習された、用語の意味コードを判定するための判定ルールとに基づいて、前記用語の意味コードを判定する意味コード判定部と、
を含む用語意味判定装置。
A feature vector generation unit that generates a feature vector representing the presence or number of each partial character string from the partial character string included in the character string of the input term;
A semantic code determination unit that determines a semantic code of the term based on the feature vector generated by the feature vector generation unit and a determination rule for determining a semantic code of the term that has been learned in advance;
A term meaning determination device including:
前記用語を、特定の専門分野において唯一の意味が定義されている専門用語とした請求項4に記載の用語意味判定装置。   The term meaning determination device according to claim 4, wherein the term is a technical term whose unique meaning is defined in a specific technical field. 前記特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各文字の有無又は個数と、各部分文字列の有無又は個数とを表す前記特徴ベクトルを生成する請求項4又は請求項5に記載の用語意味判定装置。   The feature vector generation unit, for the term, from the character included in the term and the partial character string included in the character string of the term, the presence or number of each character and the presence or number of each partial character string The term meaning determination device according to claim 4 or 5, wherein the feature vector to be expressed is generated. 特徴ベクトル生成部が、入力された、用語の意味コードが予め付与された複数の用語の各々について、前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数を表す特徴ベクトルを生成するステップと、
判定ルール生成部が、前記特徴ベクトル生成部により前記複数の用語の各々について生成された前記特徴ベクトルと、前記複数の用語の各々に付与された意味コードとに基づいて、用語の意味コードを判定するための判定ルールを生成するステップと、
を含む用語意味学習方法。
The feature vector generation unit represents the presence or number of each partial character string from the partial character strings included in the character string of the term for each of the plurality of terms to which the meaning code of the term is input in advance Generating a vector;
A determination rule generation unit determines a semantic code of a term based on the feature vector generated for each of the plurality of terms by the feature vector generation unit and a semantic code assigned to each of the plurality of terms Generating a determination rule for
A term meaning learning method.
コンピュータを、請求項1〜請求項3のいずれか1項に記載の用語意味学習装置、又は請求項4〜請求項6のいずれか1項に記載の用語意味判定装置を構成する各部として機能させるためのプログラム。   A computer is made to function as each part which comprises the term meaning learning apparatus of any one of Claims 1-3, or the term meaning determination apparatus of any one of Claims 4-6. Program for.
JP2014248130A 2014-12-08 2014-12-08 Term meaning learning device, term meaning judging device, method, and program Active JP6368633B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248130A JP6368633B2 (en) 2014-12-08 2014-12-08 Term meaning learning device, term meaning judging device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248130A JP6368633B2 (en) 2014-12-08 2014-12-08 Term meaning learning device, term meaning judging device, method, and program

Publications (2)

Publication Number Publication Date
JP2016110440A true JP2016110440A (en) 2016-06-20
JP6368633B2 JP6368633B2 (en) 2018-08-01

Family

ID=56122301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248130A Active JP6368633B2 (en) 2014-12-08 2014-12-08 Term meaning learning device, term meaning judging device, method, and program

Country Status (1)

Country Link
JP (1) JP6368633B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434756A (en) * 2020-12-15 2021-03-02 杭州依图医疗技术有限公司 Training method, processing method, device and storage medium of medical data
JP7198408B2 (en) 2017-01-15 2023-01-04 cotobox株式会社 Trademark information processing device and method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021139A (en) * 2006-07-13 2008-01-31 National Institute Of Information & Communication Technology Model construction apparatus for semantic tagging, semantic tagging apparatus, and computer program
JP2009230270A (en) * 2008-03-19 2009-10-08 Fuji Xerox Co Ltd Data analyzing device and program
US20130151443A1 (en) * 2011-10-03 2013-06-13 Aol Inc. Systems and methods for performing contextual classification using supervised and unsupervised training

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021139A (en) * 2006-07-13 2008-01-31 National Institute Of Information & Communication Technology Model construction apparatus for semantic tagging, semantic tagging apparatus, and computer program
JP2009230270A (en) * 2008-03-19 2009-10-08 Fuji Xerox Co Ltd Data analyzing device and program
US20130151443A1 (en) * 2011-10-03 2013-06-13 Aol Inc. Systems and methods for performing contextual classification using supervised and unsupervised training

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山田 寛康 外2名: "単語の部分文字列を考慮した専門用語抽出と分類", 情報処理学会研究報告, vol. 第2000巻第107号, JPN6017043380, 22 November 2000 (2000-11-22), JP, pages 77 - 84, ISSN: 0003680233 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7198408B2 (en) 2017-01-15 2023-01-04 cotobox株式会社 Trademark information processing device and method, and program
CN112434756A (en) * 2020-12-15 2021-03-02 杭州依图医疗技术有限公司 Training method, processing method, device and storage medium of medical data

Also Published As

Publication number Publication date
JP6368633B2 (en) 2018-08-01

Similar Documents

Publication Publication Date Title
Murty et al. Hierarchical losses and new resources for fine-grained entity typing and linking
Gatti et al. SentiWords: Deriving a high precision and high coverage lexicon for sentiment analysis
Yu et al. Learning composition models for phrase embeddings
JP5356197B2 (en) Word semantic relation extraction device
JP5710581B2 (en) Question answering apparatus, method, and program
Bhaskar et al. Enhanced sentiment analysis of informal textual communication in social media by considering objective words and intensifiers
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
Prasad et al. Sentiment mining: An approach for Bengali and Tamil tweets
CN114139537A (en) Word vector generation method and device
JP6368633B2 (en) Term meaning learning device, term meaning judging device, method, and program
JP6495124B2 (en) Term semantic code determination device, term semantic code determination model learning device, method, and program
JP6220762B2 (en) Next utterance candidate scoring device, method, and program
JP2021501387A (en) Methods, computer programs and computer systems for extracting expressions for natural language processing
JP6232358B2 (en) Next utterance candidate ranking apparatus, method, and program
Majumder et al. Event extraction from biomedical text using crf and genetic algorithm
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
Saias Senti. ue: Tweet overall sentiment classification approach for SemEval-2014 task 9
Saha et al. A transformer based multi-task model for domain classification, intent detection and slot-filling
JP6574469B2 (en) Next utterance candidate ranking apparatus, method, and program
Umare et al. A survey on machine learning techniques to extract chemical names from text documents
Liza Sentence classification with imbalanced data for health applications
Bhargava et al. Modeling Classifier for Code Mixed Cross Script Questions.
JP5944859B2 (en) Evaluation information extracting apparatus, certainty degree learning apparatus, method, and program
Cox et al. Template sampling for leveraging domain knowledge in information extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R150 Certificate of patent or registration of utility model

Ref document number: 6368633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150