JP7440797B2 - 機械学習プログラム、機械学習方法および固有表現認識装置 - Google Patents
機械学習プログラム、機械学習方法および固有表現認識装置 Download PDFInfo
- Publication number
- JP7440797B2 JP7440797B2 JP2022516579A JP2022516579A JP7440797B2 JP 7440797 B2 JP7440797 B2 JP 7440797B2 JP 2022516579 A JP2022516579 A JP 2022516579A JP 2022516579 A JP2022516579 A JP 2022516579A JP 7440797 B2 JP7440797 B2 JP 7440797B2
- Authority
- JP
- Japan
- Prior art keywords
- named entity
- information
- matching
- tokens
- vector data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims description 98
- 239000013598 vector Substances 0.000 claims description 202
- 238000000034 method Methods 0.000 claims description 54
- 230000014509 gene expression Effects 0.000 claims description 44
- 238000003860 storage Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 18
- 230000004931 aggregating effect Effects 0.000 claims 2
- 238000004220 aggregation Methods 0.000 claims 2
- 230000002776 aggregation Effects 0.000 claims 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 108090000623 proteins and genes Proteins 0.000 description 59
- 238000013528 artificial neural network Methods 0.000 description 19
- 102000004169 proteins and genes Human genes 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 239000003814 drug Substances 0.000 description 16
- 229940079593 drug Drugs 0.000 description 16
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 7
- 230000010365 information processing Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 102000001301 EGF receptor Human genes 0.000 description 2
- 108060006698 EGF receptor Proteins 0.000 description 2
- 102100033237 Pro-epidermal growth factor Human genes 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 2
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 2
- 101800003838 Epidermal growth factor Proteins 0.000 description 1
- 101000801701 Homo sapiens Tropomyosin alpha-1 chain Proteins 0.000 description 1
- 108010042653 IgA receptor Proteins 0.000 description 1
- 101710098940 Pro-epidermal growth factor Proteins 0.000 description 1
- 102100034014 Prolyl 3-hydroxylase 3 Human genes 0.000 description 1
- 102100033632 Tropomyosin alpha-1 chain Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 229940116977 epidermal growth factor Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010005 growth-factor like effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- VBEQCZHXXJYVRD-GACYYNSASA-N uroanthelone Chemical compound C([C@@H](C(=O)N[C@H](C(=O)N[C@@H](CS)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CS)C(=O)N[C@H](C(=O)N[C@@H]([C@@H](C)CC)C(=O)NCC(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O)C(C)C)[C@@H](C)O)NC(=O)[C@H](CO)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H](NC(=O)[C@H](CC=1NC=NC=1)NC(=O)[C@H](CCSC)NC(=O)[C@H](CS)NC(=O)[C@@H](NC(=O)CNC(=O)CNC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CS)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)CNC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CO)NC(=O)[C@H](CO)NC(=O)[C@H]1N(CCC1)C(=O)[C@H](CS)NC(=O)CNC(=O)[C@H]1N(CCC1)C(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC(N)=O)C(C)C)[C@@H](C)CC)C1=CC=C(O)C=C1 VBEQCZHXXJYVRD-GACYYNSASA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Description
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
テキストデータ13は、自然言語で記述された文章を表す文字列を含む。テキストデータ13は、例えば、生物医学分野の学術論文など、特定の専門分野の文書である。テキストデータ13は、機械学習のための訓練データとして使用される。そこで、テキストデータ13には、固有表現に関する教師ラベルが付与されている。例えば、テキストデータ13に含まれる固有表現に対して、固有表現であることを示すタグまたは固有表現クラスを示すタグが付与されている。教師ラベルは、例えば、人手によって予め付与される。
まず、制御部12は、テキストデータ13に含まれる文字列を複数のトークンに分割する。トークンへの分割には、例えば、形態素解析などの自然言語処理技術が用いられる。トークンは、言語上意味のある文字列である。トークンは、単語であることもあるし、単語より小さい言語単位であることもある。固有表現は複合語であることもある。そのため、1つのトークンが1つの固有表現を形成することもあるし、2以上のトークンを含むトークン列が1つの固有表現を形成することもある。
(S11)モデル生成部124は、N個のトークンに対応するN個の単語ベクトルを、訓練済みのBioBERT142に入力し、別のN個の単語ベクトルに変換する。
(S13)モデル生成部124は、ステップS12で生成したn-gramの集合の中から1つのn-gramを選択する。
(S22)モデル生成部124は、図10に示した入力データ生成を実行する。これにより、複数のトークンに対応する複数の結合ベクトルが生成される。
図12は、固有表現認識の手順例を示すフローチャートである。(S30)固有表現認識部125は、モデル記憶部123から、訓練済みの固有表現認識モデル143を読み出す。
(S32)固有表現認識部125は、図10に示した入力データ生成を実行する。これにより、複数のトークンに対応する複数の結合ベクトルが生成される。
第3の実施の形態の機械学習装置100によれば、多層ニューラルネットワークである固有表現認識モデル143を用いて、分散表現のベクトルから固有表現クラスの確信度が算出される。よって、固有表現辞書131に記載されていない未知の固有表現も認識することが可能となる。また、固有表現辞書131とn-gramとの間のマッチング状態を示すマッチング情報が生成され、マッチング情報がベクトル化され、単語ベクトルと結合されて固有表現認識モデル143の入力として使用される。よって、固有表現辞書131に記載された既知の固有表現を考慮した固有表現認識が可能となる。
11,21 記憶部
12,22 制御部
13,23 テキストデータ
13a,23a トークン列
14,24 辞書情報
14a,24a 類似固有表現
15,16,25,26 ベクトルデータ
17,27 入力データ
18,28 固有表現認識モデル
20 固有表現認識装置
29 固有表現
Claims (6)
- 固有表現を示すラベルが付与されたテキストデータに含まれる文字列を複数のトークンに分割し、
前記複数のトークンのうち連続する特定の個数のトークンを示すトークン列と、複数の固有表現と前記複数の固有表現それぞれのクラスを示すクラス情報とを含む第1の辞書情報との間でマッチング処理を実行して、前記複数の固有表現のうち前記トークン列との類似度が閾値以上である類似固有表現を検索し、
前記トークン列に含まれる2以上のトークンそれぞれに対して、前記トークン列の中における当該トークンの相対位置を示す位置情報と、前記トークン列と前記類似固有表現とが完全一致するか否かを示す合致度情報と、前記類似固有表現の前記クラス情報とを含むマッチング情報を生成し、
前記位置情報と前記合致度情報と前記クラス情報との組み合わせに対して、複数の次元の数値を含む第1のベクトルデータを対応付けた第2の辞書情報に基づいて、前記2以上のトークンそれぞれの前記マッチング情報を、前記第1のベクトルデータに変換し、
訓練済みの機械学習モデルを用いて前記複数のトークンから変換された、複数の次元の数値をそれぞれ含む複数の第2のベクトルデータのうち、前記2以上のトークンに対応する第2のベクトルデータに前記第1のベクトルデータをそれぞれ合成して、合成後の前記複数の第2のベクトルデータを含む入力データを生成し、
固有表現を検出するための固有表現認識モデルに前記入力データを入力して、前記固有表現認識モデルの出力と前記ラベルとを比較することを含む機械学習により、前記固有表現認識モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。 - 前記類似固有表現を検索する処理は、前記トークン列と共通のトークンを含む他のトークン列と前記第1の辞書情報との間で前記マッチング処理を実行する処理を含み、
前記マッチング情報を生成する処理は、前記他のトークン列に含まれる他の2以上のトークンそれぞれに対して他のマッチング情報を生成する処理を含み、
前記マッチング情報を変換する処理は、前記共通のトークンに対して、前記マッチング情報に対応する前記第1のベクトルデータと前記他のマッチング情報に対応する前記第1のベクトルデータとを単一の第1のベクトルデータに集約する処理を含み、
前記入力データを生成する処理では、前記共通のトークンに対応する第2のベクトルデータに、集約後の前記単一の第1のベクトルデータが合成される、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 前記単一の第1のベクトルデータに集約する処理は、同一次元の要素同士で最大値または平均値を求めるプーリング処理を実行して前記単一の第1のベクトルデータを生成する処理を含む、
ことを特徴とする請求項2に記載の機械学習プログラム。 - 前記マッチング情報を生成する処理は、前記トークン列から2以上の類似固有表現が検索された場合、前記2以上のトークンそれぞれに対して、前記2以上の類似固有表現に対応する2以上のマッチング情報を生成する処理を含み、
前記マッチング情報を変換する処理は、前記2以上のトークンそれぞれに対して、前記2以上のマッチング情報に対応する2以上の第1のベクトルデータを単一の第1のベクトルデータに集約する処理を含み、
前記入力データを生成する処理では、前記2以上のトークンに対応する第2のベクトルデータに、集約後の前記単一の第1のベクトルデータがそれぞれ合成される、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 固有表現を示すラベルが付与されたテキストデータに含まれる文字列を複数のトークンに分割し、
前記複数のトークンのうち連続する特定の個数のトークンを示すトークン列と、複数の固有表現と前記複数の固有表現それぞれのクラスを示すクラス情報とを含む第1の辞書情報との間でマッチング処理を実行して、前記複数の固有表現のうち前記トークン列との類似度が閾値以上である類似固有表現を検索し、
前記トークン列に含まれる2以上のトークンそれぞれに対して、前記トークン列の中における当該トークンの相対位置を示す位置情報と、前記トークン列と前記類似固有表現とが完全一致するか否かを示す合致度情報と、前記類似固有表現の前記クラス情報とを含むマッチング情報を生成し、
前記位置情報と前記合致度情報と前記クラス情報との組み合わせに対して、複数の次元の数値を含む第1のベクトルデータを対応付けた第2の辞書情報に基づいて、前記2以上のトークンそれぞれの前記マッチング情報を、前記第1のベクトルデータに変換し、
訓練済みの機械学習モデルを用いて前記複数のトークンから変換された、複数の次元の数値をそれぞれ含む複数の第2のベクトルデータのうち、前記2以上のトークンに対応する第2のベクトルデータに前記第1のベクトルデータをそれぞれ合成して、合成後の前記複数の第2のベクトルデータを含む入力データを生成し、
固有表現を検出するための固有表現認識モデルに前記入力データを入力して、前記固有表現認識モデルの出力と前記ラベルとを比較することを含む機械学習により、前記固有表現認識モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。 - 複数の固有表現と前記複数の固有表現それぞれのクラスを示すクラス情報とを含む第1の辞書情報と、固有表現を検出するための固有表現認識モデルとを記憶する記憶部と、
テキストデータに含まれる文字列を複数のトークンに分割し、前記複数のトークンのうち連続する特定の個数のトークンを示すトークン列と前記第1の辞書情報との間でマッチング処理を実行して、前記複数の固有表現のうち前記トークン列との類似度が閾値以上である類似固有表現を検索し、前記トークン列に含まれる2以上のトークンそれぞれに対して、前記トークン列の中における当該トークンの相対位置を示す位置情報と、前記トークン列と前記類似固有表現とが完全一致するか否かを示す合致度情報と、前記類似固有表現の前記クラス情報とを含むマッチング情報を生成し、前記位置情報と前記合致度情報と前記クラス情報との組み合わせに対して、複数の次元の数値を含む第1のベクトルデータを対応付けた第2の辞書情報に基づいて、前記2以上のトークンそれぞれの前記マッチング情報を、前記第1のベクトルデータに変換し、訓練済みの機械学習モデルを用いて前記複数のトークンから変換された、複数の次元の数値をそれぞれ含む複数の第2のベクトルデータのうち、前記2以上のトークンに対応する第2のベクトルデータに前記第1のベクトルデータをそれぞれ合成して、合成後の前記複数の第2のベクトルデータを含む入力データを生成し、前記入力データを前記固有表現認識モデルに入力することで、前記テキストデータの中から固有表現を検出する処理を実行する制御部と、
を有することを特徴とする固有表現認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/017488 WO2021214941A1 (ja) | 2020-04-23 | 2020-04-23 | 機械学習プログラム、機械学習方法および固有表現認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021214941A1 JPWO2021214941A1 (ja) | 2021-10-28 |
JP7440797B2 true JP7440797B2 (ja) | 2024-02-29 |
Family
ID=78270638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022516579A Active JP7440797B2 (ja) | 2020-04-23 | 2020-04-23 | 機械学習プログラム、機械学習方法および固有表現認識装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230044266A1 (ja) |
JP (1) | JP7440797B2 (ja) |
WO (1) | WO2021214941A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6077727B1 (ja) | 2016-01-28 | 2017-02-08 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
JP2017045453A (ja) | 2015-08-27 | 2017-03-02 | ゼロックス コーポレイションXerox Corporation | 固有表現抽出用ドキュメント専用地名辞典 |
-
2020
- 2020-04-23 WO PCT/JP2020/017488 patent/WO2021214941A1/ja active Application Filing
- 2020-04-23 JP JP2022516579A patent/JP7440797B2/ja active Active
-
2022
- 2022-10-17 US US17/966,908 patent/US20230044266A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017045453A (ja) | 2015-08-27 | 2017-03-02 | ゼロックス コーポレイションXerox Corporation | 固有表現抽出用ドキュメント専用地名辞典 |
JP6077727B1 (ja) | 2016-01-28 | 2017-02-08 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
土屋雅稔 他2名,非頻出語に対して頑健な日本語固有表現の抽出,情報処理学会研究報告,日本,社団法人情報処理学会,2008年05月15日,Vol.2008,No.46,1-6頁,(2008-NL-185/2008-SLP-71),ISSN 0919-6072 |
Also Published As
Publication number | Publication date |
---|---|
US20230044266A1 (en) | 2023-02-09 |
JPWO2021214941A1 (ja) | 2021-10-28 |
WO2021214941A1 (ja) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Young et al. | Recent trends in deep learning based natural language processing | |
Jung | Semantic vector learning for natural language understanding | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN113678149A (zh) | 用于对注释和编辑关系进行建模的架构 | |
Hládek et al. | Learning string distance with smoothing for OCR spelling correction | |
Mathew et al. | Biomedical named entity recognition via reference-set augmented bootstrapping | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
Ezhilarasi et al. | Depicting a Neural Model for Lemmatization and POS Tagging of words from Palaeographic stone inscriptions | |
Palagin et al. | Distributional semantic modeling: A revised technique to train term/word vector space models applying the ontology-related approach | |
Shin et al. | Learning context using segment-level LSTM for neural sequence labeling | |
Zhu et al. | Investigating annotation noise for named entity recognition | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Anandika et al. | Review on usage of hidden markov model in natural language processing | |
JP7440797B2 (ja) | 機械学習プログラム、機械学習方法および固有表現認識装置 | |
Rajan et al. | Survey of nlp resources in low-resource languages nepali, sindhi and konkani | |
Zheng et al. | Character-based parsing with convolutional neural network | |
Xie et al. | Automatic chinese spelling checking and correction based on character-based pre-trained contextual representations | |
Choi et al. | How to generate data for acronym detection and expansion | |
WO2022107328A1 (ja) | 機械学習プログラム、機械学習方法および自然言語処理装置 | |
Yadav et al. | Image Processing-Based Transliteration from Hindi to English | |
Gao et al. | Multi-features-based automatic clinical coding for Chinese ICD-9-CM-3 | |
Tüselmann et al. | Named entity linking on handwritten document images | |
Hu et al. | Deep learning for named entity recognition: a survey | |
Lee et al. | Unsupervised sentence embedding using document structure-based context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7440797 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |