JP6954108B2 - 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 - Google Patents
化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 Download PDFInfo
- Publication number
- JP6954108B2 JP6954108B2 JP2017250520A JP2017250520A JP6954108B2 JP 6954108 B2 JP6954108 B2 JP 6954108B2 JP 2017250520 A JP2017250520 A JP 2017250520A JP 2017250520 A JP2017250520 A JP 2017250520A JP 6954108 B2 JP6954108 B2 JP 6954108B2
- Authority
- JP
- Japan
- Prior art keywords
- stored
- storage unit
- language
- name
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施の形態においては、第1の言語の文書から化合物名を抽出する際に、第2の言語の文書を利用することで高精度な抽出を実現する。以下では、第1の言語を英語とし且つ第2の言語を日本語として説明をするが、このような組み合わせに限定されるわけではない。
第1の実施の形態においては、第1の言語の1つの未知の要素から第2の言語の1つの要素が生成される。但し、文字列によっては表記ゆれを考慮した方がよい場合がある。例えば「isopropylidene」については、「イソプロピリデン」だけでなく「アイソプロピリデン」についても検索の対象とした方がよい。また、「イソプロピリデン」の一部である「イソ」及び「プロピリデン」等についても検索の対象とすれば、化合物名の一部であるか否かの判定をより細かい単位で実施することができる。このような観点から、第2の実施の形態においては以下で説明するような処理が実行される。
日本語の文書の場合、化合物名はカタカナ及び一部の漢字(例えば「酸」)を使用して記述されることが多いため、パターンマッチングによって候補を抽出することができる。
コンピュータが、
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
前記第1の要素の表記を第2の言語の表記に変換し、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
生成された前記第2の要素を出力する、
処理を実行する化合物名判定方法。
前記コンピュータが、
変換後の前記第1の要素を分割して複数の要素を生成し、
生成された前記複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第1の条件が満たされるか判定し、
前記第1の条件が満たされると判定された第3の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第3の要素と連続する部分名とを連結して第4の要素を生成し、
生成された前記第4の要素を出力する、
処理をさらに実行する付記1記載の化合物名判定方法。
前記コンピュータが、
変換後の前記第1の要素の表記ゆれに相当する1又は複数の要素を生成し、
生成された前記1又は複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第2の条件が満たされるか判定し、
前記第2の条件が満たされると判定された第5の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第5の要素と連続する部分名とを連結して第6の要素を生成し、
生成された前記第6の要素を出力する、
処理をさらに実行する付記1記載の化合物名判定方法。
前記第1の言語は英語であり、前記第2の言語は日本語であり、変換後の前記第1の要素はカタカナの文字列である、
付記1乃至3のいずれか1つ記載の化合物名判定方法。
前記第2の言語の化学文書は、化学分野の特許文書である、
付記1乃至4のいずれか1つ記載の化合物名判定方法。
コンピュータに、
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
前記第1の要素の表記を第2の言語の表記に変換し、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
生成された前記第2の要素を出力する、
処理を実行させる化合物名判定プログラム。
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定する特定部と、
前記第1の要素の表記を第2の言語の表記に変換する変換部と、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し生成された前記第2の要素を出力する出力部と、
を有する化合物名判定装置。
103 タグ付替部 105 変換部
107 第1文書データ格納部 109 部分名辞書格納部
111 第2文書データ格納部 113 化合物名格納部
115 変換表格納部 117 派生要素格納部
Claims (6)
- コンピュータが、
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
前記第1の要素の表記を第2の言語の表記に変換し、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
生成された前記第2の要素を出力する、
処理を実行する化合物名判定方法。 - 前記コンピュータが、
変換後の前記第1の要素を分割して複数の要素を生成し、
生成された前記複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第1の条件が満たされるか判定し、
前記第1の条件が満たされると判定された第3の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第3の要素と連続する部分名とを連結して第4の要素を生成し、
生成された前記第4の要素を出力する、
処理をさらに実行する請求項1記載の化合物名判定方法。 - 前記コンピュータが、
変換後の前記第1の要素の表記ゆれに相当する1又は複数の要素を生成し、
生成された前記1又は複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第2の条件が満たされるか判定し、
前記第2の条件が満たされると判定された第5の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第5の要素と連続する部分名とを連結して第6の要素を生成し、
生成された前記第6の要素を出力する、
処理をさらに実行する請求項1記載の化合物名判定方法。 - 前記第1の言語は英語であり、前記第2の言語は日本語であり、変換後の前記第1の要素はカタカナの文字列である、
請求項1乃至3のいずれか1つ記載の化合物名判定方法。 - コンピュータに、
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
前記第1の要素の表記を第2の言語の表記に変換し、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
生成された前記第2の要素を出力する、
処理を実行させる化合物名判定プログラム。 - 第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定する特定部と、
前記第1の要素の表記を第2の言語の表記に変換する変換部と、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し生成された前記第2の要素を出力する出力部と、
を有する化合物名判定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017250520A JP6954108B2 (ja) | 2017-12-27 | 2017-12-27 | 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017250520A JP6954108B2 (ja) | 2017-12-27 | 2017-12-27 | 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019117486A JP2019117486A (ja) | 2019-07-18 |
JP6954108B2 true JP6954108B2 (ja) | 2021-10-27 |
Family
ID=67304436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017250520A Active JP6954108B2 (ja) | 2017-12-27 | 2017-12-27 | 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6954108B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676358B2 (en) * | 2003-09-24 | 2010-03-09 | International Business Machines Corporation | System and method for the recognition of organic chemical names in text documents |
JP2007156797A (ja) * | 2005-12-05 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 化学物質管理装置及び名称登録方法 |
CN102955773B (zh) * | 2011-08-31 | 2015-12-02 | 国际商业机器公司 | 用于在中文文档中识别化学名称的方法及系统 |
-
2017
- 2017-12-27 JP JP2017250520A patent/JP6954108B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019117486A (ja) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Insertion, deletion, or substitution? Normalizing text messages without pre-categorization nor supervision | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
Chen et al. | Chinese named entity recognition with conditional random fields | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
US8433560B2 (en) | Rule based apparatus for modifying word annotations | |
WO2011006300A1 (en) | Acronym extraction | |
JP2007058380A (ja) | 電子文書マスキングシステム | |
US11868378B2 (en) | Creation of indexes for information retrieval | |
CN113076748A (zh) | 弹幕敏感词的处理方法、装置、设备及存储介质 | |
JP2010262577A (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
CN111133429A (zh) | 提取表达以供自然语言处理 | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
JP6954108B2 (ja) | 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 | |
JP6811087B2 (ja) | 検索装置、検索方法、及びプログラム | |
Matsuoka et al. | Examination of effective features for CRF-based bibliography extraction from reference strings | |
KR102355731B1 (ko) | 해석 프로그램, 해석 방법 및 해석 장치 | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5466376B2 (ja) | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
JP2011065597A (ja) | データ検索装置、データ検索方法及びプログラム | |
JP2010003000A (ja) | 項目判定システムおよび項目判定プログラム | |
WO2020203276A1 (ja) | 新語候補抽出装置、新語候補抽出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200911 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210827 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6954108 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |