JP7415495B2 - Document processing program, document processing device, and document processing method - Google Patents
Document processing program, document processing device, and document processing method Download PDFInfo
- Publication number
- JP7415495B2 JP7415495B2 JP2019218049A JP2019218049A JP7415495B2 JP 7415495 B2 JP7415495 B2 JP 7415495B2 JP 2019218049 A JP2019218049 A JP 2019218049A JP 2019218049 A JP2019218049 A JP 2019218049A JP 7415495 B2 JP7415495 B2 JP 7415495B2
- Authority
- JP
- Japan
- Prior art keywords
- change
- text
- document
- user
- document set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 60
- 238000003672 processing method Methods 0.000 title claims description 9
- 230000008859 change Effects 0.000 claims description 528
- 238000004458 analytical method Methods 0.000 claims description 58
- 238000000034 method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 9
- 239000003814 drug Substances 0.000 description 69
- 208000005718 Stomach Neoplasms Diseases 0.000 description 57
- 206010017758 gastric cancer Diseases 0.000 description 57
- 201000011549 stomach cancer Diseases 0.000 description 57
- 201000010099 disease Diseases 0.000 description 43
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 43
- 229940079593 drug Drugs 0.000 description 32
- 239000005411 L01XE02 - Gefitinib Substances 0.000 description 18
- XGALLCVXEZPNRQ-UHFFFAOYSA-N gefitinib Chemical compound C=12C=C(OCCCN3CCOCC3)C(OC)=CC2=NC=NC=1NC1=CC=C(F)C(Cl)=C1 XGALLCVXEZPNRQ-UHFFFAOYSA-N 0.000 description 18
- 229960002584 gefitinib Drugs 0.000 description 18
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 15
- 229960003301 nivolumab Drugs 0.000 description 15
- 206010028980 Neoplasm Diseases 0.000 description 14
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 13
- 201000005202 lung cancer Diseases 0.000 description 13
- 208000020816 lung neoplasm Diseases 0.000 description 13
- 201000011510 cancer Diseases 0.000 description 12
- 206010009944 Colon cancer Diseases 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 208000029742 colonic neoplasm Diseases 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 230000010365 information processing Effects 0.000 description 6
- 230000000750 progressive effect Effects 0.000 description 6
- 208000021491 Familial papillary or follicular thyroid carcinoma Diseases 0.000 description 5
- 208000024770 Thyroid neoplasm Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 201000002510 thyroid cancer Diseases 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 201000009916 Postpartum depression Diseases 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 208000020016 psychiatric disease Diseases 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 208000020401 Depressive disease Diseases 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- RZEKVGVHFLEQIL-UHFFFAOYSA-N celecoxib Chemical compound C1=CC(C)=CC=C1C1=CC(C(F)(F)F)=NN1C1=CC=C(S(N)(=O)=O)C=C1 RZEKVGVHFLEQIL-UHFFFAOYSA-N 0.000 description 1
- 229960000590 celecoxib Drugs 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 208000021622 familial nonmedullary thyroid carcinoma Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 201000003995 melancholia Diseases 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、文書処理技術に関する。 The present invention relates to document processing technology.
近年、産業界等において、AI(Artificial Intelligence)技術を利用した自然言語処理が増加している。自然言語処理には、形態素解析、構文解析、意味解析、照応解析等が含まれる。AI技術を利用した自然言語処理では、例えば、以下の手順で文書解析が行われる。
(P1)ユーザは、文書集合から、機械学習のための学習データを手作業で作成する。
(P2)ユーザは、機械学習により、学習モデルに学習データを学習させることで、学習モデルのパラメータを調整して、学習済みモデルである解析モデルを生成する。
(P3)ユーザは、解析モデルを用いて未知文書を解析し、解析結果を生成する。
In recent years, natural language processing using AI (Artificial Intelligence) technology has been increasing in industry. Natural language processing includes morphological analysis, syntactic analysis, semantic analysis, anaphora analysis, etc. In natural language processing using AI technology, for example, document analysis is performed in the following steps.
(P1) The user manually creates learning data for machine learning from a document collection.
(P2) The user causes the learning model to learn learning data using machine learning, adjusts the parameters of the learning model, and generates an analytical model that is a trained model.
(P3) The user analyzes the unknown document using the analysis model and generates an analysis result.
解析結果には、未知文書のテキストに対する付加情報が含まれる。例えば、形態素解析では、形態素間の境界位置、各形態素の品詞等が付加情報として生成される。機械学習の学習データとしては、入力データ及び出力データの組が用いられる。入力データは、解析対象の文書であり、出力データは、付加情報が付加された文書である。 The analysis result includes additional information for the text of the unknown document. For example, in morphological analysis, boundary positions between morphemes, parts of speech of each morpheme, etc. are generated as additional information. A set of input data and output data is used as learning data for machine learning. The input data is a document to be analyzed, and the output data is a document to which additional information is added.
学習データの作成には多大な作業負荷が発生するため、作業負荷を軽減するために、既存の学習データを部分的に変更して別の解析モデルの生成に転用する、学習データの再利用が増加している。学習データの再利用としては、例えば、次のような利用形態が挙げられる。
(a)ユーザは、機械学習の性能向上のため、既存の学習データを見直して変更し、より正確な学習データを作成する。
(b)ユーザは、機械学習の性能向上のため、既存の学習データの変更と新たな学習データの追加を行うことで、大規模な学習データを作成する。
(c)ユーザは、独自の基準に基づいて学習データをカスタマイズするため、既存の学習データを変更する。
Creating training data requires a large workload, so to reduce the workload, it is recommended to reuse the training data by partially changing the existing training data and reusing it to generate another analytical model. It has increased. Examples of reuse of learning data include the following usage patterns.
(a) In order to improve the performance of machine learning, the user reviews and changes existing learning data to create more accurate learning data.
(b) In order to improve the performance of machine learning, the user creates large-scale learning data by changing existing learning data and adding new learning data.
(c) Users modify existing learning data to customize the learning data based on their own criteria.
生物医学分野の自然言語処理に関連して、文書に含まれる固有表現に対して注釈を付与する技術が知られている(例えば、非特許文献1を参照)。 Related to natural language processing in the biomedical field, a technique for annotating named entities included in a document is known (see, for example, Non-Patent Document 1).
機械学習では相当量の学習データが用いられるため、一部の学習データのみが変更された場合、学習処理ではその変更がノイズとして扱われ、学習結果に反映されにくい。したがって、変更内容を学習結果に確実に反映させるためには、学習データ全体にわたって同様の変更を大量に行うことが望ましく、ユーザの作業負荷が増加する。 Machine learning uses a considerable amount of learning data, so if only a portion of the learning data is changed, the change is treated as noise in the learning process and is unlikely to be reflected in the learning results. Therefore, in order to ensure that the changes are reflected in the learning results, it is desirable to make a large number of similar changes over the entire learning data, which increases the user's workload.
なお、かかる問題は、自然言語処理の機械学習で用いられる学習データを変更する場合に限らず、様々な文書集合に含まれる情報を変更する場合において生ずるものである。 Note that this problem occurs not only when changing learning data used in machine learning for natural language processing, but also when changing information included in various document sets.
1つの側面において、本発明は、コンピュータが文書集合から変更候補を抽出することを目的とする。その結果、文書集合の情報を変更する変更作業が効率化される。 In one aspect, the present invention is directed to a computer extracting change candidates from a document collection. As a result, the modification work for modifying the information of the document collection becomes more efficient.
1つの案では、文書処理プログラムは、文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であってユーザが行った変更操作を示す変更事例を含む変更履歴に基づいて、文書集合に対してユーザが行う変更の変更対象を推定し、変更対象に対応するテキストを文書集合から抽出し、文書集合から抽出されたテキストを、文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、複数のクラスタのうち特定のクラスタに属するテキストの付加情報をユーザが変更した場合、特定のクラスタに属するテキストの付加情報に対する変更を、特定のクラスタに属する他のテキストの付加情報に反映させ、文書集合から抽出されたテキストを示す変更候補情報を出力する処理をコンピュータに実行させる。
In one proposal, the document processing program is based on a change history that indicates that a user has changed additional information of text included in a document set and includes a change example that indicates a change operation performed by the user . Estimates the change target of changes made by the user to the document set, extracts text corresponding to the change target from the document set, and converts the text extracted from the document set to the text that exists before and after the text extracted from the document set. By clustering based on text, multiple clusters are generated, and when the user changes the additional information of the text that belongs to a specific cluster among the multiple clusters, the change to the additional information of the text that belongs to the specific cluster is A computer is caused to perform a process of reflecting the additional information of other texts belonging to a specific cluster and outputting change candidate information indicating the text extracted from the document collection.
1つの側面によれば、文書集合の情報を変更する変更作業を効率化することができる。 According to one aspect, it is possible to streamline the modification work of modifying information on a document set.
以下、図面を参照しながら、実施形態を詳細に説明する。 Hereinafter, embodiments will be described in detail with reference to the drawings.
医療分野において、病気等に関連する論文を人間が読みながら、論文中の知識をデータベースに登録する作業が行われることがある。このような作業はキュレーションと呼ばれ、作業者はキュレータと呼ばれる。 In the medical field, there are cases in which humans read papers related to diseases and the like while registering the knowledge contained in the papers in a database. This kind of work is called curation, and the worker is called a curator.
非特許文献1の技術は、キュレーションを効率化するために利用される。この技術では、自然言語処理を用いて論文中に知識が記述されている箇所が強調表示されるとともに、強調表示された箇所に、注釈が付与される。知識が記述されている箇所としては、遺伝子、遺伝子変異、薬、病気等を表す固有表現が用いられ、注釈としては、固有表現の種類を示すタグ、固有表現間の関係等が用いられる。キュレータは、強調表示された箇所を中心にテキストを確認することで、データベースを整備することができる。
The technique of Non-Patent
図1は、医療分野のキュレーションにおいて、キュレータの端末装置の画面上に表示されるテキストの例を示している。図1のテキストは、英語で記述された医療分野の論文を表し、論文中の“p.R122W”、“FNMTC”(Familial Non-Medullary Thyroid Carcinoma)、及び“thyroid cancer”が、遺伝子変異又は病気に関する固有表現として抽出されている。抽出されたテキストは、マーカにより強調表示される。 FIG. 1 shows an example of text displayed on the screen of a curator's terminal device in curation in the medical field. The text in Figure 1 represents a paper in the medical field written in English, and “p.R122W”, “FNMTC” (Familial Non-Medullary Thyroid Carcinoma), and “thyroid cancer” in the paper represent genetic mutations or diseases. It has been extracted as a unique expression related to The extracted text is highlighted with a marker.
“p.R122W”は、特定の遺伝子変異を表す語句であり、“FNMTC”及び“thyroid cancer”は、特定の病気を表す語句である。“p.R122W”には、“Mutation”というタグが付与されており、“FNMTC”及び“thyroid cancer”には、“Disease”というタグが付与されている。さらに、“p.R122W”と“FNMTC”の間の関係として、“Pathogenic”の矢印が表示されており、“p.R122W”と“thyroid cancer”の間の関係として、“Pathogenic”の矢印が表示されている。 “p.R122W” is a phrase that represents a specific genetic mutation, and “FNMTC” and “thyroid cancer” are phrases that represent a specific disease. “p.R122W” is tagged with “Mutation,” and “FNMTC” and “thyroid cancer” are tagged with “Disease.” Furthermore, the “Pathogenic” arrow is displayed as the relationship between “p.R122W” and “FNMTC,” and the “Pathogenic” arrow is displayed as the relationship between “p.R122W” and “thyroid cancer.” Displayed.
キュレータは、これらのタグ及び関係から、“p.R122W”という遺伝子変異が“FNMTC”及び“thyroid cancer”という病気の原因になっていることを認識して、それらの知識をデータベースに登録する。また、キュレータは、各固有表現に付与されたタグ及び関係に基づいて、自然言語処理の処理結果に誤りが含まれているか否かを確認することができる。処理結果の誤りとしては、固有表現の抽出漏れ、固有表現の抽出誤り、タグ又は関係の誤り等が挙げられる。 Based on these tags and relationships, the curator recognizes that the genetic mutation "p.R122W" is the cause of the diseases "FNMTC" and "thyroid cancer" and registers this knowledge in the database. Further, the curator can check whether or not the processing result of natural language processing contains an error based on the tag and relationship given to each named entity. Errors in the processing results include failure to extract a named entity, an error in extracting a named entity, and an error in tags or relationships.
ここで、医療分野の論文から固有表現を抽出し、抽出された固有表現に注釈を付与する、自然言語処理の解析モデルを生成する場合を想定する。このような解析モデルの学習データとしては、入力データ及び出力データの組が用いられる。入力データは、解析対象の論文であり、出力データは、付加情報が付加された論文である。付加情報は、各固有表現のテキストの範囲と、各固有表現に対するタグと、固有表現間の関係とを含む。 Here, assume that a natural language processing analysis model is generated that extracts named entities from papers in the medical field and annotates the extracted named entities. A set of input data and output data is used as learning data for such an analytical model. The input data is a paper to be analyzed, and the output data is a paper with additional information added. The additional information includes the text range of each named entity, the tag for each named entity, and the relationship between the named entities.
解析モデルを用いたキュレーションにおいて、キュレータが知識をデータベースに登録する際に、自然言語処理の誤りを修正し、修正結果を解析モデルの学習データとして採用することも可能である。これにより、解析モデルによる自然言語処理の精度が徐々に向上し、キュレータの確認作業も徐々に効率化される。 In curation using an analytical model, when a curator registers knowledge in a database, it is also possible to correct errors in natural language processing and use the correction results as training data for the analytical model. As a result, the accuracy of natural language processing using analytical models will gradually improve, and curators' confirmation work will gradually become more efficient.
例えば、解析モデルの処理結果において、“advanced gastric cancer”に“病気”というタグが付与されている場合、キュレータは、タグに対応するテキストの範囲を、“advanced gastric cancer”から“gastric cancer”に変更することができる。この場合、“advanced gastric cancer”ではなく、“gastric cancer”に“病気”というタグが付与された、学習データが生成される。 For example, in the processing results of an analysis model, if "advanced gastric cancer" is tagged as "disease," the curator can change the range of text corresponding to the tag from "advanced gastric cancer" to "gastric cancer." Can be changed. In this case, learning data is generated in which "gastric cancer" is tagged with "disease" instead of "advanced gastric cancer."
しかしながら、キュレータがせいぜい数件の変更を行った程度では、変更内容が学習結果に反映されにくい、という問題がある。その理由は、機械学習では相当量の学習データが用いられるため、せいぜい数件の変更を追加しても、学習処理では追加された変更がノイズとして扱われ、学習結果に反映されないからである。したがって、変更内容を学習結果に反映させるためには、同様の変更を大量に行うことが望ましく、キュレータの作業負荷が増加する。 However, there is a problem in that when a curator makes at most a few changes, the changes are difficult to be reflected in the learning results. The reason for this is that machine learning uses a considerable amount of learning data, so even if you add at most a few changes, the added changes will be treated as noise in the learning process and will not be reflected in the learning results. Therefore, in order to reflect the changes in the learning results, it is desirable to make a large number of similar changes, which increases the curator's workload.
図2は、実施形態の文書処理装置の機能的構成例を示している。図2の文書処理装置201は、記憶部211、推定部212、抽出部213、及び出力部214を含む。記憶部211は、文書集合に含まれる情報をユーザが変更したことを示す変更履歴221を記憶する。推定部212、抽出部213、及び出力部214は、変更履歴221を用いて変更支援処理を行う。
FIG. 2 shows an example of the functional configuration of the document processing device according to the embodiment. The
図3は、図2の文書処理装置201が行う変更支援処理の例を示すフローチャートである。まず、推定部212は、変更履歴221に基づいて、文書集合に対してユーザが行う変更の変更対象を推定する(ステップ301)。次に、抽出部213は、変更対象に対応するテキストを文書集合から抽出する(ステップ302)。そして、出力部214は、文書集合から抽出されたテキストを示す変更候補情報を出力する(ステップ303)。
FIG. 3 is a flowchart illustrating an example of change support processing performed by the
図2の文書処理装置201によれば、文書集合の情報を変更する変更作業を効率化することができる。
According to the
図4は、図2の文書処理装置201の具体例を示している。図4の文書処理装置401は、記憶部411、解析部412、推定部413、抽出部414、分類部415、変更部416、生成部417、及び出力部418を含む。記憶部411、推定部413、抽出部414、及び出力部418は、図2の記憶部211、推定部212、抽出部213、及び出力部214にそれぞれ対応する。
FIG. 4 shows a specific example of the
記憶部411は、解析モデル421及び解析前文書集合422を記憶する。解析モデル421は、機械学習により生成された自然言語処理の学習済みモデルであり、解析対象の文書を解析して、付加情報を含む解析結果を生成する。解析前文書集合422は、解析対象の複数の文書を含み、各文書は、複数の部分文書を含む。部分文書は、章、段落、文等に対応する。
The
解析部412は、解析モデル421を用いて、解析前文書集合422に含まれる各文書を解析することで、付加情報が付加された文書を生成する。そして、解析部412は、生成された文書を含む解析後文書集合423を生成して、記憶部411に格納する。
The
医療分野のキュレーションの場合、解析前文書集合422は、例えば、医療分野の論文の集合であり、解析後文書集合423は、例えば、付加情報が付加された論文の集合である。この場合、付加情報は、各固有表現のテキストの範囲と、各固有表現に対するタグと、固有表現間の関係とを含む。 In the case of curation in the medical field, the pre-analysis document set 422 is, for example, a set of papers in the medical field, and the post-analysis document set 423 is, for example, a set of papers to which additional information has been added. In this case, the additional information includes the text range of each named entity, the tag for each named entity, and the relationship between the named entities.
ユーザは、文書処理装置401が有するユーザインタフェース、又は文書処理装置401と通信可能な端末装置を介して、解析後文書集合423に含まれる文書を編集することができる。
A user can edit documents included in the post-analysis document set 423 via a user interface included in the
出力部418は、表示装置又は通信装置であり、解析後文書集合423からユーザによって選択された文書を出力する。出力部418が表示装置である場合、出力部418は、ユーザによって選択された文書を画面上に表示する。出力部418が通信装置である場合、出力部418は、ユーザによって選択された文書を、通信ネットワークを介してユーザの端末装置へ送信する。端末装置は、文書処理装置401から受信した文書を画面上に表示する。
The
ユーザは、画面上に表示された文書に付加された付加情報を参照して、所望の変更操作を行う。このとき、ユーザは、付加情報を変更する変更指示を文書処理装置401に入力することで、その付加情報に対する変更操作を行う。変更部416は、入力された変更指示を受け付け、受け付けた変更指示に従って付加情報を変更する。そして、変更部416は、変更内容を変更事例として含む変更履歴424を生成して、記憶部411に格納する。これにより、ユーザが行った変更操作を示す複数の変更事例が、変更履歴424に蓄積される。変更履歴424は、図2の変更履歴221に対応する。
The user refers to the additional information added to the document displayed on the screen and performs a desired change operation. At this time, the user performs an operation to change the additional information by inputting a change instruction to change the additional information into the
推定部413は、変更履歴424に含まれる各変更事例を、複数の変更種類のいずれかに分類し、各変更事例に基づいて、解析後文書集合423に対してユーザが次に行う変更操作の変更対象を、変更種類毎に推定する。抽出部414は、変更種類毎の変更対象に対応するテキストを解析後文書集合423から検索し、変更種類毎の変更候補として抽出する。
The
変更種類としては、固有表現の範囲の短縮、固有表現の範囲の延長、固有表現の種類の変更、固有表現の追加、固有表現の削除、関係の追加、関係の削除、関係の種類の変更等を用いることができる。変更対象は、変更事例が示す変更前のテキストを特定するとともに、変更前のテキストの一部の語句又はその同義語を含み、かつ、変更前のテキストとは異なるテキストを特定する情報である。各変更種類の変更事例と変更事例から推定される変更対象の具体例は、以下の通りである。 Types of changes include shortening the scope of a named entity, extending the scope of a named entity, changing the type of named entity, adding a named entity, deleting a named entity, adding a relationship, deleting a relationship, changing the type of relationship, etc. can be used. The change target is information that specifies the text before change indicated by the change example, and also specifies a text that includes some words or synonyms of the text before change and is different from the text before change. Specific examples of change cases of each change type and change targets estimated from the change cases are as follows.
(C1)固有表現の範囲の短縮
固有表現のテキストの範囲が短縮される。変更事例としては、例えば、“advanced gastric cancer:薬”を“gastric cancer:薬”に変更する事例が挙げられる。“advanced gastric cancer:薬”は、変更前の固有表現の範囲が“advanced gastric cancer”であり、“advanced gastric cancer”に付与されたタグが“薬”であることを表す。一方、“gastric cancer:薬”は、変更後の固有表現の範囲が“gastric cancer”であり、“gastric cancer”に付与されたタグが“薬”であることを表す。
(C1) Shortening the range of named entity The text range of named entity is shortened. Examples of changes include, for example, changing "advanced gastric cancer: medicine" to "gastric cancer: medicine." “advanced gastric cancer: drug” indicates that the scope of the unique expression before the change is “advanced gastric cancer” and that the tag given to “advanced gastric cancer” is “drug.” On the other hand, "gastric cancer: medicine" means that the scope of the changed proper expression is "gastric cancer", and the tag given to "gastric cancer" is "medicine".
固有表現の範囲の短縮の場合、変更後の固有表現の末尾の語句又はその同義語を含み、変更後の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。変更後の固有表現の末尾の語句は、変更前の固有表現の一部でもある。同義語は、シソーラスにより決定される。この場合、変更候補の種類は、固有表現である。 In the case of shortening the range of a named entity, a named entity that includes the last term of the changed named entity or a synonym thereof and has the same tag as the changed named entity can be used as the changed entity. The word at the end of the modified named entity is also part of the original named entity. Synonyms are determined by a thesaurus. In this case, the type of change candidate is a named entity.
“advanced gastric cancer:薬”を“gastric cancer:薬”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer:薬”を用いることができる。“*”は、任意の文字列を表す。したがって、“薬”というタグが付与された“advanced gastric cancer”、“progressive gastric cancer”等の固有表現が、変更候補として抽出される。 For example, "* gastric cancer: drug" can be used as a change target estimated from a change example in which "advanced gastric cancer: drug" is changed to "gastric cancer: drug." “*” represents any character string. Therefore, unique expressions such as "advanced gastric cancer" and "progressive gastric cancer" that are tagged with "medicine" are extracted as modification candidates.
変更対象としては、“* cancer:薬”を用いることもできる。この場合、“advanced gastric cancer”、“progressive gastric cancer”等の固有表現に加えて、“advanced colon cancer”、“progressive colon cancer”等の固有表現も、変更候補として抽出される。 “* cancer: medicine” can also be used as the change target. In this case, in addition to specific expressions such as "advanced gastric cancer" and "progressive gastric cancer", specific expressions such as "advanced colon cancer" and "progressive colon cancer" are also extracted as modification candidates.
(C2)固有表現の範囲の延長
固有表現のテキストの範囲が延長される。変更事例としては、例えば、“gastric cancer:薬”を“advanced gastric cancer:薬”に変更する事例が挙げられる。固有表現の範囲の延長の場合、変更前の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。
(C2) Extension of the scope of a named entity The text scope of a named entity is extended. Examples of changes include, for example, changing "gastric cancer: medicine" to "advanced gastric cancer: medicine." In the case of extending the range of a named entity, a named entity that includes the last term or a synonym of the named entity before change and has the same tag as the named entity before change can be used as the change target. In this case, the type of change candidate is a named entity.
“gastric cancer:薬”を“advanced gastric cancer:薬”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer:薬”又は“* cancer:薬”を用いることができる。 For example, "* gastric cancer: medicine" or "* cancer: medicine" can be used as a change target estimated from a change example in which "gastric cancer: medicine" is changed to "advanced gastric cancer: medicine."
(C3)固有表現の種類の変更
固有表現のタグが変更される。変更事例としては、例えば、“gastric cancer:薬”を“gastric cancer:がん”に変更する事例が挙げられる。固有表現の種類の変更の場合、変更前後の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。
(C3) Changing the type of named entity The tag of the named entity is changed. Examples of changes include changing "gastric cancer: medicine" to "gastric cancer: cancer." In the case of changing the type of named entity, a named entity that includes the last words or synonyms of the named entity before and after the change and has the same tag as the named entity before the change can be used as the change target. In this case, the type of change candidate is a named entity.
“gastric cancer:薬”を“gastric cancer:がん”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer:薬”又は“* cancer:薬”を用いることができる。 For example, "* gastric cancer: medicine" or "* cancer: medicine" can be used as the change target estimated from a change example in which "gastric cancer: medicine" is changed to "gastric cancer: cancer."
(C4)固有表現の追加
固有表現のテキストの範囲とタグが、付加情報に追加される。変更事例としては、例えば、“-”を“nivolumab:薬”に変更する事例が挙げられる。“-”は、変更前の固有表現の範囲が指定されていないことを表す。一方、“nivolumab:薬”は、変更後の固有表現の範囲が“nivolumab”であり、“nivolumab”に付与されたタグが“薬”であることを表す。
(C4) Addition of named entity The text range and tag of the named entity are added to the additional information. An example of a change is, for example, changing "-" to "nivolumab: drug". “-” indicates that the range of the unique expression before change is not specified. On the other hand, "nivolumab: medicine" indicates that the scope of the changed named entity is "nivolumab" and that the tag given to "nivolumab" is "medicine."
固有表現の追加の場合、変更後の固有表現の末尾の語句又はその同義語を、変更対象として用いることができる。変更後の固有表現の末尾の語句は、変更前の固有表現の一部でもある。この場合、変更候補の種類は、文字列である。 In the case of adding a named entity, the word at the end of the changed named entity or its synonym can be used as the change target. The word at the end of the modified named entity is also part of the original named entity. In this case, the type of change candidate is a character string.
“-”を“nivolumab:薬”に変更する変更事例から推定される変更対象としては、例えば、“nivolumab”又は“AAAAAA”を用いることができる。“AAAAAA”は、“nivolumab”の同義語を表す。この場合、“nivolumab”又は“AAAAAA”が、変更候補として抽出される。 For example, "nivolumab" or "AAAAAA" can be used as a change target estimated from a change example in which "-" is changed to "nivolumab: drug." “AAAAAA” represents a synonym for “nivolumab”. In this case, "nivolumab" or "AAAAAA" is extracted as a change candidate.
(C5)固有表現の削除
固有表現のテキストの範囲とタグが、付加情報から削除される。変更事例としては、例えば、“nivolumab:薬”を“-”に変更する事例が挙げられる。固有表現の削除の場合、変更前の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。
(C5) Deletion of named entity The text range and tag of the named entity are deleted from the additional information. An example of a change is, for example, changing "nivolumab: drug" to "-". In the case of deletion of a named entity, a named entity that includes the last term of the named entity before change or a synonym thereof and has the same tag as the named entity before change can be used as the change target. In this case, the type of change candidate is a named entity.
“nivolumab:薬”を“-”に変更する変更事例から推定される変更対象としては、例えば、“* nivolumab:薬”又は“* AAAAAA:薬”を用いることができる。この場合、“薬”というタグが付与された“nivolumab”、“AAAAAA”等の固有表現が、変更候補として抽出される。 For example, "* nivolumab: drug" or "* AAAAAA: drug" can be used as a change target estimated from a change example in which "nivolumab: drug" is changed to "-". In this case, unique expressions such as "nivolumab" and "AAAAAA" that are tagged as "medicine" are extracted as modification candidates.
(C6)関係の追加
固有表現間の関係が付加情報に追加される。変更事例としては、例えば、“gefitinib:薬”と“lung cancer:病気”との間に“効果あり”という関係を追加する事例が挙げられる。
(C6) Addition of relationship The relationship between named entities is added to the additional information. Examples of changes include, for example, adding the relationship "effective" between "gefitinib (drug)" and "lung cancer (disease)."
関係の追加の場合、関係が付与されていない固有表現E1と固有表現E2との組を、変更対象として用いることができる。固有表現E1は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現E2は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与されていない固有表現の組である。 In the case of adding a relationship, a pair of named entity E1 and named entity E2 to which no relationship is assigned can be used as a change target. The named entity E1 represents a named entity that includes the last term or a synonym thereof of one of the named named entities before change, and is given the same tag as that named named entity. The named entity E2 represents a named entity that includes the last term of the other named entity before change or a synonym thereof, and is given the same tag as that named entity. In this case, the type of change candidate is a set of named entities to which no relationship is assigned.
“gefitinib:薬”と“lung cancer:病気”との間に“効果あり”という関係を追加する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib:薬”と“* cancer:病気”との組を用いることができる。ただし、関係が付与されていない組のみが、変更対象として指定される。この場合、“gefitinib:薬”と“lung cancer:病気”との組、“gefitinib:薬”と“gastric cancer:病気”との組等が、変更候補として抽出される。 For example, the change target estimated from the example of a change that adds the relationship "effective" between "gefitinib: drug" and "lung cancer: disease" is that "* gefitinib: drug" and "lung cancer: disease" that appear in the same sentence. A combination with “* cancer: disease” can be used. However, only pairs to which no relationship is assigned are designated as change targets. In this case, a set of "gefitinib: medicine" and "lung cancer: disease", a set of "gefitinib: medicine" and "gastric cancer: disease", etc. are extracted as change candidates.
(C7)関係の削除
固有表現間の関係が付加情報から削除される。変更事例としては、例えば、“gefitinib:薬”と“lung cancer:病気”との間の“効果あり”という関係を削除する事例が挙げられる。
(C7) Deletion of relationship The relationship between named entities is deleted from the additional information. Examples of changes include, for example, the deletion of the relationship ``effective'' between ``gefitinib (drug)'' and ``lung cancer (disease)''.
関係の削除の場合、変更前の関係が付与された固有表現E1と固有表現E2との組を、変更対象として用いることができる。固有表現E1は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現E2は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与された固有表現の組である。 In the case of deletion of a relationship, the pair of named entity E1 and named entity E2 to which the relationship before change has been assigned can be used as a change target. The named entity E1 represents a named entity that includes the last term or a synonym thereof of one of the named named entities before change, and is given the same tag as that named named entity. The named entity E2 represents a named entity that includes the last term of the other named entity before change or a synonym thereof, and is given the same tag as that named entity. In this case, the type of change candidate is a set of named entities to which a relationship is attached.
“gefitinib:薬”と“lung cancer:病気”との間の“効果あり”という関係を削除する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib:薬”と“* cancer:病気”との組を用いることができる。ただし、“効果あり”という関係が付与された組のみが、変更対象として指定される。この場合、“効果あり”という関係が付与された“gefitinib:薬”と“lung cancer:病気”との組、“gefitinib:薬”と“gastric cancer:病気”との組等が、変更候補として抽出される。 For example, an example of a change that can be estimated from a change example that deletes the relationship "effective" between "gefitinib: drug" and "lung cancer: disease" is when "* gefitinib: drug" and "lung cancer: disease" appear in the same sentence. A combination with “* cancer: disease” can be used. However, only the groups to which the relationship of "effective" has been assigned are designated as change targets. In this case, the combination of ``gefitinib: drug'' and ``lung cancer: disease'' and the pair of ``gefitinib: drug'' and ``gastric cancer: disease,'' which are given the relationship ``effective,'' are candidates for change. Extracted.
(C8)関係の種類の変更
固有表現間の関係が変更される。変更事例としては、例えば、“gefitinib:薬”と“lung cancer:病気”との間の関係を“効果あり”から“効果なし”に変更する事例が挙げられる。
(C8) Change of relationship type The relationship between named entities is changed. Examples of changes include, for example, changing the relationship between "gefitinib (drug)" and "lung cancer (disease)" from "effective" to "ineffective."
関係の種類の変更の場合、変更前の関係が付与された固有表現E1と固有表現E2との組を、変更対象として用いることができる。固有表現E1は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現E2は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与された固有表現の組である。 In the case of changing the type of relationship, the set of named entity E1 and named entity E2 to which the relationship before change has been assigned can be used as a change target. The named entity E1 represents a named entity that includes the last term or a synonym thereof of one of the named named entities before change, and is given the same tag as that named named entity. The named entity E2 represents a named entity that includes the last term of the other named entity before change or a synonym thereof, and is given the same tag as that named entity. In this case, the type of change candidate is a set of named entities to which a relationship is attached.
“gefitinib:薬”と“lung cancer:病気”との間の関係を“効果あり”から“効果なし”に変更する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib:薬”と“* cancer:病気”との組を用いることができる。ただし、“効果あり”という関係が付与された組のみが、変更対象として指定される。 For example, the change target estimated from a change case in which the relationship between “gefitinib: drug” and “lung cancer: disease” is changed from “effective” to “ineffective” is “*” that appears in the same sentence. A combination of "gefitinib: drug" and "* cancer: disease" can be used. However, only the groups to which the relationship of "effective" has been assigned are designated as change targets.
(C1)~(C8)に示したような変更対象を推定結果として用いることで、変更事例が示す変更前の固有表現のみならず、変更前の固有表現の一部の語句又はその同義語を含む別の固有表現を変更対象に含めることができる。これにより、ユーザが次に行う変更操作を事前に予測して、予測結果に基づく変更候補を解析後文書集合423から抽出することが可能になる。 By using the change targets shown in (C1) to (C8) as estimation results, it is possible to calculate not only the named entity before change indicated by the change example, but also some words or phrases of the named entity before change or their synonyms. You can include another named entity in the change target. This makes it possible to predict in advance the change operation that the user will perform next, and to extract change candidates from the analyzed document set 423 based on the prediction results.
変更種類毎の変更候補が抽出された後、推定部413は、解析後文書集合423における変更種類毎の変更候補の出現頻度を求め、その出現頻度に基づいて、複数の変更種類のうち特定の変更種類を選択する。
After the change candidates for each change type are extracted, the
また、推定部413は、変更種類毎の変更候補の出現頻度と、各文書中の各部分文書に含まれる変更種類毎の変更候補の個数とに基づいて、各部分文書の評価値を計算し、計算された評価値に基づいて、特定の部分文書を選択する。
Furthermore, the
図5は、変更履歴424に含まれる変更事例の分類結果の例を示している。変更IDは、変更種類の識別情報であり、変更前付加情報は、変更事例が示す変更操作が行われる前の付加情報を表し、変更後付加情報は、変更事例が示す変更操作が行われた後の付加情報を表す。変更対象は、変更事例から推定される変更対象を表し、変更候補の種類は、変更対象に対応するテキストの種類を表し、事例スコア1及び事例スコア2は、変更種類の評価値を表す。
FIG. 5 shows an example of classification results of change cases included in the
変更ID“1”は、固有表現の範囲の短縮を示し、“progressive gastric cancer:病気”を“gastric cancer:病気”に変更する変更事例が、変更ID“1”に分類されている。この例では、“* gastric cancer:病気”が変更対象に決定される。 Change ID "1" indicates a shortening of the range of the named entity, and a change example in which "progressive gastric cancer: disease" is changed to "gastric cancer: disease" is classified as change ID "1". In this example, "* gastric cancer: disease" is determined to be changed.
変更ID“2”は、固有表現の種類の変更を示し、“AAAAAA:製品”を“AAAAAA:薬品”に変更する変更事例が、変更ID“2”に分類されている。この例では、“* AAAAAA:製品”又は“nivolumab:製品”が変更対象に決定される。 Change ID “2” indicates a change in the type of named entity, and a change example in which “AAAAAA: product” is changed to “AAAAAA: drug” is classified as change ID “2”. In this example, “*AAAAAA:Product” or “nivolumab:Product” is determined to be changed.
変更ID“3”は、固有表現の追加を示し、“-”を“nivolumab:薬”に変更する変更事例が、変更ID“3”に分類されている。この例では、“nivolumab”又は“AAAAAA”が変更対象に決定される。 Change ID “3” indicates addition of a named entity, and a change example in which “-” is changed to “nivolumab: drug” is classified as change ID “3”. In this example, "nivolumab" or "AAAAAA" is determined to be changed.
変更ID“4”は、固有表現の削除を示し、“tumor:病気”を“-”に変更する変更事例が、変更ID“4”に分類されている。この例では、“* tumor:病気”が変更対象に決定される。 Change ID “4” indicates deletion of a named entity, and a change example in which “tumor: disease” is changed to “-” is classified as change ID “4”. In this example, "*tumor: disease" is determined to be the change target.
変更ID“5”は、関係の削除を示し、“gefitinib:薬”と“lung cancer:病気”との間の“=>”という関係を削除する変更事例が、変更ID“5”に分類されている。この例では、“=>”という関係が付与された“* gefitinib:薬”と“* lung cancer:病気”との組が、変更対象に決定される。 Change ID “5” indicates deletion of a relationship, and a change example that deletes the relationship “=>” between “gefitinib: drug” and “lung cancer: disease” is classified as change ID “5”. ing. In this example, the pair of "* gefitinib: drug" and "* lung cancer: disease" to which the relationship "=>" is attached is determined to be the change target.
図6は、部分文書の一例である段落の評価値の例を示している。段落IDは、解析後文書集合423に含まれる各文書中の各段落の識別情報であり、段落スコアは、段落の評価値を表す。変更IDは、段落から抽出された変更候補に対応する変更種類の変更IDを表す。図6の例では、簡単のため、段落“1”~段落“4”のみが示されているが、解析後文書集合423には、より多くの段落が含まれていてもよい。 FIG. 6 shows an example of evaluation values for a paragraph, which is an example of a partial document. The paragraph ID is identification information of each paragraph in each document included in the post-analysis document set 423, and the paragraph score represents the evaluation value of the paragraph. The change ID represents the change ID of the change type corresponding to the change candidate extracted from the paragraph. In the example of FIG. 6, only paragraphs “1” to “4” are shown for simplicity, but the post-analysis document set 423 may include more paragraphs.
推定部413は、各段落から抽出された変更候補毎に、変更候補に対応する変更対象を特定し、特定された変更対象が属する変更種類の変更IDを求める。例えば、段落“1”には、変更ID“1”、変更ID“2”、及び変更ID“4”それぞれに対応する変更候補が1個ずつ含まれている。また、段落“2”には、変更ID“3”及び変更ID“4”それぞれに対応する変更候補が1個ずつ含まれている。
For each change candidate extracted from each paragraph, the
推定部413は、すべての段落から抽出されたすべての変更候補の変更IDを基に、各変更種類の変更候補の出現頻度を求め、求めた出現頻度を、図5の事例スコア1として記録する。例えば、変更ID“1”は、段落“1”、段落“3”、及び段落“4”に1個ずつ含まれているため、変更ID“1”の事例スコア1は“3”となる。また、変更ID“2”は、段落“1”に1個だけ含まれているため、変更ID“2”の事例スコア1は“1”となる。
The
次に、推定部413は、各段落に含まれる変更IDの事例スコア1の合計を、図6の段落スコアとして記録する。例えば、段落“1”の段落スコアは、変更ID“1”、変更ID“2”、及び変更ID“4”の事例スコア1の合計であり、段落スコアは“8”となる。また、段落“2”の段落スコアは、変更ID“3”及び変更ID“4”の事例スコア1の合計であり、段落スコアは“7”となる。
Next, the estimating
次に、推定部413は、各変更IDの変更候補を含む段落の段落スコアの合計を求め、段落スコアの合計に変更IDの事例スコア1を乗算することで、事例スコア2を計算する。
Next, the estimating
例えば、変更ID“1”は、段落“1”、段落“3”、及び段落“4”に含まれているため、段落スコアの合計は、8+11+10=29となる。そして、変更ID“1”の事例スコア1は“3”であるため、変更ID“1”の事例スコア2は、3*29=87となる。 For example, since change ID "1" is included in paragraph "1", paragraph "3", and paragraph "4", the total paragraph score is 8+11+10=29. Since the case score 1 of the change ID "1" is "3", the case score 2 of the change ID "1" is 3*29=87.
また、変更ID“2”は、段落“1”だけに含まれているため、段落スコアの合計は、“8”となる。そして、変更ID“2”の事例スコア1は“1”であるため、変更ID“2”の事例スコア2は、1*8=8となる。 Furthermore, since the change ID "2" is included only in the paragraph "1", the total paragraph score is "8". Since the case score 1 of the change ID "2" is "1", the case score 2 of the change ID "2" is 1*8=8.
次に、推定部413は、事例スコア2が大きい順に変更種類を選択するとともに、段落スコアが大きい順にM件(Mは1以上の整数)の段落を、特定の部分文書として選択する。
Next, the estimating
生成部417は、選択された特定の部分文書を強調表示する情報を含む変更候補情報を生成し、出力部418は、生成された変更候補情報を出力する。
The
出力部418が表示装置である場合、出力部418は、特定の部分文書を含む文書を画面上に表示し、特定の部分文書のテキストを強調表示する。強調表示の形態としては、テキストの表示色の変更、テキストに対するマーカ又は囲み枠の追加等を用いることができる。出力部418が通信装置である場合、出力部418は、特定の部分文書を含む文書と変更候補情報とを、通信ネットワークを介してユーザの端末装置へ送信する。端末装置は、文書処理装置401から受信した文書を画面上に表示し、特定の部分文書のテキストを強調表示する。
When the
図7は、強調表示された部分文書の例を示している。“BBB mutation”、“gastric cancer”、“celecoxib”、“advanced gastric cancer”、“gefitinib”、“bladder cancer”、及び“lung cancer”は変更候補を表し、段落701は、強調表示された部分文書を表す。段落701は、表示色の変更、マーカ、囲み枠等により強調表示される。
FIG. 7 shows an example of a highlighted partial document. “BBB mutation”, “gastric cancer”, “celecoxib”, “advanced gastric cancer”, “gefitinib”, “bladder cancer”, and “lung cancer” represent candidate changes, and
例えば、“gastric cancer”及び“advanced gastric cancer”は、“* gastric cancer:病気”という変更対象に対応する変更候補である。この変更対象は、例えば、“progressive gastric cancer:病気”を“gastric cancer:病気”に変更する変更事例から推定される。 For example, "gastric cancer" and "advanced gastric cancer" are change candidates corresponding to the change target "* gastric cancer: disease." This change target is estimated from, for example, a change example in which "progressive gastric cancer: disease" is changed to "gastric cancer: disease."
“gastric cancer”及び“advanced gastric cancer”に付与されたタグ“病気”は、各変更候補のテキストをクリックすることで、画面上に表示される。また、変更候補間の関係は、変更候補間の矢印をクリックすることで、画面上に表示される。 The tag "disease" attached to "gastric cancer" and "advanced gastric cancer" can be displayed on the screen by clicking on the text of each candidate change. Furthermore, the relationship between the change candidates is displayed on the screen by clicking the arrows between the change candidates.
ユーザは、強調表示された段落中の変更候補と、その変更候補に付与されたタグと、変更候補間の関係とを確認し、それらの付加情報に対する所望の変更操作を行う。変更部416は、ユーザが入力した変更指示を受け付け、受け付けた変更指示に従って付加情報を変更する。そして、変更部416は、変更内容を示す変更事例を変更履歴424に追加する。
The user checks the change candidates in the highlighted paragraph, the tags attached to the change candidates, and the relationships between the change candidates, and performs a desired change operation on the additional information. The changing
このように、推定部413及び抽出部414を設けることで、ユーザが解析後文書集合423に含まれる付加情報を変更した場合、変更事例に関連する変更候補が自動的に抽出されて、ユーザに提示される。提示される変更候補は、解析後文書集合423内で変更事例とは異なる位置に出現する、変更事例と同じテキストである場合もあり、変更事例と類似しているが微妙に異なるテキストである場合もある。
In this way, by providing the
ユーザは、提示された変更候補を確認して変更するだけで、解析後文書集合423に対して、変更事例と同様の変更操作を行うことができる。したがって、新たな変更候補を手作業で検索する必要がなくなり、変更作業が効率化される。この場合、強調表示された部分文書中の変更候補が変更される可能性が高くなり、それ以外の部分文書中の変更候補が変更される可能性は低くなる。 The user can perform the same modification operation as the modification example on the analyzed document set 423 by simply checking and modifying the presented modification candidates. Therefore, there is no need to manually search for new change candidates, making the change work more efficient. In this case, the possibility that the change candidates in the highlighted partial document will be changed increases, and the possibility that the change candidates in other partial documents will be changed becomes low.
例えば、医療分野のキュレーションの場合、ユーザであるキュレータは、過去に変更した付加情報と同様の付加情報を変更する可能性が高い。 For example, in the case of curation in the medical field, a curator who is a user is likely to change additional information similar to additional information changed in the past.
一例として、キュレータが、“病気”というタグが付与された固有表現の範囲を、“advanced gastric cancer”から“gastric cancer”に変更し、さらに、いくつかの病気についても、修飾表現をタグの付与対象から除外した場合を想定する。この場合、そのキュレータは、病気の修飾表現をタグの付与対象から除外する変更操作を繰り返す可能性がある。 As an example, a curator changes the scope of a named entity tagged “disease” from “advanced gastric cancer” to “gastric cancer,” and also adds modified expressions to tags for some diseases. Assume the case where it is excluded from the target. In this case, the curator may repeat the change operation to exclude the modified expression of disease from being tagged.
別の例として、キュレータが、“病気”というタグが付与された“melancholia”(鬱病)、“postpartum depression”(産後鬱)等の固有表現を、タグの付与対象から除外した場合を想定する。この場合、そのキュレータは、精神病に興味を持っていないという理由により、精神病に関する表現をタグの付与対象から除外する変更操作を繰り返す可能性がある。 As another example, assume that the curator excludes unique expressions such as "melancholia" (depression) and "postpartum depression" (postpartum depression) that have been tagged as "illness" from being tagged. In this case, the curator may repeat the change operation of excluding expressions related to mental illness from being tagged because he or she is not interested in mental illness.
さらに別の例として、キュレータが、“薬”というタグが付与された“gefitinib”に関する固有表現間の関係をいくつか削除した場合を想定する。この場合、FDA(Food and Drug Administration)によるgefitinibの認定が取り消されたという理由により、そのキュレータは、“薬”というタグが付与された“gefitinib”に関するあらゆる関係を削除する変更操作を繰り返す可能性がある。 As yet another example, assume that the curator deletes some relationships between named entities related to "gefitinib" which is tagged as "drug". In this case, because the FDA (Food and Drug Administration) certification of gefitinib has been revoked, the curator may repeat the change operation to remove all relationships related to ``gefitinib'' with the tag ``drug.'' There is.
したがって、ユーザが過去に行った変更操作を示す変更事例に基づいて変更対象を推定することで、ユーザが変更する可能性の高い変更候補を抽出して提示することが可能になる。変更候補をユーザに提示し、ユーザが実際に変更した変更候補を変更事例として変更履歴424に追加することで、ユーザによる変更操作の情報が蓄積され、変更対象の推定精度が向上する。
Therefore, by estimating the change target based on change examples indicating change operations performed by the user in the past, it becomes possible to extract and present change candidates that are likely to be changed by the user. By presenting change candidates to the user and adding change candidates actually changed by the user to the
変更候補をユーザに提示する際に、各部分文書に含まれる変更候補の個数に基づいて部分文書の評価値を計算し、部分文書の評価値に基づいて、強調表示される部分文書を選択することで、より多くの変更候補を含む部分文書を優先的に提示することができる。したがって、ユーザは、提示された部分文書に対する複数の変更操作を集中的に行うことができ、変更作業がさらに効率化される。 When presenting change candidates to the user, calculate the evaluation value of the partial document based on the number of change candidates included in each partial document, and select the partial document to be highlighted based on the evaluation value of the partial document. This allows partial documents containing more change candidates to be presented preferentially. Therefore, the user can intensively perform multiple modification operations on the presented partial document, and the modification work can be made more efficient.
上述した(C1)~(C8)のような変更種類毎に変更対象を推定することで、変更種類の特徴に応じた適切な変更候補を提示することが可能になる。例えば、“advanced gastric cancer:薬”が“gastric cancer:薬”に変更された場合、“advanced gastric cancer:薬”、“advanced colon cancer:薬”、“progressive colon cancer:薬”等が、変更候補として提示される。 By estimating the change target for each change type such as (C1) to (C8) described above, it becomes possible to present appropriate change candidates according to the characteristics of the change type. For example, if "advanced gastric cancer: medicine" is changed to "gastric cancer: medicine", "advanced gastric cancer: medicine", "advanced colon cancer: medicine", "progressive colon cancer: medicine", etc. are candidates for change. presented as.
また、“gastric cancer:病気”が“gastric cancer:がん”に変更された場合、“gastric cancer:病気”、“colon cancer:病気”等が、変更候補として提示される。“gefitinib:薬”と“lung cancer:病気”との間の関係が削除された場合、同じ関係が付与された“gefitinib:薬”と“lung cancer:病気”との組、“gefitinib:薬”と“colorectal cancer:病気”との組等が、変更候補として提示される。 Furthermore, when "gastric cancer: disease" is changed to "gastric cancer: cancer", "gastric cancer: disease", "colon cancer: disease", etc. are presented as change candidates. If the relationship between “gefitinib: drug” and “lung cancer: disease” is deleted, the pair “gefitinib: drug” and “lung cancer: disease” with the same relationship, “gefitinib: drug” and “colorectal cancer: disease” are presented as candidates for change.
なお、強調表示された部分文書に含まれる変更候補は、ユーザが変更する可能性の高い変更候補であるが、必ずしもユーザが希望する変更候補であるとは限らない。強調表示された部分文書の変更候補を変更する必要がない場合、ユーザは、変更操作を行うことなく、文書処理装置401に対して別の変更候補の提示を要求する。この場合、文書処理装置401は、次に大きな段落スコアを有する部分文書を強調表示する。
Note that the change candidates included in the highlighted partial document are change candidates that are likely to be changed by the user, but are not necessarily the change candidates that the user desires. If there is no need to change the change candidate of the highlighted partial document, the user requests the
図5の変更事例では、解析後文書集合423に含まれる文書のテキストに付加された付加情報が変更されているが、ユーザは、任意の文書集合に含まれる文書のテキスト自体を変更することもできる。ユーザが文書のテキストを変更した場合も、付加情報が変更された場合と同様にして、変更事例に関連する変更候補が自動的に抽出され、ユーザに提示される。 In the change example shown in FIG. 5, the additional information added to the text of the document included in the post-analysis document set 423 is changed, but the user can also change the text itself of the document included in any document set. can. Even when a user changes the text of a document, change candidates related to the change example are automatically extracted and presented to the user in the same way as when additional information is changed.
変更候補が自動的に抽出されてユーザに提示されたとしても、ユーザが提示された多数の変更候補を1つずつ確認して変更する場合、ユーザの作業負荷が増加する。したがって、ユーザが同様の変更を数件程度行うだけで、その変更内容が解析後文書集合423全体に反映されることが望ましい。 Even if change candidates are automatically extracted and presented to the user, the user's workload increases if the user reviews and changes the many presented change candidates one by one. Therefore, it is desirable that the user only need to make a few similar changes and the changes will be reflected in the entire post-analysis document set 423.
そこで、分類部415は、解析後文書集合423から抽出された変更候補のテキストを、そのテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する。
Therefore, the
例えば、分類部415は、推定部413により選択された変更種類の変更候補を、その変更候補の前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する。各クラスタには、1つ以上の変更候補が含まれる。そして、分類部415は、生成されたクラスタを、分類結果425として記憶部411に格納する。
For example, the
クラスタリングのアルゴリズムとしては、階層型クラスタリング又は非階層型クラスタリングを用いることができる。例えば、非階層型クラスタリングの一例であるk-means法を採用した場合、以下の手順で分類結果425を生成することができる。
(P11)分類部415は、変更候補のテキストの前後のW個(Wは1以上の整数)の単語を、bag of wordsによりベクトル化することで、変更候補の周辺の文脈を表す単語ベクトルを生成する。
(P12)分類部415は、k-means法により、生成された単語ベクトルをC個(Cは2以上の整数)のクラスタに分類する。k-means法の距離関数としては、特徴ベクトル間のコサイン距離、ユークリッド距離、マハラノビス距離等を用いることができる。
Hierarchical clustering or non-hierarchical clustering can be used as a clustering algorithm. For example, when the k-means method, which is an example of non-hierarchical clustering, is adopted, the
(P11) The
(P12) The
図8は、変更候補から生成された単語ベクトルの例を示している。出現位置IDは、解析後文書集合423における変更候補の識別情報であり、直前のW単語は、文書中で変更候補の直前に出現するW個の単語を表し、直後のW単語は、文書中で変更候補の直後に出現するW個の単語を表す。この例では、W=3である。単語ベクトルは、直前のW単語及び直後のW単語から、bag of wordsにより生成された単語ベクトルを表す。 FIG. 8 shows an example of word vectors generated from change candidates. The appearance position ID is the identification information of the change candidate in the post-analysis document set 423, the immediately preceding W word represents the W words that appear immediately before the change candidate in the document, and the immediately following W word represents the W words that appear immediately before the change candidate in the document. represents the W words that appear immediately after the change candidate. In this example, W=3. The word vector represents a word vector generated by a bag of words from the immediately preceding W word and the immediately following W word.
例えば、出現位置ID“1”の変更候補の直前には、“aa”、“bb”、及び“cc”の3個の単語が出現し、直後には、“dd”、“ee”、及び“ff”の3個の単語が出現する。出現位置ID“2”の変更候補の直前には、“dd”、“ee”、及び“gg”の3個の単語が出現し、直後には、“aa”、“ee”、及び“cc”の3個の単語が出現する。出現位置ID“3”の変更候補の直前には、“aa”、“bb”、及び“dd”の3個の単語が出現し、直後には、“ee”、“ff”、及び“gg”の3個の単語が出現する。 For example, immediately before the change candidate with appearance position ID "1", three words "aa", "bb", and "cc" appear, and immediately after, "dd", "ee", and Three words "ff" appear. Immediately before the change candidate with appearance position ID "2", three words "dd", "ee", and "gg" appear, and immediately after that, "aa", "ee", and "cc" appear. ” three words appear. Immediately before the change candidate with appearance position ID "3", three words "aa", "bb", and "dd" appear, and immediately after that, "ee", "ff", and "gg" appear. ” three words appear.
単語ベクトルの各要素は、[aa,bb,cc,dd,ee,ff,gg]の順で、各単語の出現回数を表す。例えば、出現位置ID“1”の直前のW単語及び直後のW単語には、“aa”、“bb”、“cc”、“dd”、“ee”、及び“ff”が1回ずつ出現し、“gg”が出現していないため、単語ベクトルは[1,1,1,1,1,1,0]となる。 Each element of the word vector represents the number of times each word appears in the order [aa, bb, cc, dd, ee, ff, gg]. For example, "aa", "bb", "cc", "dd", "ee", and "ff" appear once in the W word immediately before and immediately after the appearance position ID "1". However, since "gg" does not appear, the word vector becomes [1, 1, 1, 1, 1, 1, 0].
変更部416は、分類結果425に含まれるC個のクラスタのうち、特定のクラスタに属する変更候補の付加情報をユーザが変更した場合、その変更操作に従って付加情報を変更するとともに、同じクラスタに属する他の変更候補の付加情報も同様に変更する。そして、変更部416は、そのクラスタのすべての変更候補に対する変更内容を、変更事例として変更履歴424に追加する。これにより、ユーザが行った変更操作が、同じクラスタに属する他の変更候補にも自動的に反映される。
When the user changes the additional information of a change candidate that belongs to a specific cluster among the C clusters included in the
このように、分類部415を設けることで、同じ変更種類に属する変更候補であっても、周辺の文脈に応じて各変更候補を異なるクラスタに分類することができる。ユーザは各クラスタに含まれる変更候補のうち、強調表示された部分文書に含まれる代表的な変更候補を変更するだけで、同じクラスタに属する他の変更候補も同時に変更することが可能になる。
In this way, by providing the
ところで、クラスタリングには長い時間がかかることが多く、速い場合であっても、N個の変更候補に対する計算量は、O(N^2)である。変更対象として、変更事例が示す変更前の固有表現のみを用いた場合、ユーザが、前回とは異なる変更候補を対象とする新たな変更操作を行う度に、その変更候補の検索及びクラスタリングが実行される。この場合、新たな変更操作を行う度に、クラスタリングの終了を待ち合わせる待ち時間が発生し、作業効率が低下する。 By the way, clustering often takes a long time, and even if it is fast, the amount of calculation for N change candidates is O(N^2). If only the unique expression before change indicated by the change example is used as the change target, each time the user performs a new change operation targeting a change candidate different from the previous one, the search and clustering of the change candidate will be performed. be done. In this case, each time a new change operation is performed, a waiting time is generated to wait for the completion of clustering, which reduces work efficiency.
例えば、ユーザが“advanced gastric cancer:薬”を“gastric cancer:薬”に変更する第1の変更操作を行った場合、解析後文書集合423の他の部分から、“advanced gastric cancer:薬”が検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。ユーザが各クラスタに含まれる代表的な変更候補を変更する第2の変更操作を行うと、同じクラスタに属するすべての変更候補がまとめて変更される。 For example, if the user performs the first change operation to change “advanced gastric cancer: medicine” to “gastric cancer: medicine”, “advanced gastric cancer: medicine” will be changed from other parts of the post-analysis document set 423. It is searched and extracted as a change candidate. The extracted change candidates are then clustered and presented to the user. When the user performs a second change operation to change a representative change candidate included in each cluster, all change candidates belonging to the same cluster are changed at once.
次に、ユーザが“advanced colon cancer:薬”を“colon cancer:薬”に変更する第3の変更操作を行った場合、解析後文書集合423の他の部分から、“advanced colon cancer:薬”が検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。ユーザが各クラスタに含まれる代表的な変更候補を変更する第4の変更操作を行うと、同じクラスタに属するすべての変更候補がまとめて変更される。この場合、第3の変更操作から第4の変更操作までの間に待ち時間が発生し、作業効率が低下する。 Next, when the user performs a third change operation to change “advanced colon cancer: medicine” to “colon cancer: medicine”, “advanced colon cancer: medicine” is changed from other parts of the post-analysis document set 423. is searched and extracted as a change candidate. The extracted change candidates are then clustered and presented to the user. When the user performs a fourth change operation to change a representative change candidate included in each cluster, all change candidates belonging to the same cluster are changed at once. In this case, a waiting time occurs between the third change operation and the fourth change operation, resulting in a decrease in work efficiency.
これに対して、上述したように、変更前の固有表現の一部の語句又はその同義語を含む別の固有表現を変更対象に含めることで、変更前の固有表現と類似する固有表現についても、先回りして検索及びクラスタリングを終了しておくことが可能になる。したがって、変更前の固有表現のみを変更対象として用いた場合よりも、作業効率が向上する。 On the other hand, as mentioned above, by including another named entity that includes some of the words or synonyms of the named entity before the change into the change target, the named entity that is similar to the named entity before the change can also be changed. , it becomes possible to complete the search and clustering in advance. Therefore, work efficiency is improved compared to the case where only the unique expression before the change is used as the change target.
例えば、ユーザが第1の変更操作を行った場合、解析後文書集合423の他の部分から、“advanced gastric cancer:薬”とともに“advanced colon cancer:薬”も検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。 For example, when the user performs the first change operation, "advanced gastric cancer: medicine" and "advanced colon cancer: medicine" are also searched from other parts of the post-analysis document set 423 and extracted as modification candidates. . The extracted change candidates are then clustered and presented to the user.
この場合、提示される変更候補には、“advanced gastric cancer:薬”及び“advanced colon cancer:薬”が含まれているため、ユーザは、両方の変更候補を変更することができる。これにより、ユーザは第2の変更操作及び第4の変更操作を同時に行うことができ、第3の変更操作から第4の変更操作までの間の待ち時間が発生しない。したがって、“advanced gastric cancer:薬”のみを変更対象として用いた場合よりも、作業効率が向上する。 In this case, the presented change candidates include "advanced gastric cancer: medicine" and "advanced colon cancer: medicine," so the user can change both of the change candidates. Thereby, the user can perform the second change operation and the fourth change operation simultaneously, and there is no waiting time between the third change operation and the fourth change operation. Therefore, work efficiency is improved compared to when only "advanced gastric cancer: medicine" is used as the change target.
分類部415は、事例スコア2が大きい順に選択された複数の変更種類それぞれの変更候補についてクラスタリングを行い、変更種類毎に分類結果425を生成することができる。同時に実行できるクラスタリング処理の個数は、文書処理装置401の性能によって決定される。例えば、文書処理装置401がP個(Pは1以上の整数)のクラスタリング処理を同時に実行できる場合、分類部415は、事例スコア2が大きい順に選択されたP個の変更種類について、クラスタリング処理を実行する。
The
事例スコア2が大きい順に変更種類を選択することで、より多くの変更候補を含む変更種類のクラスタリングを優先的に実行することができる。したがって、ユーザが変更する可能性の高い変更候補のクラスタリングを早く終了して、その変更候補をユーザに提示することができる。
By selecting change types in descending order of
ユーザによる解析後文書集合423の編集が終了すると、解析後文書集合423は、解析モデル421に対する新たな学習データとして用いられる。文書処理装置401は、機械学習により、解析モデル421に解析後文書集合423を学習させることで、解析モデル421のパラメータを調整して、解析モデル421を更新する。これにより、解析後文書集合423の編集結果を解析モデル421に反映させることができる。
When the user finishes editing the post-analysis document set 423, the post-analysis document set 423 is used as new learning data for the
図9は、図4の文書処理装置401が行う変更支援処理の具体例を示すフローチャートである。まず、変更部416は、ユーザから編集画面のリクエストを受け付け(ステップ801)、文書処理装置401は、解析後文書集合423の編集画面を生成する(ステップ802)。そして、出力部418は、生成された編集画面を出力する(ステップ803)。
FIG. 9 is a flowchart showing a specific example of change support processing performed by the
次に、変更部416は、編集画面に含まれる変更候補に対するユーザからの変更指示を、その変更候補に対する変更操作として受け付け、受け付けた変更操作に従って変更候補の付加情報を変更する(ステップ804)。そして、変更部416は、その変更候補と同じクラスタに属する他の変更候補の付加情報も同様に変更し、そのクラスタのすべての変更候補に対する変更内容を、変更事例として変更履歴424に追加する。
Next, the changing
図10は、図9のステップ802における編集画面生成処理の例を示すフローチャートである。まず、推定部413は、変更履歴424に含まれる変更事例に基づいて、変更種類毎に、ユーザが次に行う変更操作の変更対象を推定する(ステップ901)。そして、抽出部414は、変更種類毎の変更対象に対応する変更候補を、解析後文書集合423から抽出する。
FIG. 10 is a flowchart showing an example of the editing screen generation process in
次に、分類部415は、特定の変更種類に属する変更候補をクラスタリングして、複数のクラスタを含む分類結果425を生成する(ステップ902)。次に、推定部413は、解析後文書集合423に含まれる各段落の段落スコアに基づいて、特定の段落を選択する(ステップ903)。そして、生成部417は、特定の段落を強調表示する情報を含む変更候補情報を生成し、出力部418は、特定の段落を含む文書と生成された変更候補情報とを含む編集画面を出力する(ステップ904)。
Next, the
図11は、図10のステップ901における推定処理の例を示すフローチャートである。まず、推定部413は、変更履歴424に含まれる最近のK個(Kは1以上の整数)の変更事例を選択し、選択された各変更事例を、複数の変更種類のいずれかに分類する(ステップ1001)。Kとしては、例えば、10~100の範囲の整数を用いることができる。
FIG. 11 is a flowchart showing an example of the estimation process in
次に、推定部413は、変更種類毎に変更対象を推定し、抽出部414は、変更種類毎の変更対象に対応する変更候補を、解析後文書集合423から抽出する(ステップ1002)。
Next, the
次に、推定部413は、変更種類毎に抽出された変更候補に基づいて、各変更種類の事例スコア1を計算し(ステップ1003)、事例スコア1を用いて各段落の段落スコアを計算する(ステップ1004)。そして、推定部413は、事例スコア1及び段落スコアを用いて、各変更種類の事例スコア2を計算し(ステップ1005)、事例スコア2を用いて特定の変更種類を選択する(ステップ1006)。
Next, the
図2の文書処理装置201及び図4の文書処理装置401の構成は一例に過ぎず、文書処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図4の文書処理装置401において、事前に解析後文書集合423が記憶部411に格納されている場合は、解析部412を省略することができる。変更候補のクラスタリングを行わない場合は、分類部415を省略することができる。
The configurations of the
図3及び図9~図11のフローチャートは一例に過ぎず、文書処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図4の文書処理装置401において、変更候補のクラスタリングを行わない場合は、図10のステップ902の処理を省略することができる。
The flowcharts in FIGS. 3 and 9 to 11 are merely examples, and some processes may be omitted or changed depending on the configuration or conditions of the document processing device. For example, in the
図1及び図8に示したテキストは一例に過ぎず、編集対象の文書としては、様々な分野の文書が用いられる。編集対象の文書は、機械学習で用いられる学習データには限られず、他の文書であってもよい。ユーザによる変更操作の対象は、文書のテキストであってもよく、文書のテキストに付加された付加情報であってもよい。 The texts shown in FIGS. 1 and 8 are merely examples, and documents in various fields can be used as documents to be edited. The document to be edited is not limited to learning data used in machine learning, but may be other documents. The object of the user's modification operation may be the text of the document, or may be additional information added to the text of the document.
図5に示した事例スコア1及び事例スコア2は一例に過ぎず、別の計算方法により変更種類の評価値を求めてもよい。図6に示した段落スコアは一例に過ぎず、別の計算方法により部分文書の評価値を求めてもよい。図8に示した単語ベクトルは一例に過ぎず、別の方法により単語ベクトルを求めてもよい。
図12は、図2の文書処理装置201及び図4の文書処理装置401として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。図12の情報処理装置は、CPU(Central Processing Unit)1101、メモリ1102、入力装置1103、出力装置1104、補助記憶装置1105、媒体駆動装置1106、及びネットワーク接続装置1107を含む。これらの構成要素はハードウェアであり、バス1108により互いに接続されている。
FIG. 12 shows an example of the hardware configuration of an information processing device (computer) used as the
メモリ1102は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ1102は、図2の記憶部211又は図4の記憶部411として用いることができる。
The
CPU1101(プロセッサ)は、例えば、メモリ1102を利用してプログラムを実行することにより、図2の推定部212及び抽出部213として動作する。CPU1101は、メモリ1102を利用してプログラムを実行することにより、図4の解析部412、推定部413、抽出部414、分類部415、変更部416、及び生成部417としても動作する。
The CPU 1101 (processor) operates as the
入力装置1103は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置1104は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。ユーザからの指示は、変更操作であってもよく、処理結果は、強調表示された部分文書であってもよい。出力装置1104は、図2の出力部214又は図4の出力部418として用いることができる。
The
補助記憶装置1105は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1105は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置1105にプログラム及びデータを格納しておき、それらをメモリ1102にロードして使用することができる。補助記憶装置1105は、図2の記憶部211又は図4の記憶部411として用いることができる。
The
媒体駆動装置1106は、可搬型記録媒体1109を駆動し、その記録内容にアクセスする。可搬型記録媒体1109は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1109は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体1109にプログラム及びデータを格納しておき、それらをメモリ1102にロードして使用することができる。
A
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1102、補助記憶装置1105、又は可搬型記録媒体1109のような、物理的な(非一時的な)記録媒体である。
In this way, a computer-readable recording medium that stores programs and data used for processing is a physical (non-temporary) recording medium such as the
ネットワーク接続装置1107は、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1107を介して受信し、それらをメモリ1102にロードして使用することができる。ネットワーク接続装置1107は、図2の出力部214又は図4の出力部418として用いることができる。
The
なお、情報処理装置が図12のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体1109又は通信ネットワークを使用しない場合は、媒体駆動装置1106又はネットワーク接続装置1107を省略してもよい。
Note that the information processing device does not need to include all the components shown in FIG. 12, and some components can be omitted depending on the application or conditions. For example, if the
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。 Having described the disclosed embodiments and their advantages in detail, those skilled in the art will appreciate that various modifications, additions, and omissions can be made without departing from the scope of the invention as clearly set forth in the claims. Dew.
図1乃至図12を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
文書集合に含まれる情報をユーザが変更したことを示す変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータに実行させるための文書処理プログラム。
(付記2)
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする付記1記載の文書処理プログラム。
(付記3)
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記1又は2記載の文書処理プログラム。
(付記4)
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記文書処理プログラムは、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる、
処理を前記コンピュータにさらに実行させることを特徴とする付記3記載の文書処理プログラム。
(付記5)
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする付記4記載の文書処理プログラム。
(付記6)
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記5記載の文書処理プログラム。
(付記7)
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記4乃至6のいずれか1項に記載の文書処理プログラム。
(付記8)
文書集合に含まれる情報をユーザが変更したことを示す変更履歴を記憶する記憶部と、
前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定する推定部と、
前記変更対象に対応するテキストを前記文書集合から抽出する抽出部と、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する出力部と、
を備えることを特徴とする文書処理装置。
(付記9)
前記推定部は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に、前記変更対象を推定する、
ことを特徴とする付記8記載の文書処理装置。
(付記10)
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記8又は9記載の文書処理装置。
(付記11)
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記文書処理装置は、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する分類部と、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる変更部と、
をさらに備えることを特徴とする付記10記載の文書処理装置。
(付記12)
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記推定部は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に、前記変更対象を推定し、
前記抽出部は、前記種類毎の前記変更対象に対するテキストを抽出し、
前記分類部は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して、クラスタリングを実行する、
ことを特徴とする付記11記載の文書処理装置。
(付記13)
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記推定部は、前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記12記載の文書処理装置。
(付記14)
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記11乃至13のいずれか1項に記載の文書処理装置。
(付記15)
文書集合に含まれる情報をユーザが変更したことを示す変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータが実行することを特徴とする文書処理方法。
(付記16)
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする付記15記載の文書処理方法。
(付記17)
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記15又は16記載の文書処理方法。
(付記18)
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記コンピュータは、さらに、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる、
ことを特徴とする付記17記載の文書処理方法。
(付記19)
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする付記18記載の文書処理方法。
(付記20)
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記19記載の文書処理方法。
(付記21)
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記18乃至20のいずれか1項に記載の文書処理方法。
Regarding the embodiment described with reference to FIGS. 1 to 12, the following additional notes are further disclosed.
(Additional note 1)
Estimating a change target of a change made by the user to the document set based on a change history indicating that the user has changed information included in the document set;
extracting text corresponding to the change target from the document set;
outputting change candidate information indicating text extracted from the document set;
A document processing program that allows a computer to perform processing.
(Additional note 2)
The process of estimating the change target is executed before a change instruction from the user is input to the text extracted from the document set.
The document processing program according to
(Additional note 3)
The change history includes a change example indicating a change operation performed by the user,
The change target specifies the text before change indicated by the change example, includes some words or phrases in the text before change, or synonyms of the some words, and is different from the text before change. information that identifies different texts,
The document processing program according to
(Additional note 4)
The information included in the document set is additional information of the text included in the document set,
The document processing program is
Generating a plurality of clusters by clustering the text extracted from the document set based on texts existing before and after the text extracted from the document set,
When the user changes the additional information of the text belonging to a specific cluster among the plurality of clusters, the change to the additional information of the text belonging to the specific cluster is changed to the additional information of other texts belonging to the specific cluster. To reflect,
The document processing program according to
(Appendix 5)
The change history includes a plurality of change examples indicating change operations performed by the user,
The process of estimating the change target is performed for each of the plurality of change types in which each of the plurality of change cases is classified,
The process of extracting the text includes a process of extracting text for the change target for each type,
The clustering process is performed on text corresponding to a specific type of change target selected based on the appearance frequency of text corresponding to the change target for each type in the document set.
The document processing program according to
(Appendix 6)
The document set includes a plurality of documents,
Each of the plurality of documents includes a plurality of partial documents,
The computer includes:
of each of the plurality of partial documents based on the appearance frequency of the text corresponding to the change target for each type and the number of texts corresponding to the change target of each type included in each of the plurality of partial documents. Calculate the evaluation value,
Selecting a specific partial document from the plurality of partial documents based on the evaluation value of each of the plurality of partial documents,
The change candidate information includes information that highlights the specific partial document.
The document processing program according to
(Appendix 7)
The document set is learning data for machine learning that generates an analysis model, and the analysis model analyzes a document to be analyzed to generate additional information of text included in the document to be analyzed.
7. The document processing program according to any one of
(Appendix 8)
a storage unit that stores a change history indicating changes made by the user to information included in the document collection;
an estimation unit that estimates a change target of a change made by the user to the document set based on the change history;
an extraction unit that extracts text corresponding to the change target from the document set;
an output unit that outputs change candidate information indicating text extracted from the document set;
A document processing device comprising:
(Appendix 9)
The estimating unit estimates the change target before a change instruction from the user is input to the text extracted from the document set.
The document processing device according to
(Appendix 10)
The change history includes a change example indicating a change operation performed by the user,
The change target specifies the text before change indicated by the change example, includes some words or phrases in the text before change, or synonyms of the some words, and is different from the text before change. information that identifies different texts,
The document processing device according to
(Appendix 11)
The information included in the document set is additional information of the text included in the document set,
The document processing device includes:
a classification unit that generates a plurality of clusters by clustering the text extracted from the document set based on texts that exist before and after the text extracted from the document set;
When the user changes the additional information of the text belonging to a specific cluster among the plurality of clusters, the change to the additional information of the text belonging to the specific cluster is changed to the additional information of other texts belonging to the specific cluster. A change part to be reflected,
The document processing device according to
(Appendix 12)
The change history includes a plurality of change examples indicating change operations performed by the user,
The estimating unit estimates the change target for each of the plurality of change types classified into each of the plurality of change cases,
The extraction unit extracts text for the change target for each type,
The classification unit performs clustering on text corresponding to a specific type of change target selected based on the appearance frequency of text corresponding to the change target for each type in the document set.
The document processing device according to
(Appendix 13)
The document set includes a plurality of documents,
Each of the plurality of documents includes a plurality of partial documents,
The estimating unit calculates the number of texts corresponding to the change target for each type based on the appearance frequency of texts corresponding to the change target for each type and the number of texts corresponding to the change target for each type included in each of the plurality of partial documents. calculating an evaluation value of each partial document, and selecting a specific partial document from the plurality of partial documents based on the evaluation value of each of the plurality of partial documents;
The change candidate information includes information that highlights the specific partial document.
The document processing device according to appendix 12, characterized in that:
(Appendix 14)
The document set is learning data for machine learning that generates an analysis model, and the analysis model analyzes a document to be analyzed to generate additional information of text included in the document to be analyzed.
14. The document processing device according to any one of
(Appendix 15)
Estimating a change target of a change made by the user to the document set based on a change history indicating that the user has changed information included in the document set;
extracting text corresponding to the change target from the document set;
outputting change candidate information indicating text extracted from the document set;
A document processing method characterized in that processing is performed by a computer.
(Appendix 16)
The process of estimating the change target is executed before a change instruction from the user is input to the text extracted from the document set.
The document processing method according to appendix 15, characterized in that:
(Appendix 17)
The change history includes a change example indicating a change operation performed by the user,
The change target specifies the text before change indicated by the change example, includes some words or phrases in the text before change, or synonyms of the some words, and is different from the text before change. information that identifies different texts,
The document processing method according to appendix 15 or 16, characterized in that:
(Appendix 18)
The information included in the document set is additional information of the text included in the document set,
The computer further includes:
Generating a plurality of clusters by clustering the text extracted from the document set based on texts existing before and after the text extracted from the document set,
When the user changes the additional information of the text belonging to a specific cluster among the plurality of clusters, the change to the additional information of the text belonging to the specific cluster is changed to the additional information of other texts belonging to the specific cluster. To reflect,
The document processing method according to appendix 17, characterized in that:
(Appendix 19)
The change history includes a plurality of change examples indicating change operations performed by the user,
The process of estimating the change target is performed for each of the plurality of change types in which each of the plurality of change cases is classified,
The process of extracting the text includes a process of extracting text for the change target for each type,
The clustering process is performed on text corresponding to a specific type of change target selected based on the appearance frequency of text corresponding to the change target for each type in the document set.
The document processing method according to appendix 18, characterized in that:
(Additional note 20)
The document set includes a plurality of documents,
Each of the plurality of documents includes a plurality of partial documents,
The computer includes:
of each of the plurality of partial documents based on the appearance frequency of the text corresponding to the change target for each type and the number of texts corresponding to the change target of each type included in each of the plurality of partial documents. Calculate the evaluation value,
Selecting a specific partial document from the plurality of partial documents based on the evaluation value of each of the plurality of partial documents,
The change candidate information includes information that highlights the specific partial document.
The document processing method according to appendix 19, characterized in that:
(Additional note 21)
The document set is learning data for machine learning that generates an analysis model, and the analysis model analyzes a document to be analyzed to generate additional information of text included in the document to be analyzed.
21. The document processing method according to any one of appendices 18 to 20.
201、401 文書処理装置
211、411 記憶部
212、413 推定部
213、414 抽出部
214、418 出力部
221、424 変更履歴
412 解析部
415 分類部
416 変更部
417 生成部
421 解析モデル
422 解析前文書集合
423 解析後文書集合
425 分類結果
701 段落
1101 CPU
1102 メモリ
1103 入力装置
1104 出力装置
1105 補助記憶装置
1106 媒体駆動装置
1107 ネットワーク接続装置
1108 バス
1109 可搬型記録媒体
201, 401
1102
Claims (8)
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させ、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータに実行させるための文書処理プログラム。 Based on the change history, which is a change history indicating that the user has changed additional information of text included in the document set , and includes a change example indicating a change operation performed by the user, the user Estimate the target of changes made by
extracting text corresponding to the change target from the document set;
Generating a plurality of clusters by clustering the text extracted from the document set based on texts existing before and after the text extracted from the document set,
When the user changes the additional information of the text belonging to a specific cluster among the plurality of clusters, the change to the additional information of the text belonging to the specific cluster is changed to the additional information of other texts belonging to the specific cluster. reflect,
outputting change candidate information indicating text extracted from the document set;
A document processing program that allows a computer to perform processing.
ことを特徴とする請求項1記載の文書処理プログラム。 The process of estimating the change target is executed before a change instruction from the user is input to the text extracted from the document set.
The document processing program according to claim 1, characterized in that:
ことを特徴とする請求項1又は2記載の文書処理プログラム。 The change target specifies the text before change indicated by the change example, and includes some words or phrases in the text before change or synonyms of the some words, and is different from the text before change. is information that identifies different texts,
The document processing program according to claim 1 or 2, characterized in that:
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする請求項1乃至3のいずれか1項に記載の文書処理プログラム。 The change history includes a plurality of change examples indicating change operations performed by the user,
The process of estimating the change target is performed for each of the plurality of change types in which each of the plurality of change cases is classified,
The process of extracting the text includes a process of extracting text for the change target for each type,
The clustering process is performed on text corresponding to a specific type of change target selected based on the appearance frequency of text corresponding to the change target for each type in the document set.
The document processing program according to any one of claims 1 to 3, characterized in that:
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度であって前記複数の部分文書各々に含まれる前記テキストそれぞれについての前記出現頻度の合計を、前記複数の部分文書各々の評価値として計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする請求項4記載の文書処理プログラム。 The document set includes a plurality of documents,
Each of the plurality of documents includes a plurality of partial documents,
The computer includes:
The total appearance frequency of the text corresponding to the change target for each type, which is included in each of the plurality of partial documents, is calculated as an evaluation value for each of the plurality of partial documents. ,
Selecting a specific partial document from the plurality of partial documents based on the evaluation value of each of the plurality of partial documents,
The change candidate information includes information that highlights the specific partial document.
5. The document processing program according to claim 4 .
ことを特徴とする請求項1乃至5のいずれか1項に記載の文書処理プログラム。 The document set is learning data for machine learning that generates an analysis model, and the analysis model analyzes a document to be analyzed to generate additional information of text included in the document to be analyzed.
The document processing program according to any one of claims 1 to 5 , characterized in that:
前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定する推定部と、
前記変更対象に対応するテキストを前記文書集合から抽出する抽出部と、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する分類部と、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる変更部と、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する出力部と、
を備えることを特徴とする文書処理装置。 a storage unit that stores a change history indicating that a user has changed additional information of a text included in a document collection , including a change example indicating a change operation performed by the user ;
an estimation unit that estimates a change target of a change made by the user to the document set based on the change history;
an extraction unit that extracts text corresponding to the change target from the document set;
a classification unit that generates a plurality of clusters by clustering the text extracted from the document set based on texts existing before and after the text extracted from the document set;
When the user changes the additional information of the text belonging to a specific cluster among the plurality of clusters, the change to the additional information of the text belonging to the specific cluster is changed to the additional information of other texts belonging to the specific cluster. A change part to be reflected,
an output unit that outputs change candidate information indicating text extracted from the document set;
A document processing device comprising:
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させ、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータが実行することを特徴とする文書処理方法。 Based on the change history, which is a change history indicating that the user has changed additional information of text included in the document set , and includes a change example indicating a change operation performed by the user, the user Estimate the target of changes made by
extracting text corresponding to the change target from the document set;
Generating a plurality of clusters by clustering the text extracted from the document set based on texts existing before and after the text extracted from the document set,
When the user changes the additional information of the text belonging to a specific cluster among the plurality of clusters, the change to the additional information of the text belonging to the specific cluster is changed to the additional information of other texts belonging to the specific cluster. reflect,
outputting change candidate information indicating text extracted from the document set;
A document processing method characterized in that processing is performed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019218049A JP7415495B2 (en) | 2019-12-02 | 2019-12-02 | Document processing program, document processing device, and document processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019218049A JP7415495B2 (en) | 2019-12-02 | 2019-12-02 | Document processing program, document processing device, and document processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021089473A JP2021089473A (en) | 2021-06-10 |
JP7415495B2 true JP7415495B2 (en) | 2024-01-17 |
Family
ID=76220673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019218049A Active JP7415495B2 (en) | 2019-12-02 | 2019-12-02 | Document processing program, document processing device, and document processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7415495B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024057589A1 (en) * | 2022-09-15 | 2024-03-21 | 株式会社LegalOn Technologies | Correction suggesting method, correction suggesting system, and correction suggesting program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140319A (en) | 2000-10-31 | 2002-05-17 | Cm C:Kk | Method and system for supporting generation of component manual, and computer-readable recording medium |
JP2011053840A (en) | 2009-08-31 | 2011-03-17 | Toshiba Corp | Document processor and document processing program |
WO2015052817A1 (en) | 2013-10-10 | 2015-04-16 | 株式会社東芝 | Transliteration work support device, transliteration work support method and program |
-
2019
- 2019-12-02 JP JP2019218049A patent/JP7415495B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140319A (en) | 2000-10-31 | 2002-05-17 | Cm C:Kk | Method and system for supporting generation of component manual, and computer-readable recording medium |
JP2011053840A (en) | 2009-08-31 | 2011-03-17 | Toshiba Corp | Document processor and document processing program |
WO2015052817A1 (en) | 2013-10-10 | 2015-04-16 | 株式会社東芝 | Transliteration work support device, transliteration work support method and program |
Non-Patent Citations (1)
Title |
---|
小林 賢司 外5名,エビデンスに基づく医療のための文献キュレーションシステムの開発,情報処理学会 研究報告 グループウェアとネットワークサービス(GN) 2019-GN-107 [online] ,日本,情報処理学会,2019年03月11日,pp.1-8 |
Also Published As
Publication number | Publication date |
---|---|
JP2021089473A (en) | 2021-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Popović | Error classification and analysis for machine translation quality assessment | |
Khan et al. | A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation | |
EP3230896B1 (en) | Localization complexity of arbitrary language assets and resources | |
US11030407B2 (en) | Computer system, method and program for performing multilingual named entity recognition model transfer | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
Chen et al. | Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
JP5697202B2 (en) | Method, program and system for finding correspondence of terms | |
JP2011018330A (en) | System and method for transforming kanji into vernacular pronunciation string by statistical method | |
JP2014078132A (en) | Machine translation device, method, and program | |
US11537797B2 (en) | Hierarchical entity recognition and semantic modeling framework for information extraction | |
JP2021507350A (en) | Reinforcement evidence retrieval of complex answers | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
Ofazer et al. | Bootstrapping morphological analyzers by combining human elicitation and machine learning | |
Nguyen et al. | Adaptive edit-distance and regression approach for post-OCR text correction | |
JP6622236B2 (en) | Idea support device and idea support method | |
JP2014186395A (en) | Document preparation support device, method, and program | |
JP6077727B1 (en) | Computer system, method, and program for transferring multilingual named entity recognition model | |
Cui et al. | Simple question answering over knowledge graph enhanced by question pattern classification | |
JP7415495B2 (en) | Document processing program, document processing device, and document processing method | |
JP6409071B2 (en) | Sentence sorting method and calculator | |
Vandeghinste et al. | Improving the translation environment for professional translators | |
JP4401269B2 (en) | Parallel translation judgment device and program | |
WO2015177861A1 (en) | Device and method for generating training data | |
JP2003263441A (en) | Keyword determination database preparing method, keyword determining method, device, program and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230919 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7415495 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |