JP2011159078A - Information processing apparatus, determination program and determination method - Google Patents
Information processing apparatus, determination program and determination method Download PDFInfo
- Publication number
- JP2011159078A JP2011159078A JP2010019649A JP2010019649A JP2011159078A JP 2011159078 A JP2011159078 A JP 2011159078A JP 2010019649 A JP2010019649 A JP 2010019649A JP 2010019649 A JP2010019649 A JP 2010019649A JP 2011159078 A JP2011159078 A JP 2011159078A
- Authority
- JP
- Japan
- Prior art keywords
- drug
- side effect
- determination
- similar
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
Description
本発明は、医薬品の副作用が既知か未知かを判定する技術に関する。 The present invention relates to a technique for determining whether a side effect of a pharmaceutical product is known or unknown.
日本の薬事法によれば、製薬会社は、自社が製造・販売した医薬品(以下「自社薬」ともいう)に関して市販後に新たに副作用が発見された場合は、当該副作用について厚生労働大臣に報告する義務がある。具体的には、製薬会社は、例えば病院の医師等から副作用(あるいは副作用の疑いのある症状)の報告を受けると、報告された副作用が既知か未知かを判断し、判断結果とともに当該副作用を厚生労働大臣に報告する。 According to the Japanese Pharmaceutical Affairs Law, pharmaceutical companies report to the Minister of Health, Labor and Welfare if any new side effects are discovered after marketing for drugs manufactured and sold by the company (hereinafter also referred to as “in-house drugs”). There is an obligation. Specifically, when a pharmaceutical company receives a report of a side effect (or a symptom suspected of having a side effect) from a doctor in a hospital, for example, the pharmaceutical company determines whether the reported side effect is known or unknown. Report to the Minister of Health, Labor and Welfare.
ところが、製薬会社が医師等から副作用の報告を受けたとき、報告された副作用が既知か未知かを判断することは難しい。そのため、製薬会社では、人手により、自社薬の類薬(すなわち同種同効薬)の添付文書を参照し、医師等から報告された副作用が類薬では既知か未知かを調べることが行われる。 However, when a pharmaceutical company receives a report of a side effect from a doctor or the like, it is difficult to determine whether the reported side effect is known or unknown. Therefore, a pharmaceutical company manually checks whether a side effect reported by a doctor or the like is known or unknown in a similar drug by referring to a package insert of the similar drug (that is, the same-type synergistic drug).
なお、添付文書とは、製薬会社が薬事法に基づいて作成し、個々の医薬品に添付する文書のことである。添付文書は、例えば、「薬効分類名」、「販売名コード」、「効能又は効果」、「副作用」、「有効成分に関する理化学的知見」などの項目を含む。 The package insert is a document created by a pharmaceutical company based on the Pharmaceutical Affairs Law and attached to each drug. The package insert includes, for example, items such as “medicinal effect classification name”, “market name code”, “efficacy or effect”, “side effect”, and “physical and chemical knowledge regarding active ingredients”.
製薬会社では、上記のように類薬の添付文書を調べた結果を1つの根拠として、「医師等から報告された副作用は、既知の副作用か、それとも未知の副作用か」ということが判断される。 Based on the results of examining the package insert of a similar drug as described above, a pharmaceutical company determines that “a side effect reported by a doctor or the like is a known side effect or an unknown side effect”. .
仮に、製薬会社から厚生労働大臣への報告において、未知の副作用の報告漏れや報告の遅れなどがあると、国民の健康に多大な影響を及ぼす可能性がある。したがって、臨床現場から製薬会社に報告された副作用が既知の副作用であるか否かを、製薬会社が迅速かつ正確に判断することができれば、社会全体にとっても有益である。 If a pharmaceutical company reports to the Minister of Health, Labor and Welfare, missing reports of unknown side effects or delays in reporting could have a significant impact on the health of the people. Therefore, if the pharmaceutical company can quickly and accurately determine whether or not the side effect reported from the clinical site to the pharmaceutical company is a known side effect, it is beneficial for the whole society.
しかし、添付文書の記述は、形式や表記が必ずしも厳密に統一されてはいないので、類薬の添付文書に対して単純な文字列検索を行うだけでは、正確な判断結果を得ることが難しい。そのため、現状では、「臨床現場から製薬会社に報告された副作用が、既知の副作用か未知の副作用か」という判定は、人力に頼る部分が大きい。 However, since the format and notation of the description of the attached document are not necessarily strictly unified, it is difficult to obtain an accurate determination result only by performing a simple character string search for the attached document of the similar medicine. Therefore, at present, the determination that “the side effect reported from the clinical site to the pharmaceutical company is a known side effect or an unknown side effect” largely depends on human power.
そこで本発明は、ある医薬品について報告された副作用が既知か未知かを自動的に判定することを目的とする。 Therefore, an object of the present invention is to automatically determine whether a side effect reported for a certain pharmaceutical is known or unknown.
一態様による情報処理装置は、特定手段、報告文書取得手段、類薬認識手段、部分文字列類似度評価手段、語句類似度評価手段、副作用語句抽出手段、比較対象集合取得手段、判定手段及び出力手段を備える。 An information processing apparatus according to one aspect includes a specifying unit, a report document acquiring unit, an analog recognition unit, a partial character string similarity evaluating unit, a phrase similarity evaluating unit, a side effect phrase extracting unit, a comparison target set acquiring unit, a determining unit, and an output Means.
前記特定手段は、医薬品を特定するための情報を受け付け、前記情報が示す前記医薬品を判定対象薬として特定する。前記報告文書取得手段は、前記判定対象薬の副作用について記載した報告文書を取得する。前記類薬認識手段は、医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識する。 The specifying unit receives information for specifying a drug, and specifies the drug indicated by the information as a determination target drug. The report document acquisition means acquires a report document describing the side effects of the determination target drug. The similar drug recognition means reads out the similar drug learning result information associating the identification information uniquely identifying the drug with the similar drug of the drug from the storage means, or for each of a plurality of drugs, the drug of the drug By reading the package insert including the identification information, the side effect of the medicinal product and the efficacy or effect of the medicinal product from the storage unit, the similar drug similar to the determination target drug is recognized among a plurality of other medicinal products.
また、前記部分文字列類似度評価手段は、語句内に含まれる部分文字列同士の類似度を評価するのに、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与える。そして、語句類似度評価手段は、2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を前記文字列類似度評価手段に評価させ、前記文字列類似度評価手段による評価の結果を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する。 The partial character string similarity evaluation means evaluates the similarity between the partial character strings included in the phrase by adding a first length and a second length to a third length portion. If the character strings match, the evaluation is equal to or higher than the evaluation when the partial character strings of the first length match and the evaluation when the partial character strings of the second length match. Give a high rating. The phrase similarity evaluation means causes the character string similarity evaluation means to evaluate the similarity between the partial character strings obtained by dividing each of the two phrases, and the evaluation by the character string similarity evaluation means By summing up the results, a combination of division patterns that divide each of the two phrases into one or more partial character strings is evaluated, and evaluations for a plurality of combinations of the division patterns of the two phrases are used. Then, the similarity between the two words is evaluated.
また、前記副作用語句抽出手段は、前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出する。そして、前記比較対象集合取得手段は、前記類薬認識手段により前記類薬として認識された医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬認識手段により前記類薬として認識された前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識された前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識された前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得する。 Further, the side effect phrase extracting unit extracts a phrase indicating the side effect of the determination target drug from the report document as a determination target side effect phrase. The comparison target set acquisition unit reads out a package insert of the medicine recognized as the analog by the analog drug recognition unit from the storage unit, and uses a phrase extraction process to extract a phrase from a side effect description part in the package insert. A set of phrases obtained by extracting a set of phrases or by a phrase extraction process from a side effect description part in a package insert of the medicine recognized as the similar drug by the similar drug recognition means from the storage means By reading side effect learning result information that associates the identification information of the drug recognized as the similar drug with the identification information of the drug, the word included in the description part of the side effect in the package insert of the drug recognized as the similar drug The set is acquired as a comparison target phrase set.
前記判定手段は、前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを、前記語句類似度評価手段に評価させ、評価の結果と閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定する。そして、前記出力手段は、前記判定手段による判定結果を出力する。 The determination means includes, for at least a part of the analog, a combination of a word / phrase included in the comparison target phrase set acquired for the analog and the determination target side-effect word / phrase, and the phrase similarity evaluation means Then, using the evaluation result and the threshold value, it is determined whether or not the side effect indicated by the determination target side effect phrase is a known side effect in the related drug. And the said output means outputs the determination result by the said determination means.
上記の情報処理装置によれば、判定対象薬の副作用を記載した報告文書から、当該副作用が判定対象薬の類薬において既知の副作用か否かが自動的に判定され、判定結果が出力される。したがって、上記の情報処理装置は、従来は製薬会社において人手によって手間をかけて行われていた判断を自動化することができる。 According to the information processing apparatus, it is automatically determined whether or not the side effect is a known side effect in the analog of the determination target drug from the report document describing the side effect of the determination target drug, and the determination result is output. . Therefore, the information processing apparatus described above can automate a determination that has been conventionally performed manually in a pharmaceutical company.
以下、実施形態について、図面を参照しながら次の順序で詳細に説明していく。
まず、図1を参照して、ある副作用が既知か未知かを判定する判定装置の構成を説明し、図2を参照して当該判定装置を実現するハードウェアの具体例を説明する。その後、副作用の報告を臨床現場などから受けた場合に判定装置が行う処理について、任意の医薬品について類薬が学習済みであるという仮定のもとで、図3〜10を参照して説明する。なお、図1〜14に示す実施形態においては、判定装置が前処理を行うことで、上記仮定を成立させることが可能である。そこで、続いて図11〜14を参照して、前処理による類薬の学習について説明する。最後に、様々な変形例についても説明する。
Hereinafter, embodiments will be described in detail in the following order with reference to the drawings.
First, the configuration of a determination apparatus that determines whether a certain side effect is known or unknown will be described with reference to FIG. 1, and a specific example of hardware that realizes the determination apparatus will be described with reference to FIG. Thereafter, processing performed by the determination apparatus when a report of a side effect is received from a clinical site or the like will be described with reference to FIGS. In the embodiment shown in FIGS. 1 to 14, the above assumption can be established by the preprocessing performed by the determination device. Then, with reference to FIGS. 11-14, the learning of the analog by pre-processing is demonstrated. Finally, various modifications will be described.
さて、図1は判定装置の構成図である。図1の判定装置100は、各種情報を格納する格納部101と、副作用に関する処理を行う副作用処理部102と、類薬に関する処理を行う類薬処理部103を有する。
FIG. 1 is a configuration diagram of the determination apparatus. The
副作用処理部102は、判定対象薬指定部104と類薬認識部105と報告文書取得部106と副作用キーワード抽出部107と副作用判定・学習部108を有する。また、副作用処理部102はキーワード類似度評価部109を含むが、本実施形態においては、キーワード類似度評価部109は類薬処理部103にも共有されている。そして、類薬処理部103は、副作用処理部102と共有しているキーワード類似度評価部109のほかに、さらに効能・効果キーワード抽出部111と類薬判定・学習部112を有する。
The side
また、キーワード類似度評価部109は部分文字列類似度評価部110を含み、判定装置100はさらに前処理制御部113を備える。前処理制御部113は、副作用処理部102内の副作用キーワード抽出部107と類薬処理部103内の類薬判定・学習部112に前処理を行わせるための制御を行う。
Further, the keyword
また、図1には、格納部101が格納する情報と判定装置100へ入力される情報についても図示されている。上記の副作用処理部102と類薬処理部103内の各部の動作については、各種情報について説明した後で説明する。
FIG. 1 also illustrates information stored in the storage unit 101 and information input to the
図1に示すとおり、格納部101は、添付文書群201を格納しており、添付文書群201は、複数の医薬品それぞれについての添付文書202を含む。上記のとおり、添付文書は、例えば、「薬効分類名」、「販売名コード」、「効能又は効果」、「副作用」、「有効成分に関する理化学的知見」などのセクションを含む文書である。
As illustrated in FIG. 1, the storage unit 101 stores an attached
「薬効分類名」としては、例えば、「解熱鎮痛消炎剤」や「血圧降下剤」など、ある程度規格化された名称が使われる。1つの医薬品が複数の用途に使われる場合、複数の薬効分類名が記載されていることもある。 As the “medicinal effect classification name”, for example, names that are standardized to some extent, such as “antipyretic analgesic / anti-inflammatory agent” and “blood pressure lowering agent”, are used. When one pharmaceutical product is used for a plurality of uses, a plurality of drug effect classification names may be described.
また、「販売名コード」は、各医薬品を一意に識別する識別情報である。本実施形態では、販売名コードが医薬品のIDentification(ID)として用いられる。
「効能又は効果」と「副作用」のセクションは、記載の仕方にある程度の自由度があり、自然言語文で説明される場合もあるし、リストやテーブルの形式で記載されている場合もある。
The “sales name code” is identification information for uniquely identifying each medicine. In the present embodiment, the sales name code is used as an IDentification (ID) of a medicine.
“Effectiveness or effect” and “side effect” sections have a certain degree of freedom in description, and may be described in natural language sentences, or may be described in the form of lists or tables.
例えば、「効能又は効果」セクションは、「慢性関節リウマチ、リウマチ熱、変形性関節症、……」のように、当該医薬品が効果をあらわす疾病ないし症状を読点で区切って列挙する形で記載されることもある。また、副作用は、「喘息発作を誘発することがある。」のように自然言語文で記載されることもあるし、テーブル形式で記載されることもある。例えば、何に関する副作用かを示す見出し列と、副作用の発生頻度を示す列と、具体的な副作用を記載する列を持ったテーブルにおいて、「血液」という見出しに「0.1%未満」という頻度と「貧血」という具体的副作用が対応づけられていてもよい。 For example, the “Efficacy or Effect” section is described in the form of a list of diseases or symptoms that the drug is effective, such as “rheumatoid arthritis, rheumatic fever, osteoarthritis, etc.”, separated by readings. Sometimes. Further, the side effect may be described in a natural language sentence such as “may cause an asthma attack” or may be described in a table format. For example, in a table having a heading column indicating what is a side effect, a column indicating the frequency of occurrence of the side effect, and a column describing a specific side effect, the frequency of “less than 0.1%” in the heading “blood” And a specific side effect of “anemia” may be associated.
「有効成分に関する理化学的知見」セクションには、「アスピリン」のような一般名、「2-Acetoxybenzoic acid」のような化学名、分子式、構造式などが含まれてもよい。また、添付文書によっては、「一般名称」や「基準名」などの別の見出しのセクションに有効成分の一般名が記載されていることもある。 The “physicochemical knowledge about active ingredient” section may include a generic name such as “aspirin”, a chemical name such as “2-Acetoxybenzoic acid”, a molecular formula, a structural formula, and the like. Also, depending on the package insert, the general name of the active ingredient may be described in a section with another heading such as “general name” or “reference name”.
なお、添付文書の具体例は、例えば独立行政法人医薬品医療機器総合機構の「医薬品医療機器情報提供ホームページ」(http://www.info.pmda.go.jp/)において閲覧することができる。添付文書には上記に例示した以外の様々な項目も含まれるが、添付文書についてのこれ以上の詳細な説明は割愛する。 A specific example of the package insert can be viewed, for example, on the “medical device information provision website” (http://www.info.pmda.go.jp/) of the Pharmaceuticals and Medical Devices Agency. The attached document includes various items other than those exemplified above, but a detailed description of the attached document is omitted.
さて、格納部101は、以上のような複数の添付文書202を含む添付文書群201に加えて、同義語辞書203と学習結果テーブル204も格納する。同義語辞書203は、同義語又は類義語の対を登録した辞書であり、学習結果テーブル204は、副作用処理部102と類薬処理部103による学習の結果を保持するテーブルである。
The storage unit 101 stores a
図1には、同義語辞書203において次の2つのエントリがテーブル形式で例示されているが、同義語辞書203の内容と形式は実施形態に応じて任意である。
・「AST」(ASpartate aminoTransferase)と「GOT」(Glutamic Oxaloacetic Transaminase)を対にしたエントリ
・「全身」と「体」を対にしたエントリ
FIG. 1 illustrates the following two entries in the
・ Entry with “AST” (ASpartate aminoTransferase) and “GOT” (Glutamic Oxaloacetic Transaminase) as a pair ・ Entry with “whole body” and “body” as a pair
また、同義語辞書203は、予め作成されて用意されていてもよいし、初期状態では空でもよい。本実施形態では同義語辞書203の学習が行われ、時間の経過とともに同義語辞書203のエントリが増加するが、同義語辞書203の内容が固定されている実施形態(すなわち同義語辞書203の学習を行わない実施形態)も可能である。
The
そして、学習結果テーブル204は、詳しくは図4とともに後述するが、各エントリが個々の医薬品に対応するテーブルである。また、各エントリには、図1に示すとおり「ID」、「効能・効果キーワード群」、「類薬リスト」、「副作用キーワード群」、「既知副作用リスト」という各フィールドが含まれる。 The learning result table 204 is a table in which each entry corresponds to an individual medicine, as will be described in detail later with reference to FIG. Each entry includes fields of “ID”, “Efficacy / effect keyword group”, “Similar drug list”, “Side effect keyword group”, and “Known side effect list” as shown in FIG.
なお、学習結果テーブル204において、IDには上記のように販売名コードが使われる。また、効能・効果キーワード群は、添付文書202の「効能又は効果」セクションから予め抽出されたキーワード群である。類薬リストは、類薬のIDのリストであり、図11〜14とともに後述する処理により予め作成されているものとする。副作用キーワード群は、添付文書202の「副作用」セクションから予め抽出されたキーワード群である。既知副作用リストは、類薬において既知の副作用であると判定された副作用を学習するためのリストである。
In the learning result table 204, the sales name code is used as the ID as described above. The effect / effect keyword group is a keyword group extracted in advance from the “effect or effect” section of the attached
なお、本実施形態では、自然言語文やリストやテーブルなどから抽出される語句を「キーワード」と称する。キーワードは、例えば、単名詞でもよいし、2つ以上の名詞が連なった複合名詞でもよいし、形容詞と1つ以上の名詞の連なりを含む名詞句でもよい。 In the present embodiment, a phrase extracted from a natural language sentence, a list, a table, or the like is referred to as a “keyword”. The keyword may be, for example, a single noun, a compound noun in which two or more nouns are connected, or a noun phrase including a combination of an adjective and one or more nouns.
また、図1に示すように、判定装置100には、安全性情報報告文書205と判定対象薬ID206が入力される。
安全性情報報告文書205は、副作用について記載した報告文書である。より具体的には、安全性情報報告文書205は、医薬品の販売後に臨床現場から製薬会社へともたらされる安全性情報に関する報告文書である。なお、本明細書において「安全性情報」とは、当該製薬会社の医薬品の投与に起因する(あるいはその疑いのある)副作用に関する情報である。
As shown in FIG. 1, a safety
The safety
なお、添付文書202と安全性情報報告文書205はともに副作用に関する情報を含むが、両者はまったく別の文書である。すなわち、添付文書202は、製薬会社が薬事法にしたがって作成する文書であるのに対し、安全性情報報告文書205は、臨床現場の医師等が、製薬会社への報告のために作成する報告文書である。
Note that both the attached
また、安全性情報報告文書205の形式は任意である。例えば、安全性情報報告文書205には、副作用に関する自然言語文による説明が含まれていてもよいし、副作用を列挙するリストやテーブルが含まれていてもよい。
The format of the safety
臨床現場から安全性情報報告文書205がもたらされると、製薬会社は、安全性情報報告文書205にて報告されている副作用が既知のものか未知のものかを厚生労働大臣に報告する義務がある。この義務は、上記のとおり薬事法で定められている。
When the safety
本実施形態の判定装置100は、製薬会社から厚生労働大臣への迅速かつ正確な報告を支援するため、安全性情報報告文書205にて報告されている副作用が既知のものか未知のものかを自動的又は半自動的に判定する。なお、詳しくは後述するが、ここで「半自動的」というのは、本実施形態の判定装置100が「既知の副作用と断定することはできないが、既知の可能性もある程度はある」といった中間的な判定を行い、最終的な判定をユーザ入力に委ねる場合を指す。
The
具体的に、本実施形態では、安全性情報報告文書205にて報告されている安全性情報がどの医薬品に関するものであるかが、判定対象薬ID206により特定される。すなわち、判定対象薬ID206は、安全性情報報告文書205によって副作用が報告された医薬品のIDである。以下、判定対象薬ID206により特定される医薬品を「判定対象薬」という。
Specifically, in the present embodiment, the determination
さて、続いて、以上説明したような、格納部101に格納される情報と判定装置100に入力される情報に関して、副作用処理部102と類薬処理部103が行う処理について説明する。
Now, the processing performed by the side
判定対象薬指定部104は、判定対象薬ID206の入力を受け取り、判定対象薬ID206を類薬認識部105と副作用判定・学習部108に出力する。
判定対象薬指定部104は、医薬品を特定するための情報を受け付け、受け付けた情報が示す医薬品を判定対象薬として特定する特定手段の一例である。なお、実施形態によっては、医薬品を特定するための情報は判定対象薬ID206でなくてもよく、医薬品の販売名、有効成分の一般名、有効成分の化学名などの項目を1つ以上組み合わせた検索条件でもよい。その場合、特定手段は、検索条件の入力を受け付け、検索条件に合致する医薬品を検索することで判定対象薬を特定する検索部により実現することができる。検索部は、検索に用いる項目を予め添付文書202から抽出してインデックス化しておいてもよい。
The determination target
The determination target
また、類薬認識部105は、入力された判定対象薬ID206を検索キーにして学習結果テーブル204を検索し、IDが判定対象薬ID206と一致するエントリから類薬リストを読み出すことで、判定対象薬の類薬を認識する。そして、類薬認識部105は、読み出した類薬リストを副作用判定・学習部108に出力する。
Further, the similar
他方で報告文書取得部106は、判定対象薬についての安全性情報報告文書205を取得して副作用キーワード抽出部107に出力する。すると、副作用キーワード抽出部107は、安全性情報報告文書205から、判定対象薬の副作用を示すキーワードを1つ以上抽出し、抽出したキーワードを副作用判定・学習部108に出力する。副作用キーワード抽出部107は、判定対象薬の副作用を示す語句を判定対象副作用語句として抽出する副作用語句抽出手段の一例である。
On the other hand, the report
そして、副作用判定・学習部108は、副作用キーワード抽出部107が安全性情報報告文書205から抽出したキーワードのそれぞれについて、当該キーワードが示す副作用が既知か未知かを判定し、判定結果を学習する。
Then, the side effect determination /
具体的には、副作用判定・学習部108は、類薬認識部105から入力された類薬リストに含まれる各IDを検索キーにして学習結果テーブル204を検索し、各類薬の副作用キーワード群を得る。そして、副作用判定・学習部108は、副作用キーワード群内の各キーワードと、副作用キーワード抽出部107が安全性情報報告文書205から抽出したキーワードとの類似度をキーワード類似度評価部109に評価させる。
Specifically, the side effect determination /
キーワード類似度評価部109は、類似度を評価する対象として指定された2つのキーワードの各々をそれぞれ分割して得られる部分文字列同士の類似度を部分文字列類似度評価部110に評価させる。そして、キーワード類似度評価部109は、部分文字列類似度評価部110による評価の結果を集計することで、2つのキーワードの各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価する。キーワード類似度評価部109は、2つのキーワードそれぞれの分割パターンの複数通りの組み合わせについての評価を用いて、2つのキーワード同士の類似度を評価する。
The keyword
そして、副作用判定・学習部108は、キーワード類似度評価部109による評価の結果を用いて、安全性情報報告文書205から抽出されたキーワードが示す副作用が、判定対象薬の類薬の副作用とどの程度類似しているかを判定する。
Then, the side effect determination /
類似の度合が明らかに高ければ、副作用判定・学習部108は、安全性情報報告文書205から抽出されたキーワードが示す副作用を「類薬において既に知られていた既知の副作用」と判定し、判定結果を出力する。また、類似の度合が明らかに低ければ、副作用判定・学習部108は、安全性情報報告文書205から抽出されたキーワードが示す副作用を「類薬においても知れられていない、未知の副作用である」と判定し、判定結果を出力する。
If the degree of similarity is clearly high, the side effect determination /
そして、類似の度合が中程度であれば、副作用判定・学習部108は、安全性情報報告文書205から抽出されたキーワードが示す副作用を「既知かもしれない副作用」と判定し、判定結果を出力する。この場合、副作用判定・学習部108は、「既知かもしれない」と判定された副作用が既知か未知か入力するようユーザに促し、ユーザからの入力を受け取る。
If the degree of similarity is medium, the side effect determination /
そして、副作用判定・学習部108は、自ら「既知」と判断したキーワードと、ユーザから「既知」という判断が入力されたキーワードに関して、既知の副作用として学習する。すなわち、副作用判定・学習部108は、学習結果テーブル204内の判定対象薬に対応するエントリにおいて、既知副作用リストを更新する。
Then, the side effect determination /
さらに、副作用判定・学習部108は、判定結果に基づいて、安全性情報報告文書205から抽出されたキーワードと類薬の副作用キーワード群に含まれるキーワードのペアで、同義語同士と見なせるものを、同義語辞書203に追加する。
Further, the side effect determination /
なお、副作用判定・学習部108が参照する学習結果テーブル204内の副作用キーワード群は、副作用キーワード抽出部107が前処理制御部113からの命令にしたがって行う前処理によって予め得られたものである。すなわち、副作用キーワード抽出部107は、上記に説明した動作のほかに、前処理として、添付文書群201内の各添付文書202について以下の前処理を行う。
The side effect keyword group in the learning result table 204 referred to by the side effect determination /
副作用キーワード抽出部107は、当該添付文書202の「副作用」セクションから、副作用を示すキーワードを抽出する。そして、副作用キーワード抽出部107は、当該添付文書202に対応するエントリを学習結果テーブル204内で検索し、検索されたエントリの副作用キーワード群に、当該添付文書202から抽出したキーワードを追加登録する。
The side effect
なお、本実施形態では、各添付文書202は、当該添付文書202が添付される医薬品のIDをファイル名に含むことによって、当該IDと対応づけられている。よって、副作用キーワード抽出部107は、どの添付文書202から抽出したキーワードを学習結果テーブル204のどのエントリに登録すればよいかを認識することができる。
In the present embodiment, each attached
しかし、添付文書202とIDを対応づける方法は実施形態に応じて任意である。例えば、学習結果テーブル204に添付文書202のファイル名を示すフィールドがあってもよく、当該フィールドによってIDと添付文書202が対応づけられていてもよい。つまり、副作用キーワード抽出部107は添付文書202とIDの対応づけを、当該フィールドを参照することで認識してもよい。また、医薬品医療機器情報提供ホームページでは、Standard Generalized Markup Language(SGML)形式とPortable Document Format(PDF)形式で添付文書が公開されているが、本実施形態では添付文書202のファイル形式は任意である。
However, the method for associating the attached
以上のとおり、副作用処理部102は、安全性情報報告文書205で報告された副作用が既知か未知かを自動的又は半自動的に判定することができる。したがって、製薬会社は、厚生労働大臣への迅速な報告を行うことができる。
As described above, the side
また、詳しくは後述するが、本実施形態では、長い文字列同士の一致を短い文字列同士の一致よりも高く評価しつつも、長い文字列同士が必ずしも完全に一致していなくても部分的に一致していればある程度の評価を与える方針が採用されている。具体的には、キーワード類似度評価部109、副作用判定・学習部108及び類薬判定・学習部112が、上記方針にしたがって動作する。
Further, as will be described in detail later, in the present embodiment, while matching long character strings is evaluated to be higher than matching short character strings, even if long character strings do not necessarily match completely, partial matching may occur. A policy that gives a certain degree of evaluation if it agrees with is adopted. Specifically, the keyword
上記方針によれば、副作用判定・学習部108による判定の精度を上げることができる。また、上記方針によれば、以下に述べる学習結果テーブル204の類薬リストの学習を、精度よく、かつ、なるべく漏れのないように行うことも可能となる。
According to the above policy, the accuracy of determination by the side effect determination /
なぜなら、第1に、長い文字列同士が必ずしも完全に一致していなくても部分的に一致していればある程度の評価を与えるようにすることで、表記の揺れや用語の不統一を吸収することができ、類似概念を表すキーワード同士の類似性も評価可能となるからである。 Because, firstly, even if long character strings do not necessarily match completely, if they are partially matched, a certain degree of evaluation is given to absorb fluctuations in notation and inconsistency of terms. This is because the similarity between keywords representing similar concepts can be evaluated.
例えば、「全身麻酔剤」と「全身吸入麻酔剤」という2つのキーワードは、完全には一致しないが、「全身」と「麻酔剤」という部分文字列において一致し、意味的にも強い関連性を持っている。よって、キーワード間での文字列の部分的な一致に対して、評価をゼロとするのではなく、ある程度の評価を与えることで、キーワード同士の意味的な一致又は類似をうまく評価して、評価の精度を上げることができる。また、たとえ類似するキーワード間に表記の差があったとしても、文字列の部分的な一致に対してある程度の評価を与えることで、類似性を見落とすリスクが減るので、漏れのない学習が可能となる。 For example, the two keywords "general anesthetic" and "general inhalation anesthetic" do not match completely, but they match in the substrings "systemic" and "anesthetic" and have strong semantic relevance. have. Therefore, instead of setting the evaluation to zero for partial matching of character strings between keywords, giving a certain degree of evaluation, evaluates the semantic match or similarity between keywords well, and evaluates Can improve the accuracy. Also, even if there is a difference in notation between similar keywords, giving a certain degree of evaluation to partial matching of character strings reduces the risk of overlooking similarities, so learning without omission is possible It becomes.
また、第2の理由は、一般的な傾向として長いキーワードは意味的に限定された内容を表すことが多く、キーワード抽出におけるノイズの多くは短いキーワードだからである。そのため、長い文字列同士の一致を重視することで、ノイズの影響を低減することができる。 The second reason is that, as a general tendency, long keywords often represent semantically limited contents, and most of noise in keyword extraction is short keywords. Therefore, it is possible to reduce the influence of noise by placing importance on matching long character strings.
例えば、添付文書202の「副作用」セクションにおける「このような症状があらわれた場合は投与を中止してください。」などの自然文から「症状」という短いキーワードが抽出されるかもしれない。しかし、こうして抽出された「症状」というキーワードは具体的な副作用を示すものではない。他方で、「アナフィラキシー様症状」のような長いキーワードは、具体的な副作用を示すことが多い。よって、長い文字列同士の一致を重視することでノイズの影響を低減することができる。
For example, a short keyword “symptom” may be extracted from a natural sentence such as “please discontinue administration if such a symptom appears” in the “side effect” section of the
そして、第3の理由は、長い文字列同士の一致を重視することで、部分的な一致に起因する過度の評価の悪影響を抑えることができるからである。場合によっては、文字列の部分的な一致に対して評価を与えることで、キーワード間の類似度を過度に高く評価してしまうおそれがあるが、本実施形態では過度の評価に起因する悪影響を抑えることができる。 And the 3rd reason is because the bad influence of the excessive evaluation resulting from partial matching can be suppressed by attaching importance to matching of long character strings. In some cases, by giving an evaluation to partial matching of character strings, there is a possibility that the similarity between keywords may be evaluated excessively high, but in this embodiment, there is an adverse effect caused by excessive evaluation. Can be suppressed.
つまり、本実施形態では、長い文字列同士の一致を重視する方針のもと、いくつかの短い部分文字列同士が一致するキーワード間の類似度は、それらの部分文字列の合計の長さに相当する長い文字列が一致するキーワード間の類似度以下に評価される。例えば、ある2つのキーワードにおいて、偶然、離れた場所にある3文字が共通していたとしても、当該2つのキーワードの類似度は、連続する3文字を共有する別の2つのキーワード間の類似度以下にしか評価されない。よって、長い文字列同士の一致を重視することで、複数の短い部分文字列の偶然の一致によるノイズを低減させることができる。 In other words, in this embodiment, based on a policy that places importance on matching long character strings, the similarity between keywords that match several short partial character strings is the total length of those partial character strings. It is evaluated below the degree of similarity between keywords matching the corresponding long character string. For example, even if three characters in a certain place are accidentally shared by two keywords, the similarity between the two keywords is the similarity between two keywords that share three consecutive characters. Only evaluated below. Therefore, by placing importance on matching long character strings, noise due to accidental matching of a plurality of short partial character strings can be reduced.
以上のような理由から、本実施形態によれば、副作用判定・学習部108が高精度の判定を行うことができ、類薬判定・学習部112が類薬リストの学習を精度よく、かつ、なるべく漏れのないように行うこともできる。そして、精度よく、かつ、なるべく漏れのないように学習された類薬リストを利用することで、結局は、副作用判定・学習部108が判定精度を向上させることができる。
For the reasons as described above, according to the present embodiment, the side effect determination /
なぜなら、類薬リストの精度が悪いと、本当は判定対象薬の類薬ではない医薬品でのみ知られていた副作用を、副作用判定・学習部108が誤って「既知の副作用」と判定してしまうおそれがあるからである。また、類薬リストに漏れがあると、本当は判定対象薬の類薬において既知の副作用を、副作用判定・学習部108が誤って「未知の副作用」と判定してしまうおそれがあるからである。よって、精度よく、かつ、なるべく漏れのないように学習された類薬リストを使うことで、副作用判定・学習部108が判定精度を向上させることができる。
Because, if the accuracy of the similar drug list is poor, there is a risk that the side effect determination /
したがって、本実施形態の判定装置100を利用することで、製薬会社は、副作用についての正確な報告を、従来よりも迅速に厚生労働大臣に対して行うことができるようになる。
Therefore, by using the
さて、上記のような学習結果テーブル204における類薬リストの学習は、本実施形態では前処理制御部113の命令にしたがって類薬処理部103により事前に行われる。すなわち、本実施形態では、類薬判定・学習部112が、添付文書群201の中の任意の2つの添付文書202の組について、当該2つの添付文書202に対応する2つの医薬品同士が類薬同士であるか否かを判定し、判定した結果を学習する。
Now, learning of the analog medicine list in the learning result table 204 as described above is performed in advance by the analog
具体的には、効能・効果キーワード抽出部111が、まず、各添付文書202について、「効能又は効果」セクションからキーワードを抽出する。そして効能・効果キーワード抽出部111は、当該添付文書202に対応するエントリを学習結果テーブル204内で検索し、検索されたエントリの効能・効果キーワード群に、抽出したキーワードを追加登録する。なお、効能・効果キーワード抽出部111は、添付文書202とIDの対応づけを、例えば添付文書202のファイル名により認識することができる。
Specifically, the efficacy / effect keyword extraction unit 111 first extracts a keyword from the “efficacy or effect” section for each attached
また、類薬判定・学習部112は、類薬同士であるか否かを判定しようとする2つの添付文書202が「薬効分類名」又は「有効成分に関する理化学的知見」のセクションで一致していれば、2つの医薬品同士が類薬であると見なす。
In addition, in the similar drug determination / learning
他方、「薬効分類名」又は「有効成分に関する理化学的知見」のセクションでの一致が検出されない場合、類薬判定・学習部112は、2つの添付文書202の「効能又は効果」セクション同士の類似度を求める。つまり、類薬判定・学習部112は、2つの添付文書202にそれぞれ対応する学習結果テーブル204内のエントリにそれぞれ学習済みの効能・効果キーワード群同士の類似度を求める。
On the other hand, if no match is detected in the “medicinal effect classification name” or “physical and chemical knowledge regarding active ingredient” section, the analogy drug determination / learning
具体的には、類薬判定・学習部112は、一方の添付文書202に対応するエントリの効能・効果キーワード群内のキーワードと、他方の202に対応するエントリの効能・効果キーワード群内のキーワードとの類似度をキーワード類似度評価部109に評価させる。そして、類薬判定・学習部112は、キーワード類似度評価部109による評価の結果を用いて、2つの添付文書202の「効能又は効果」セクション同士がどの程度類似しているかを判定する。
Specifically, the analogy drug determination / learning
類似の度合が明らかに高ければ、類薬判定・学習部112は、当該2つの医薬品同士を「類薬同士」と判定し、判定結果を出力する。また、類似の度合が明らかに低ければ、類薬判定・学習部112は、当該2つの医薬品同士を「類薬同士ではない」と判定し、判定結果を出力する。
If the degree of similarity is clearly high, the similar medicine determination / learning
そして、類似の度合が中程度であれば、類薬判定・学習部112は、当該2つの医薬品について「類薬同士の可能性がある組み合わせ」と判定し、判定結果を出力する。この場合、類薬判定・学習部112は、「類薬同士の可能性がある」と判定された2つの医薬品が類薬同士か否かを入力するようユーザに促し、ユーザからの入力を受け取る。
Then, if the degree of similarity is moderate, the similar drug determination / learning
そして、類薬判定・学習部112は、自ら「類薬同士」と判断した医薬品の組み合わせと、ユーザから「類薬同士」という判断が入力された医薬品同士の組み合わせに関して、類薬同士の関係を学習する。すなわち、類薬判定・学習部112は、類薬同士である2つの医薬品それぞれに対応する学習結果テーブル204内のエントリにおいて、類薬リストを更新する。
Then, the similar drug determination / learning
さらに、類薬判定・学習部112は、2つの添付文書202の「効能又は効果」セクション同士の類似度にしたがって2つの医薬品同士を類薬と判定した場合、効能又は効果を示すキーワードのペアで同義語同士と見なせるものを、同義語辞書203に追加する。
Furthermore, when the two similar drugs are determined to be similar according to the similarity between the “efficacy or effect” sections of the two package inserts 202, the similar drug determination / learning
ところで、図1の判定装置100は、専用のハードウェア回路、プログラムを実行する汎用の情報処理装置、あるいはその組み合わせにより実現可能だが、本実施形態では、プログラムを実行する情報処理装置により判定装置100が実現される。そこで、続いて、判定装置100の各部が具体的にはどのようなハードウェアを用いて実現されるのかを説明する。
Incidentally, the
図2は、コンピュータの構成図である。図2のコンピュータ300は、プログラムを実行する汎用の情報処理装置の一例である。
コンピュータ300は、Central Processing Unit(CPU)301、Read Only Memory(ROM)302、Random Access Memory(RAM)303及び通信インタフェース304を有する。また、コンピュータ300は、入力装置305、出力装置306、記憶装置307及び可搬型記憶媒体310の駆動装置308を有する。そして、CPU301、ROM302、RAM303、通信インタフェース304、入力装置305、出力装置306、記憶装置307及び駆動装置308は、バス309により互いに接続されている。
FIG. 2 is a configuration diagram of the computer. A
The
入力装置305は、例えば、キーボードでもよいし、マウスなどのポインティングデバイスデバイスでもよいし、その組み合わせでもよい。出力装置306は、例えば、液晶ディスプレイなどのディスプレイ、スピーカ、プリンタ、又はそれらの任意の組み合わせである。
The
記憶装置307は、ハードディスク装置、フラッシュメモリなどの不揮発性の半導体メモリ装置、又はその組み合わせである。また、可搬型記憶媒体310としては、Compact Disc(CD)やDigital Versatile Disk(DVD)などの光ディスク、光磁気ディスク、磁気ディスク、フラッシュメモリなどの不揮発性の半導体メモリカードなどが利用可能である。
The
コンピュータ300は、図2に示すように、通信インタフェース304とネットワーク311を介して、他のコンピュータ312と接続されていてもよい。ネットワーク311は、Local Area Network(LAN)やインターネットなどの任意のネットワークでよい。
The
CPU301は、RAM303にプログラムをロードしてRAM303をワークエリアとして用いながらプログラムを実行することにより、図1の副作用処理部102、類薬処理部103及び前処理制御部113の機能を実現することができる。そして、CPU301が実行する上記プログラムは、予めROM302又は記憶装置307にインストールされていてもよいし、可搬型記憶媒体310に格納されて提供され、駆動装置308により読み取られて記憶装置307にコピーされてもよい。あるいは、上記プログラムは、他のコンピュータ312からネットワーク311を介して記憶装置307にダウンロードされてもよい。
The
より具体的に本実施形態における図1と図2の対応を説明すると、次のとおりである。
図1の格納部101は、図2の記憶装置307により実現される。また、図1の判定対象薬指定部104は、図2の入力装置305とCPU301により実現される。つまり、判定対象薬ID206は入力装置305から入力され、CPU301により認識される。そして、図1の類薬認識部105は、CPU301により実現される。
More specifically, the correspondence between FIG. 1 and FIG. 2 in the present embodiment will be described as follows.
The storage unit 101 in FIG. 1 is realized by the
また、図1の安全性情報報告文書205は、他のコンピュータ312から与えられてもよく、その場合、図1の報告文書取得部106は、通信インタフェース304とCPU301により実現されてもよい。あるいは、安全性情報報告文書205は、可搬型記憶媒体310から読み込まれてもよく、その場合、報告文書取得部106は、可搬型記憶媒体310の駆動装置308とCPU301により実現されてもよい。あるいは、安全性情報報告文書205は、入力装置305から入力されてもよく、その場合、報告文書取得部106は、入力装置305とCPU301により実現されてもよい。
Further, the safety
また、どこから与えられるにしろ、安全性情報報告文書205は、記憶装置307又はRAM303に格納される。つまり、報告文書取得部106が安全性情報報告文書205を出力する先である副作用キーワード抽出部107は、さらに記憶装置307又はRAM303を含む。
Moreover, the safety
そして、図1の副作用キーワード抽出部107はCPU301により実現される。また、図1の副作用判定・学習部108は、プログラムにしたがって処理を行うCPU301、並びに、ユーザインタフェースを実現するための出力装置306及び入力装置305によって実現される。
The side effect
そして、図1の部分文字列類似度評価部110を含むキーワード類似度評価部109と効能・効果キーワード抽出部111も、CPU301によって実現することができる。また、類薬判定・学習部112は、副作用判定・学習部108と同様に、CPU301と出力装置306と入力装置305によって実現される。そして、前処理制御部113も、CPU301と、前処理の開始を指示する入力を受け取る入力装置305によって実現することができる。
The keyword
以上、例えば図2のコンピュータ300により実現される図1の判定装置100について、構成と動作の概略を説明し、また、判定装置100が利用する情報の概略についても説明した。そこで、以下では副作用処理部102の動作について、図3〜10を参照してさらに詳しく説明する。
The outline of the configuration and operation of the
図3は、副作用判定・学習処理のフローチャートである。
ステップS101で判定対象薬指定部104は、判定対象薬ID206の入力を受け取ることで、判定対象薬を特定し、判定対象薬ID206を類薬認識部105と副作用判定・学習部108に出力する。
FIG. 3 is a flowchart of the side effect determination / learning process.
In step S <b> 101, the determination target
すると、次のステップS102で類薬認識部105は、判定対象薬指定部104から入力された判定対象薬ID206を検索キーにして学習結果テーブル204を検索し、IDが判定対象薬ID206と一致するエントリから類薬リストを取得する。
Then, in the next step S102, the similar
ここで、学習結果テーブル204の例について、図4の例を参照してより詳しく説明する。
学習結果テーブル204は、前述のとおり、「ID」、「効能・効果キーワード群」、「類薬リスト」、「副作用キーワード群」及び「既知副作用リスト」というフィールドを有する。詳しくは後述するが、既知副作用リストは図3のステップS116又はS117で設定され、それ以外のフィールドは、図11〜14とともに後述する処理によって予め設定される。
Here, an example of the learning result table 204 will be described in more detail with reference to the example of FIG.
As described above, the learning result table 204 includes fields of “ID”, “efficacy / effect keyword group”, “similar medicine list”, “side effect keyword group”, and “known side effect list”. As will be described in detail later, the known side effect list is set in step S116 or S117 of FIG. 3, and the other fields are set in advance by the processing described later with reference to FIGS.
図4には、次の(a1)〜(a5)に説明するエントリを含む学習結果テーブル204が例示されている。なお、図4では、紙幅の都合上省略したいくつかのキーワードを「……」と示してある。 FIG. 4 illustrates a learning result table 204 including entries described in the following (a1) to (a5). In FIG. 4, some keywords omitted for convenience of paper width are indicated as “...
(a1)「111222A3333」というIDを持つエントリ
このエントリにおける効能・効果キーワード群は、「気管支炎」というキーワードを含む。また、このエントリにおける類薬リストは、図4には不図示のエントリを示す「396396B7777」というIDと、下記(a5)のエントリを示す「998877F5050」というIDを含む。そして、このエントリにおいて、副作用キーワード群は「頭痛」と「肺出血」というキーワードを含み、既知副作用リストは「頭痛」というキーワードを含む。
(A1) Entry with ID “111222A3333” The efficacy / effect keyword group in this entry includes the keyword “bronchitis”. In addition, the similar medicine list in this entry includes an ID “396396B7777” indicating an entry not shown in FIG. 4 and an ID “998877F5050” indicating the entry (a5) below. In this entry, the side effect keyword group includes the keywords “headache” and “pulmonary hemorrhage”, and the known side effect list includes the keyword “headache”.
例えば、「111222A3333」というIDの医薬品に関して新たに臨床現場から頭痛という副作用が報告されたときに、「396396B7777」というIDが示す類薬において頭痛が副作用として既知であったとする。そして、その後、「111222A3333」というIDの医薬品の添付文書202が改訂され、「副作用」セクションに頭痛が追記されたとする。例えば以上のような場合に、この(a1)のエントリは、図4に示した状態となる。
For example, when a side effect of a headache is newly reported from a clinical site regarding a drug with an ID of “111222A3333”, the headache is known as a side effect in the similar drug indicated by the ID of “396396B7777”. After that, it is assumed that the
(a2)「234567F0909」というIDを持つエントリ
このエントリにおける効能・効果キーワード群は、「蕁麻疹」と「湿疹」というキーワードを含む。また、このエントリにおける類薬リストは、図4には不図示のエントリを示す「567567A1212」というIDを含む。そして、このエントリにおいて、副作用キーワード群は「糖尿病」と「貧血」というキーワードを含み、既知副作用リストは空である。
(A2) Entry with ID “234567F0909” The efficacy / effect keyword group in this entry includes the keywords “urticaria” and “eczema”. Further, the similar medicine list in this entry includes an ID “567567A1212” indicating an entry not shown in FIG. In this entry, the side effect keyword group includes the keywords “diabetes” and “anemia”, and the known side effect list is empty.
(a3)「444555A7777」というIDを持つエントリ
このエントリにおける効能・効果キーワード群は、「関節炎」と「急性上気道炎」というキーワードを含む。また、このエントリにおける類薬リストは、下記(a4)のエントリを示す「777888C9090」というIDと、下記(a5)のエントリを示す「998877F5050」というIDを含む。そして、このエントリにおいて、副作用キーワード群は「貧血」と「肺出血」というキーワードを含み、既知副作用リストは空である。
(A3) Entry with ID “444555A7777” The efficacy / effect keyword group in this entry includes the keywords “arthritis” and “acute upper respiratory tract inflammation”. The similar medicine list in this entry includes an ID “777788C9090” indicating the entry (a4) below and an ID “998877F5050” indicating the entry (a5) below. In this entry, the side effect keyword group includes the keywords “anemia” and “pulmonary hemorrhage”, and the known side effect list is empty.
(a4)「777888C9090」というIDを持つエントリ
このエントリにおける効能・効果キーワード群は、「急性上気道炎」と「解熱」というキーワードを含む。また、このエントリにおける類薬リストは、上記(a3)のエントリを示す「444555A7777」というIDと、下記(a5)のエントリを示す「998877F5050」というIDを含む。そして、このエントリにおいて、副作用キーワード群は「心不全」と「胃潰瘍」というキーワードを含み、既知副作用リストは空である。
(A4) Entry with ID “777788C9090” The efficacy / effect keyword group in this entry includes the keywords “acute upper respiratory tract inflammation” and “antipyretic”. The analogy drug list in this entry includes an ID “444555A7777” indicating the entry (a3) and an ID “998877F5050” indicating the entry (a5) below. In this entry, the side effect keyword group includes the keywords “heart failure” and “gastric ulcer”, and the known side effect list is empty.
(a5)「998877F5050」というIDを持つエントリ
このエントリにおける効能・効果キーワード群は、「急性上気道炎」と「解熱」と「気管支炎」というキーワードを含む。また、このエントリにおける類薬リストは、上記(a1)のエントリを示す「111222A3333」というIDと、上記(a3)のエントリを示す「444555A7777」というIDと、上記(a4)のエントリを示す「777888C9090」というIDを含む。そして、このエントリにおいて、副作用キーワード群は「血圧低下」と「貧血」というキーワードを含み、既知副作用リストは「心不全」というキーワードを含む。
(A5) Entry with ID “998877F5050” The efficacy / effect keyword group in this entry includes the keywords “acute upper respiratory tract inflammation”, “antipyretic fever”, and “bronchitis”. Further, the analogy medicine list in this entry includes an ID “111222A3333” indicating the entry (a1), an ID “444555A7777” indicating the entry (a3), and “777888C9090 indicating the entry (a4). "Is included. In this entry, the side effect keyword group includes the keywords “blood pressure reduction” and “anemia”, and the known side effect list includes the keyword “heart failure”.
例えば、この(a5)のエントリに対応する「998877F5050」というIDの医薬品に関して、副作用として心不全が臨床現場から報告されたことがあるとする。そして、その時点で、上記(a4)のエントリに相当する類薬において、心不全という副作用は添付文書202に記載されており、図4に示すように(a4)のエントリの副作用キーワード群に「心不全」というキーワードが含まれていたとする。その結果、心不全が「類薬において既知の副作用」として学習され、一方で(a5)のエントリに対応する医薬品の添付文書202の改訂はまだ済んでいないという状況において、(a5)のエントリは、図4に示した状態となる。
For example, it is assumed that heart failure has been reported from the clinical site as a side effect for a drug with an ID of “998877F5050” corresponding to the entry of (a5). At that time, in the similar drug corresponding to the entry (a4), the side effect of heart failure is described in the
ここで、図3の説明に戻る。説明の便宜上、例えばステップS101で入力された判定対象薬ID206が、上記(a5)のエントリを示す「998877F5050」というIDだったとする。すると、ステップS102で類薬認識部105は、(111222A3333,444555A7777,777888C9090)という類薬リストを取得する。
Returning to the description of FIG. For convenience of explanation, for example, it is assumed that the determination
また、ステップS103では、報告文書取得部106が、判定対象薬に関する安全性情報報告文書205の入力を受け付け、安全性情報報告文書205を副作用キーワード抽出部107に出力する。
In
なお、ステップS103は、ステップS101〜S102の前に行われてもよい。また、実施形態によっては、安全性情報報告文書205が、副作用について報告する対象の医薬品のIDを含んでもよい。その場合、判定対象薬指定部104は、ステップS101で明示的な判定対象薬ID206の入力を受け付ける代わりに、ステップS103で受け付けられた安全性情報報告文書205から判定対象薬ID206を抽出することで、判定対象薬を特定してもよい。
Note that step S103 may be performed before steps S101 to S102. In some embodiments, the safety
ステップS103の実行後、ステップS104において、副作用キーワード抽出部107が、判定対象薬の副作用を示すキーワードを安全性情報報告文書205から抽出し、抽出したキーワードを副作用判定・学習部108に出力する。なお、副作用キーワード抽出部107がキーワードの抽出に用いるアルゴリズムは実施形態に応じて様々でよい。
After execution of step S103, in step S104, the side effect
例えば、副作用キーワード抽出部107は、安全性情報報告文書205を形態素解析し、名詞の1つ以上の連なりをキーワードとして抽出してもよい。副作用キーワード抽出部107は、形態素解析の結果に対してさらに構文解析を行い、構文解析の結果を使ってキーワードを抽出してもよい。
For example, the side effect
あるいは、安全性情報報告文書205の形式によっては、副作用キーワード抽出部107は、安全性情報報告文書205内の所定の項目を切り出すだけでキーワードを取得することができる場合もある。
Alternatively, depending on the format of the safety
もちろん、副作用キーワード抽出部107は、例えば形態素解析などの処理を行う場合にも、安全性情報報告文書205の形式に応じて、安全性情報報告文書205のうち適宜の一部分のみを形態素解析することができる。例えば、安全性情報報告文書205が、副作用があらわれた患者に関する病歴等の情報の欄と、副作用を記述する欄と、報告者たる医師の氏名等を示す欄を含む場合、副作用キーワード抽出部107は副作用を記述する欄のデータのみを抜き出して形態素解析すればよい。
Of course, the side effect
あるいは、副作用キーワード抽出部107は、字種に基づく簡易的なキーワード抽出処理を行ってもよい。例えば、副作用キーワード抽出部107は、医学用語の特徴に鑑みて、漢字、カタカナ又は英字の連なりをキーワードとして抽出してもよい。
Alternatively, the side effect
また、例えば各種副作用の辞書のデータが利用可能であれば、副作用キーワード抽出部107は、安全性情報報告文書205から、辞書のエントリと一致する文字列をキーワードとして抽出してもよい。
Further, for example, if dictionary data of various side effects is available, the side effect
いずれにせよ、副作用キーワード抽出部107は、報告文書取得部106が取得した安全性情報報告文書205から、実施形態に応じた適宜のアルゴリズムにしたがって、副作用を示すキーワードを抽出する。そして、副作用キーワード抽出部107は、抽出したキーワードを副作用判定・学習部108に通知する。
In any case, the side effect
なお、ステップS104で抽出されるキーワードは、1つのこともあるし、複数のこともある。以下では説明の便宜上、ステップS104において「心不全」と「頭痛」と「脳出血」という3つのキーワードが抽出されたものとする。 Note that there may be one or more keywords extracted in step S104. Hereinafter, for convenience of explanation, it is assumed that three keywords “heart failure”, “headache”, and “cerebral hemorrhage” are extracted in step S104.
続くステップS105では、副作用判定・学習部108が、安全性情報報告文書205で報告されたうちで未処理の副作用が残っているか否かを判定する。つまり、副作用判定・学習部108は、ステップS104で副作用キーワード抽出部107から通知されたキーワードのすべてについてステップS106以降の処理を行ったか否かを判定する。
In subsequent step S <b> 105, the side effect determination /
未処理の副作用が残っていれば、処理はステップS106に移行する。逆に、すべての副作用について処理済みであれば、処理はステップS117に移行する。なお、特に誤解のおそれがない場合には、説明の簡略化のため、「副作用を示すキーワード」のことを単に「副作用」ということもある。 If unprocessed side effects remain, the process proceeds to step S106. Conversely, if all the side effects have been processed, the process proceeds to step S117. If there is no possibility of misunderstanding, the “keyword indicating a side effect” may be simply referred to as “side effect” for the sake of simplification.
ステップS106で副作用判定・学習部108は、未処理の副作用(つまり未処理のキーワード)を1つ選ぶ。以下ではステップS106で選ばれた副作用を「選択副作用」という。例えば、上記のようにステップS104において「心不全」と「頭痛」と「脳出血」という3つのキーワードが抽出された場合、ステップS106の1回目の実行で副作用判定・学習部108は「心不全」を選んでもよい。
In step S106, the side effect determination /
次のステップS107で副作用判定・学習部108は、選択副作用が学習済みであるか否かを判断する。つまり、副作用判定・学習部108は、学習結果テーブル204においてIDが判定対象薬ID206に一致するエントリを検索し、見つかったエントリの既知副作用リストを取得する。
In next step S107, the side effect determination /
そして、取得した既知副作用リストの中に、選択副作用と一致するか、又は選択副作用の同義語と一致する要素があれば、副作用判定・学習部108は、「選択副作用は学習済みである」と判定する。逆に、取得した既知副作用リストの中に、選択副作用と一致する要素もなく、選択副作用の同義語と一致する要素もなければ、副作用判定・学習部108は、「選択副作用は学習済みではない」と判定する。
Then, if there is an element in the acquired known side effect list that matches the selected side effect or a synonym of the selected side effect, the side effect determination /
なお、副作用判定・学習部108は、選択副作用を検索キーにして同義語辞書203を検索することにより、選択副作用に同義語が存在するか否かを認識することができ、また、もし同義語が存在すれば、当該同義語を認識することもできる。
The side effect determination /
ステップS107において、選択副作用が学習済みと判断された場合、処理はステップS108に移行する。逆に、選択副作用が学習済みではない場合、処理はステップS109に移行する。 If it is determined in step S107 that the selected side effect has been learned, the process proceeds to step S108. Conversely, if the selected side effect has not been learned, the process proceeds to step S109.
例えば、上記の例のようにステップS106で「心不全」が選ばれた場合、図4の学習結果テーブル204において判断対象薬に対応する上記(a5)のエントリの既知副作用リストには「心不全」という要素が含まれるので、選択副作用は学習済みである。よって、処理はステップS108に移行する。 For example, when “heart failure” is selected in step S106 as in the above example, the known side effect list of the entry (a5) corresponding to the determination target drug in the learning result table 204 of FIG. Since the element is included, the selective side effects have been learned. Therefore, the process proceeds to step S108.
逆に、ステップS106で「頭痛」又は「脳出血」が選ばれた場合、ステップS107では「選択副作用は学習済みではない」と判断される。なぜなら、上記(a5)のエントリの既知副作用リストには、「頭痛」又はその同義語の要素もなく、「脳出血」又はその同義語の要素もないからである。 Conversely, if “headache” or “cerebral hemorrhage” is selected in step S106, it is determined in step S107 that “the selected side effect has not been learned”. This is because there is no element of “headache” or its synonym and no element of “cerebral hemorrhage” or its synonym in the known side effect list of the entry (a5).
ステップS108で副作用判定・学習部108は、選択副作用が既知であることを出力する。そして、処理はステップS105に戻る。
ここで、ステップS108での出力について、図5を参照してさらに詳しく説明する。図5は、副作用判定結果画面の例を説明する図である。
In step S108, the side effect determination /
Here, the output in step S108 will be described in more detail with reference to FIG. FIG. 5 is a diagram illustrating an example of the side effect determination result screen.
図5の副作用判定結果画面400は、判定対象薬を示す判定対象薬表示欄401と、図3の処理の結果を示す判定結果一覧表402を含む。処理の結果によっては、ある副作用が既知か未知かをユーザに判断させるためのラジオボタン403を判定結果一覧表402が含み、副作用判定結果画面400がさらに学習ボタン404を含むこともある。ラジオボタン403と学習ボタン404についてはステップS118とともに後述するので、ここでは説明を省略する。
The side effect
本実施形態の副作用判定・学習部108は、図2の出力装置306に相当するディスプレイに、図5の副作用判定結果画面400を出力する。
上記の図3に関する説明では省略したが、副作用判定・学習部108は、例えばステップS104で副作用キーワード抽出部107からキーワードの通知を受けたときに、判定対象薬表示欄401と、判定結果一覧表402のヘッダ行を出力してもよい。あるいは、副作用判定・学習部108は、ステップS108又はステップS116を初めて実行するときに、判定対象薬表示欄401とヘッダ行を出力してもよい。
The side effect determination /
Although omitted in the description regarding FIG. 3 above, the side effect determination /
そして、上記の例のように選択副作用が「心不全」であり、ステップS107で選択副作用が学習済みと判明した場合には、副作用判定・学習部108は、ステップS108で図5の判定結果一覧表402の「心不全」の行をディスプレイに出力してもよい。
If the selected side effect is “heart failure” as in the above example and it is found that the selected side effect has been learned in step S107, the side effect determination /
図5の例では、判定対象薬表示欄401は、判定対象薬IDを表示することで判定対象薬を示している。もちろん、実施形態によっては、副作用判定・学習部108は、例えば判定対象薬の販売名又は一般名を判定対象薬の添付文書202から読み出して、判定対象薬表示欄401に出力してもよい。
In the example of FIG. 5, the determination target
なお、本実施形態の副作用判定・学習部108は、判定対象薬表示欄401において判定対象薬IDに、判定対象薬の添付文書202へのリンクを埋め込んでいる。よって、ユーザは、リンクをクリックすることで、判定対象薬の添付文書202を容易に特定して参照することができ、判定装置100による判定結果の妥当性を確認することができる。
Note that the side effect determination /
また、図5に例示した判定結果一覧表402は、ヘッダ行と、安全性情報報告文書205から抽出された個々の副作用のキーワードにそれぞれ対応する行を含む。図5の例は、図3のステップS104で「心不全」と「頭痛」と「脳出血」という3つのキーワードが抽出された場合の例なので、ヘッダ行の下にこれら3つのキーワードに対応する3つの行がある。
Further, the
判定結果一覧表402のヘッダ行は、「副作用」、「学習結果による判定」、「類薬との比較による判定」及び「判断入力欄」という見出しを含む。そして、図4に例示したように、IDが「998877F5050」の医薬品の類薬リストは(111222A3333,444555A7777,777888C9090)である。よって、「類薬との比較による判定」の見出しのもとには、これら3つの類薬に対応する3つの列があり、ヘッダ行にはこれら3つの類薬それぞれのIDが表示されている。
The header row of the
なお、本実施形態の副作用判定・学習部108は、3つの類薬のIDのそれぞれに、当該類薬の添付文書202へのリンクを埋め込んでいる。よって、ユーザは、リンクをクリックすることで、類薬の添付文書202を容易に特定して参照することができ、判定装置100による判定結果の妥当性を確認することができる。
Note that the side effect determination /
そして、図5の判定結果一覧表402の1行目は、図3のステップS106で「心不全」が選択副作用として選ばれた場合に出力される行である。この場合、副作用判定・学習部108は、選択副作用が既知の副作用として学習済みであるとステップS107で判断する。よって、副作用判定・学習部108は、ステップS108において、判定結果一覧表402の「副作用」の列に選択副作用を示す「心不全」というキーワードを出力し、「学習結果による判定」の列に「既知」と出力する。
The first line of the
また、この場合、類薬との比較を行う必要はない。そこで、本実施形態の副作用判定・学習部108は、ステップS108において、「類薬との比較による判定」の見出しのもとにある3つの列には、類薬との比較を行わないことを示す「−」という文字を出力している。
In this case, it is not necessary to make a comparison with similar drugs. Therefore, in step S108, the side effect determination /
同様に、この場合、ユーザの判断を仰ぐ必要もない。そこで、本実施形態の副作用判定・学習部108は、ステップS108において、「判断入力欄」の列にも「−」という文字を出力している。
Similarly, in this case, there is no need to ask the user for judgment. Therefore, the side effect determination /
ここで図3の説明に戻る。副作用判定・学習部108は、ステップS107で「選択副作用は学習済みではない」と判断した場合、ステップS109で、「既知副作用学習リスト」と「既知副作用候補リスト」を空に初期化する。既知副作用学習リストは、現在注目している選択副作用との類似度が高い副作用が添付文書202に記載されている類薬のIDを要素として含むリストである。また、既知副作用候補リストは、現在注目している選択副作用との類似度が中程度の副作用が添付文書202に記載されている類薬のIDを要素として含むリストである。既知副作用学習リストと既知副作用候補リストの初期化の後、処理はステップS110に移行する。
Returning to the description of FIG. If the side effect determination /
ステップS110で副作用判定・学習部108は、判定対象薬の類薬のうちで、現在注目している選択副作用に関して未処理のものが残っているか否かを判断する。すなわち、副作用判定・学習部108は、ステップS102で類薬認識部105から通知された類薬リストに含まれるIDのうち、現在注目している選択副作用に関してステップS111以降の処理を行っていないIDが残っているか否かを判断する。
In step S <b> 110, the side effect determination /
もし、現在注目している選択副作用に関して未処理の類薬が残っていれば、処理はステップS111に移行する。逆に、現在注目している選択副作用に関しては、ステップS102で通知された類薬リストに含まれるすべてのIDについて処理済みであれば、処理はステップS116に移行する。 If there are any unprocessed analogs for the currently selected selective side effect, the process proceeds to step S111. On the other hand, regarding the selected side effect that is currently focused on, if all the IDs included in the similar medicine list notified in step S102 have been processed, the process proceeds to step S116.
ステップS111で副作用判定・学習部108は、判定対象薬の類薬のうちで、現在注目している選択副作用に関して未処理の類薬を1つ選ぶ。以下、ステップS111で選択された類薬を「選択類薬」といい、選択類薬のIDを「選択類薬ID」という。
In step S111, the side effect determination /
続いて、ステップS112で副作用判定・学習部108は、ステップS106で選んだ選択副作用と、ステップS111で選んだ選択類薬の添付文書202の「副作用」セクションのキーワード群との類似度を求める。ステップS112の処理の詳細は、「副作用類似度算出処理」として図6とともに後述するが、概要は次のとおりである。
Subsequently, in step S112, the side effect determination /
すなわち、副作用判定・学習部108は、選択類薬の添付文書202の「副作用」セクションから抽出された副作用キーワード群を学習結果テーブル204から取得する。そして、副作用判定・学習部108は、取得した副作用キーワード群に含まれる各キーワードについて、選択副作用との類似度をキーワード類似度評価部109に評価させる。
That is, the side effect determination /
そして、副作用判定・学習部108は、評価の結果を集計して類似度を算出する。なお、本実施形態では、類似度が高いほど、算出される値も大きい。類似度の算出後、処理はステップS113に移行する。
Then, the side effect determination /
すると、ステップS113で副作用判定・学習部108は、ステップS112で求めた類似度が、「α1以上」、「α2以上α1未満」、「α2未満」のうちどの範囲に該当するかを判断する。なお、本実施形態においてα1とα2は、予め決められた適宜の閾値であり、α1>α2である。
Then, in step S113, the side effect determination /
なお、本実施形態における閾値α1とα2は固定された値だが、実施形態によっては、閾値α1とα2は選択副作用の長さに応じて変化するように決められた値であってもよい。また、このステップS113の例に限らず、閾値との比較は、実施形態により「閾値を超えるか、それとも閾値以下か」という比較でもよいし、「閾値以上か、それとも閾値未満か」という比較でもよく、適宜方針を定めることができる。 Although the threshold values α 1 and α 2 in the present embodiment are fixed values, the threshold values α 1 and α 2 are values determined so as to change according to the length of the selected side effect depending on the embodiment. Also good. Further, the comparison with the threshold value is not limited to the example of step S113, and the comparison with the threshold value may be a comparison “whether it exceeds the threshold value or less than the threshold value” or a comparison “whether it is more than the threshold value or less than the threshold value”. Well, it is possible to establish a policy as appropriate.
閾値α1は、選択副作用を「既知の副作用」と判断するのが妥当であることを示す基準値である。また、閾値α2は、選択副作用を「未知の副作用」として判断するか、「既知の可能性がある副作用」と判断するかの境界を示す基準値である。 The threshold value α 1 is a reference value indicating that it is appropriate to determine that the selected side effect is a “known side effect”. The threshold α 2 is a reference value indicating a boundary between determining that the selected side effect is “unknown side effect” or “side effect that may be known”.
ステップS112で求めた類似度がα1以上の場合、処理はステップS113からステップS114に移行する。また、ステップS112で求めた類似度がα2以上α1未満の場合、処理はステップS113からステップS115に移行する。そして、ステップS112で求めた類似度がα2未満の場合、処理はステップS113からステップS110に戻る。 When the similarity is one or more α obtained in step S112, the processing proceeds from step S113 to step S114. Also, similarity obtained in step S112 is a case of two or more alpha less than 1 alpha, the process proceeds from step S113 to step S115. When the similarity obtained in step S112 is less than alpha 2, the process returns from step S113 to step S110.
なお、ステップS112の上記概要説明のとおり、副作用判定・学習部108は、類薬として認識された医薬品の添付文書における副作用の記載部分に含まれる語句の集合を、比較対象語句集合として取得する比較対象集合取得手段の一例である。比較対象集合取得手段としての副作用判定・学習部108は、具体的には、格納部101の学習結果テーブル204から、類薬として認識された医薬品に関する副作用学習結果情報を読み出すことにより、比較対象語句集合を取得する。類薬として認識された医薬品に関する副作用学習結果情報は、類薬として認識された医薬品の添付文書202における副作用の記載部分からの語句抽出処理により予め得られた語句の集合を、類薬として認識された医薬品の識別情報と関連付けるエントリに相当する。
Note that, as described in the outline of step S112, the side effect determination /
また、ステップS112とS113に関する上記説明から明らかなとおり、副作用判定・学習部108は、判定対象副作用語句が示す副作用が類薬において既知の副作用か否かを判定する判定手段の一例でもある。
As is clear from the above description regarding steps S112 and S113, the side effect determination /
すなわち、副作用判定・学習部108は、類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された比較対象語句集合に含まれる語句と判定対象副作用語句との組み合わせを、キーワード類似度評価部109に評価させる。換言すれば、副作用判定・学習部108は、類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された副作用キーワード群中のキーワードと選択副作用との組み合わせを、キーワード類似度評価部109に評価させる。そして、副作用判定・学習部108は、キーワード類似度評価部109による評価の結果と閾値α1とを用いて、判定対象副作用語句が示す副作用が当該類薬において既知の副作用か否かを判定する。
That is, the side effect determination /
ステップS114で副作用判定・学習部108は、選択類薬IDを既知副作用学習リストに追加する。つまり、副作用判定・学習部108は、「選択副作用が選択類薬において既知の副作用である」ということを記憶する。そして、処理はステップS110に戻る。
In step S114, the side effect determination /
また、ステップS115で副作用判定・学習部108は、選択類薬IDを既知副作用候補リストに追加する。つまり、副作用判定・学習部108は、「選択副作用は、選択類薬において既知の副作用とある程度は類似しているので、もしかすると既知の副作用かもしれない」ということを記憶する。そして、処理はステップS110に戻る。
In step S115, the side effect determination /
以上のようにして、副作用判定・学習部108が、現在注目している選択副作用に関して、各類薬についてステップS111以降の処理を実行することで、現在注目している選択副作用に関する既知副作用学習リストと既知副作用候補リストが完成する。そして、既知副作用学習リストと既知副作用候補リストが完成すると、上記のとおり処理はステップS110からステップS116へと移行する。
As described above, the side effect determination /
ステップS116で副作用判定・学習部108は、選択副作用について結果を出力し、選択副作用が既知か否かを既知副作用学習リストにしたがって学習する。図5を再び参照してステップS116の動作について具体的に2つの例を挙げて説明すれば、次のとおりである。
In step S116, the side effect determination /
第1の例として、ステップS106で選択副作用として「頭痛」が選択された場合を説明する。また、上記のとおり、判定対象薬ID206は「998877F5050」であり、学習結果テーブル204は図4に示すとおりであるとする。
As a first example, a case where “headache” is selected as the selected side effect in step S106 will be described. Further, as described above, it is assumed that the determination
すると、選択類薬IDが「111222A3333」のとき、上記(a1)で説明した図4のエントリの副作用キーワード群の中に、選択副作用(すなわち「頭痛」)と一致するキーワードがある。よって、閾値α1が適切に定められていれば、「111222A3333」という選択類薬IDが既知副作用学習リストに追加される。 Then, when the selected drug ID is “111222A3333”, there is a keyword that matches the selected side effect (ie, “headache”) in the side effect keyword group of the entry of FIG. 4 described in (a1) above. Therefore, if the threshold value α 1 is if properly defined, selected such drugs ID of "111222A3333" is added to the known side effects learning list.
他方、上記(a3)と(a4)で説明した図4のエントリの副作用キーワード群の中には、「頭痛」と類似するキーワードがない。よって、閾値α1とα2が適切に定められていれば、選択類薬IDが「444555A7777」又は「777888C9090」のとき、選択類薬IDは既知副作用学習リストにも既知副作用候補リストにも追加されない。 On the other hand, there is no keyword similar to “headache” in the side effect keyword group of the entry of FIG. 4 described in (a3) and (a4) above. Therefore, if the thresholds α 1 and α 2 are appropriately determined, when the selected drug ID is “444555A7777” or “777888C9090”, the selected drug ID is added to both the known side effect learning list and the known side effect candidate list. Not.
よって、この第1の例においては、ステップS116で副作用判定・学習部108は、「頭痛」という選択副作用についての判定結果として、以下のように図5の判定結果一覧表402の2行目の出力を行う。
Therefore, in this first example, in step S116, the side effect determination /
すなわち、副作用判定・学習部108は、「副作用」の列に選択副作用を示す「頭痛」というキーワードを出力し、「学習結果による判定」の列に「未知」と出力する。そして、「111222A3333」というIDが既知副作用学習リストに含まれることから、副作用判定・学習部108は、「類薬との比較による判定」として、「111222A3333」というIDの列に「既知」と出力する。
That is, the side effect determination /
他方、「444555A7777」と「777888C9090」というIDは既知副作用学習リストにも既知副作用候補リストにも含まれない。よって、副作用判定・学習部108は、「類薬との比較による判定」として、これら2つのIDの列には「未知」と出力する。
On the other hand, the IDs “444555A7777” and “777888C9090” are not included in the known side effect learning list or the known side effect candidate list. Therefore, the side effect determination /
また、この第1の例では、既知副作用学習リストが空ではないので、選択副作用は既知の副作用として判定されたことになる。したがって、ユーザからの指示は不要である。そこで、副作用判定・学習部108は、判断不要を示す「−」を、「判断入力欄」列に出力する。
In the first example, since the known side effect learning list is not empty, the selected side effect is determined as a known side effect. Therefore, no instruction from the user is required. Therefore, the side effect determination /
続いて、図3のステップS116についての第2の例として、ステップS106で選択副作用として「脳出血」が選択された場合を説明する。なお、上記のとおり、判定対象薬ID206は「998877F5050」であり、学習結果テーブル204は図4に示すとおりであるとする。
Subsequently, a case where “cerebral hemorrhage” is selected as a selected side effect in step S106 will be described as a second example of step S116 in FIG. As described above, the determination
すると、選択類薬IDが「111222A3333」のとき、上記(a1)で説明した図4のエントリの副作用キーワード群の中に、「脳出血」と中程度に類似する(つまり「脳出血」と部分的に一致する)「肺出血」というキーワードが見つかる。また、選択類薬IDが「444555A7777」の場合も、同様に、選択類薬の副作用キーワード群の中に、「肺出血」というキーワードが見つかる。よって、閾値α1とα2が適切に定められていれば、「111222A3333」と「444555A7777」というIDが既知副作用候補リストに追加される。 Then, when the selected drug ID is “111222A3333”, the side effect keyword group of the entry of FIG. The keyword “pulmonary hemorrhage” is found. Similarly, when the selected analog ID is “444555A7777”, the keyword “pulmonary hemorrhage” is found in the side effect keyword group of the selected analog. Therefore, if the threshold values α 1 and α 2 are appropriately determined, IDs “111222A3333” and “444555A7777” are added to the known side effect candidate list.
他方、選択類薬IDが「777888C9090」のとき、選択類薬IDは既知副作用学習リストにも既知副作用候補リストにも追加されない。なぜなら、当該選択類薬に対応する図4のエントリ(つまり上記(a4)で説明したエントリ)の副作用キーワード群には、「脳出血」との類似度が閾値α2に満たないキーワードしか含まれていないためである。
On the other hand, when the selected drug ID is “777888C9090”, the selected drug ID is not added to the known side effect learning list or the known side effect candidate list. This is because the side effects
よって、この第2の例においては、図3のステップS116で副作用判定・学習部108は、「脳出血」という選択副作用についての判定結果として、以下のように図5の判定結果一覧表402の3行目の出力を行う。
Therefore, in this second example, in step S116 of FIG. 3, the side effect determination /
すなわち、副作用判定・学習部108は、「副作用」の列に選択副作用を示す「脳出血」というキーワードを出力し、「学習結果による判定」の列に「未知」と出力する。そして、「111222A3333」というIDが既知副作用候補リストに含まれることから、副作用判定・学習部108は、「類薬との比較による判定」として、「111222A3333」というIDの列に「既知候補」と出力する。同様に、副作用判定・学習部108は、「444555A7777」というIDの列にも「既知候補」と出力する。
That is, the side effect determination /
また、この第2の例では、既知副作用学習リストが空なので、副作用判定・学習部108は「選択副作用は既知の副作用である」と断定することができない。他方で、既知副作用候補リストが空ではないので、副作用判定・学習部108は「選択副作用は未知の副作用である」とも断定することができない。
In the second example, since the known side effect learning list is empty, the side effect determination /
そこで、副作用判定・学習部108は、選択副作用が既知の副作用か否かをユーザに判断させるために、現在注目している選択副作用の行において、「判断入力欄」列に、「既知」と「未知」の2択用のラジオボタン403を表示する。もちろん、実施形態によっては、ユーザからの入力を受け付けるためのユーザインタフェースとして、ラジオボタン以外のもの(例えばチェックボックスやプルダウンリストなど)が使われてもよい。
Therefore, the side effect determination /
以上、第1と第2の例を用いて説明したように、副作用判定・学習部108はステップS116において、各類薬について、当該類薬のIDが既知副作用学習リストに含まれていれば「既知」と出力し、既知副作用候補リストに含まれていれば「既知候補」と出力する。もし、当該類薬のIDが既知副作用学習リストにも既知副作用候補リストにも含まれていなければ、副作用判定・学習部108は「未知」と出力する。
As described above, as described with reference to the first and second examples, the side effect determination /
そして、副作用判定・学習部108は、既知副作用候補リストが空ではなく、かつ既知副作用学習リストが空のときに、「判断入力欄」列にラジオボタン403を表示する。それ以外の場合は、副作用判定・学習部108が「選択副作用は既知の副作用である」又は「選択副作用は未知の副作用である」と断定することができたということなので、副作用判定・学習部108はラジオボタン403を表示しない。
Then, when the known side effect candidate list is not empty and the known side effect learning list is empty, the side effect determination /
また、ステップS116で副作用判定・学習部108はさらに、選択副作用が既知か否かの判定結果を学習する。具体的には、副作用判定・学習部108は、既知副作用学習リストが空か否かを判定し、既知副作用学習リストが空でなければ、学習結果テーブル204において判定対象薬ID206をIDとして有するエントリの既知副作用リストに、選択副作用を追加する。なお、既知副作用学習リストが空の場合は、副作用判定・学習部108は学習結果テーブル204の既知副作用リストの更新を行わない。
In step S116, the side effect determination /
以上のようにしてステップS116において、判定結果一覧表402の選択副作用の行の出力と必要に応じた学習結果テーブル204の学習が行われると、処理はステップS105に戻る。
As described above, when the output of the selected side effect row in the
そして、ステップS105において、安全性情報報告文書205で報告された副作用についてすべて処理済みであると判断すると、続いて副作用判定・学習部108はステップS117の処理を実行する。すなわち、ステップS117で副作用判定・学習部108は、ユーザによる判断が必要か否かを判断する。
If it is determined in step S105 that all the side effects reported in the safety
例えば、副作用判定・学習部108は、ステップS116においてラジオボタン403を表示したことが1回でもあったか否かを記憶しておいてもよい。そして、ラジオボタン403を表示したことがあれば、副作用判定・学習部108は、「ユーザによる判断が必要である」とステップS117で判断してもよい。
For example, the side effect determination /
ユーザによる判断が不要の場合とは、すなわち、安全性情報報告文書205から抽出されたすべての副作用について、既知又は未知と副作用判定・学習部108が断定することができた場合である。この場合、図3の処理も終了する。他方、「ユーザによる判断が必要である」と副作用判定・学習部108が判断した場合は、処理はステップS118に移行する。
The case where determination by the user is unnecessary is a case where the side effect determination /
そして、ステップS118で副作用判定・学習部108は、既知副作用の候補に関するユーザからの入力を受け付け、入力内容を学習する。
In step S118, the side effect determination /
ここで図5を再び参照して具体的に説明すると、副作用判定・学習部108は、ステップS118において、学習ボタン404を副作用判定結果画面400に表示し、学習ボタン404が押下されるまで待機する。なお、図5の例では、学習ボタン404に「既知候補の副作用について入力内容を学習」と書かれている。そして、ステップS118で学習ボタン404が押下されると、副作用判定・学習部108は、ラジオボタン403を介してユーザから入力された内容を学習する。
Specifically, referring again to FIG. 5, the side effect determination /
上記のように、ラジオボタン403が表示される副作用は、副作用判定・学習部108が「既知の副作用と断定することはできないが、既知の副作用の可能性がある」と判断した副作用である。よって、ユーザが、当該副作用が既知か未知かを判断し、ラジオボタン403を介して判断の結果を入力し、学習ボタン404を押下して入力の確定を行うと、副作用判定・学習部108はステップS118で次のように動作する。
As described above, the side effect on which the
すなわち、副作用判定・学習部108は、ラジオボタン403を表示した各副作用について、当該副作用の行のラジオボタン403で「既知」と指示された場合、当該副作用を学習結果テーブル204に登録する。つまり、副作用判定・学習部108は、学習結果テーブル204においてIDが判定対象薬ID206と一致するエントリの既知副作用リストに、ラジオボタン403で「既知」と指示された当該副作用を追加する。なお、ラジオボタン403で「未知」と指示された場合は、副作用判定・学習部108は当該副作用については特に何もしない。
That is, for each side effect for which the
例えば、図5の例の場合、安全性情報報告文書205から抽出された「脳出血」というキーワードに関して、ラジオボタン403が表示されている。ここで、仮に、ラジオボタン403で「既知」と指示されて学習ボタン404が押下されたとする。すると、副作用判定・学習部108は、図4の学習結果テーブル204においてIDが「998877F5050」であるエントリの既知副作用リストに「脳出血」というキーワードを追加する。逆に、ラジオボタン403で「未知」と指示されて学習ボタン404が押下されたとすると、副作用判定・学習部108は、図4の学習結果テーブル204においてIDが「998877F5050」であるエントリの既知副作用リストの更新を行わない。
For example, in the case of the example in FIG. 5, a
以上のようにしてステップS118が終了すると、図3の処理も終了する。
続いて、図3のステップS112で実行される副作用類似度算出処理の詳細について、図6〜10を参照して説明する。
When step S118 ends as described above, the processing in FIG. 3 also ends.
Next, details of the side effect similarity calculation process executed in step S112 of FIG. 3 will be described with reference to FIGS.
図6は、副作用類似度算出処理のフローチャートである。図3のステップS112に関して述べたように、副作用類似度算出処理は、ある選択副作用と選択類薬IDの組み合わせに対して類似度を求める処理である。 FIG. 6 is a flowchart of the side effect similarity calculation process. As described with reference to step S112 in FIG. 3, the side effect similarity calculation process is a process for obtaining a similarity for a combination of a certain selected side effect and a selected drug ID.
ステップS201で副作用判定・学習部108は、3つの変数P1、P2、P3を初期化してNULLとする。3つの変数P1、P2、P3は、選択類薬の副作用キーワード群の中で選択副作用との類似度が一定の基準を満たすキーワードのうちで上位3位に入るものの類似度の点数を記憶するための変数である。
In step S201, the side effect determination /
なお、実施形態によっては、点数としては使われない特定の値(例えば−1など)を、変数P1、P2、P3の初期値として用いることもできる。また、3つの変数P1、P2、P3はそれぞれ1位、2位、3位の点数に対応する。 In some embodiments, a specific value that is not used as a score (for example, −1) can be used as an initial value of the variables P 1 , P 2 , and P 3 . The three variables P 1 , P 2 , and P 3 correspond to the first, second, and third rank points, respectively.
そして、次のステップS202で副作用判定・学習部108は、選択類薬の副作用キーワード群を取得する。すなわち、副作用判定・学習部108は、学習結果テーブル204においてIDが選択類薬IDと一致するエントリを検索し、見つかったエントリの副作用キーワード群を取得する。そして、処理はステップS203に移行する。
Then, in the next step S202, the side effect determination /
ステップS203で副作用判定・学習部108は、ステップS202で取得した副作用キーワード群の中で、ステップS204以降の処理を行っていない未処理のものが残っているか否かを判断する。未処理のキーワードが残っていれば、処理はステップS204に移行し、すべてのキーワードが処理済みならば、処理はステップS210に移行する。
In step S203, the side effect determination /
ステップS204で副作用判定・学習部108は、ステップS202で取得した副作用キーワード群の中で、ステップS204以降の処理を行っていない未処理のキーワードのうちの任意の1つを選択する。以下、ステップS204で選択されたキーワードを「選択キーワード」という。
In step S204, the side effect determination /
そして、次のステップS205で副作用判定・学習部108は、選択副作用と選択キーワードの類似度をキーワード類似度評価部109に評価させ、評価結果の点数を得る。ステップS205の詳細は「点数計算処理」として図7〜9とともに後述する。
In the next step S205, the side effect determination /
続いて、ステップS206で副作用判定・学習部108は、ステップS205で得た点数が、「選択副作用と選択キーワードは一致する」と見なしてよいことを示す所定の基準を満たすか否かを判断する。なお、当該基準については、点数計算処理の詳細とあわせて、図8を参照して後述する。
Subsequently, in step S206, the side effect determination /
ステップS205で得た点数が基準を満たすとき、処理はステップS207に移行する。他方、ステップS205で得た点数が基準を満たさないとき、処理はステップS203に戻る。 When the score obtained in step S205 satisfies the criterion, the process proceeds to step S207. On the other hand, when the score obtained in step S205 does not satisfy the criterion, the process returns to step S203.
ステップS207が実行されるのは、上記のように、選択副作用と選択キーワードが一致すると見なしてよい場合である。そこで、ステップS207で副作用判定・学習部108は、選択副作用と選択キーワードを同義語として学習する。すなわち、副作用判定・学習部108は、選択副作用と選択キーワードを対にしたエントリを同義語辞書203に追加する。
Step S207 is executed when the selected side effect and the selected keyword may be considered to match as described above. In step S207, the side effect determination /
そして、次のステップS208で副作用判定・学習部108は、ステップS205で得た点数が、選択副作用と一致すると見なせるキーワードに関して今までに得られた点数の中で上位3位以内に入る点数か否かを判断する。
Then, in the next step S208, the side effect determination /
具体的には、副作用判定・学習部108は、変数P1〜P3のうち1つでも初期状態のNULLのままのものがあれば、「ステップS205で得た点数は上位3位以内」と判断する。また、変数P1〜P3にすべて具体的な値が設定済みの場合、副作用判定・学習部108は、変数P3の値(つまり3位の点数)よりステップS205で得た点数が大きければ、「ステップS205で得た点数は上位3位以内」と判断する。
Specifically, if any one of the variables P 1 to P 3 remains NULL in the initial state, the side effect determination /
逆に、変数P1〜P3にすべて具体的な値が設定済みで、かつステップS205で得た点数が変数P3の値以下であれば、副作用判定・学習部108は、「ステップS205で得た点数は上位3位以内ではない」と判断する。
Conversely, if specific values have already been set for the variables P 1 to P 3 and the score obtained in step S205 is equal to or smaller than the value of the variable P 3 , the side effect determination /
そして、副作用判定・学習部108が「ステップS205で得た点数は上位3位以内」と判断した場合、処理はステップS209に移行する。それ以外の場合、処理はステップS203に戻る。
If the side effect determination /
ステップS209で副作用判定・学習部108は、ステップS205で得た点数に応じて、適宜変数P1〜P3を更新する。
具体的には、変数P1がNULLの場合、副作用判定・学習部108は、ステップS205で得た点数を変数P1に代入する。また、変数P1がNULLではなく、変数P2がNULLの場合、副作用判定・学習部108は、ステップS205で得た点数を変数P2に代入する。そして、変数P1とP2がNULLではなく、変数P3がNULLの場合、副作用判定・学習部108は、ステップS205で得た点数を変数P3に代入する。
In step S209, the side effect determination /
Specifically, when the variable P 1 is NULL, the side effect determination /
他方、変数P1〜P3のすべてに具体的な値が設定されている場合、副作用判定・学習部108は次のように変数の更新を行う。
すなわち、ステップS205で得た点数が変数P1の値より大きい場合、副作用判定・学習部108は、変数P3に現在の変数P2の値を代入し、変数P2に現在の変数P1の値を代入し、変数P1にステップS205で得た点数を代入する。あるいは、ステップS205で得た点数が変数P1の値以下で、かつ変数P2の値より大きい場合、副作用判定・学習部108は、変数P3に現在の変数P2の値を代入し、変数P2にステップS205で得た点数を代入する。あるいは、ステップS205で得た点数が変数P2の値以下で、かつ変数P3の値より大きい場合、副作用判定・学習部108は、変数P3にステップS205で得た点数を代入する。
On the other hand, when specific values are set for all of the variables P 1 to P 3 , the side effect determination /
That is, if the number obtained in step S205 is greater than the value of the variable P 1, side effects judgment and
以上のようにして変数P1〜P3の更新が終了すると、処理はステップS203に戻る。
また、ステップS210で副作用判定・学習部108は、変数P1とP2とP3を引数として用いて、図10とともに後述する点数正規化処理を行い、正規化した点数を算出する。そして、ステップS211で副作用判定・学習部108は、正規化した点数を図6の処理の戻り値として返し、図6の処理は終了する。つまり、図6の処理に相当する図3のステップS112において、副作用判定・学習部108は、上記の正規化した点数を類似度として取得する。
When the updating of the variables P 1 to P 3 is completed as described above, the process returns to step S203.
Furthermore, side effects judgment and
図7は、点数計算処理のフローチャートである。図6のステップS205に関して述べたように、点数計算処理はキーワード類似度評価部109が2つのキーワードの類似度を示す点数を計算する処理である。以下、図7の説明においては、キーワード類似度評価部109に指定される2つのキーワードを「キーワードA」及び「キーワードB」という。
FIG. 7 is a flowchart of the score calculation process. As described with reference to step S205 in FIG. 6, the score calculation process is a process in which the keyword
ステップS301でキーワード類似度評価部109は、キーワードAとBの類似度を示す変数maxに0という初期値を代入する。
続くステップS302でキーワード類似度評価部109は、キーワードAを1つ以上の部分文字列に分割する分割パターンについて、何番目の分割パターンかを数えるための変数aを1に初期化する。例えば、キーワードAが「脳出血」であるとし、分割箇所を「/」で示すことにすると、「脳出血」、「脳/出血」、「脳出/血」、「脳/出/血」という4通りの分割パターンが可能であり、変数aは1から4まで順に数えるための変数である。
In step S301, the keyword
In subsequent step S302, the keyword
そして、次のステップS303でキーワード類似度評価部109は、キーワードAのa番目の分割パターンQaを生成する。
続いて、ステップS304でキーワード類似度評価部109は、キーワードBを1つ以上の部分文字列に分割する分割パターンについて、何番目の分割パターンかを数えるための変数bを1に初期化する。
Then, the keyword similarity
Subsequently, in step S304, the keyword
そして、次のステップS305でキーワード類似度評価部109は、キーワードBのb番目の分割パターンQbを生成する。
また、次のステップS306でキーワード類似度評価部109は、分割パターンQaとQbを用いたときのキーワードAとBの類似度を示す変数scoreを0に初期化する。
Then, the keyword similarity
Also, the keyword similarity
さらに、次のステップS307でキーワード類似度評価部109は、分割パターンQa内で注目する部分文字列が何番目のものかを数えるための変数jを1に初期化する。
そして、ステップS308でキーワード類似度評価部109内の部分文字列類似度評価部110は、分割パターンQa内のj番目の部分文字列を取得し、変数substrに代入する。例えば、分割パターンQaが「脳/出血」の場合、分割パターンQaにおける1番目の部分文字列は「脳」であり、2番目の部分文字列は「出血」である。よって、例えばj=1の場合は、変数substrは「脳」という部分文字列を示す。
Further, the keyword similarity
The partial string
続いて、ステップS309で部分文字列類似度評価部110は、分割パターンQbの中に、部分文字列substrと完全一致するか同義語として一致する部分文字列があるか否かを判断する。
Subsequently, the partial character string
すなわち、部分文字列類似度評価部110は、分割パターンQbの中に、部分文字列substrと完全一致する部分文字列があるか否かを調べる。そして、もし部分文字列substrと完全一致する部分文字列が見つかれば、処理はステップS310に移行する。
That is, the partial character string
また、分割パターンQbの中に、部分文字列substrと完全一致する部分文字列がなかった場合、部分文字列類似度評価部110は、同義語辞書203を参照し、部分文字列substrの同義語が登録されているか否かを調べる。そして、もし、部分文字列substrの同義語が登録されていれば、部分文字列類似度評価部110は、分割パターンQbの中に、部分文字列substrの同義語と完全一致する部分文字列があるか否かを調べる。その結果、もし分割パターンQbの中に、部分文字列substrの同義語と完全一致する部分文字列が見つかれば、処理はステップS310に移行する。
Also, in division pattern Q b, if there is no substring substr exactly match subexpression, substring
他方、部分文字列substrの同義語が同義語辞書203に登録されていない場合、処理はステップS311に移行する。また、部分文字列substrの同義語が同義語辞書203に登録されているが、当該同義語と完全一致する部分文字列が分割パターンQbの中には見つからなかった場合にも、処理はステップS311に移行する。
On the other hand, when the synonym of the partial character string substr is not registered in the
ステップS310で部分文字列類似度評価部110は、部分文字列substrの長さ(以下、|substr|と表記する)に応じた配点f(|substr|)を求める。すなわち、部分文字列類似度評価部110は、部分文字列substrの一致に対して、配点f(|substr|)という評価を与える。
In step S310, the partial character string
そして、キーワード類似度評価部109は、変数scoreに、部分文字列類似度評価部110が求めた配点f(|substr|)を足す。つまり、キーワード類似度評価部109は、部分文字列類似度評価部110による評価を集計する。
Then, the keyword
なお、本実施形態では、部分文字列の長さがバイト数で数えられるが、実施形態によっては、部分文字列の長さは文字数で数えられてもよい。
ここで、ステップS310における配点について説明するために図8を参照する。図8は、判定装置100において処理に利用される定数値を説明する図である。
In this embodiment, the length of the partial character string is counted by the number of bytes. However, depending on the embodiment, the length of the partial character string may be counted by the number of characters.
Here, FIG. 8 will be referred to in order to explain the points allocated in step S310. FIG. 8 is a diagram for explaining constant values used for processing in the
説明の便宜上、図8には配点情報501と基準値情報502をテーブル形式で例示しているが、配点情報501と基準値情報502は、CPU301が実行するプログラムにおいて定数として定義されていてもよい。あるいは、配点情報501と基準値情報502は、記憶装置307上のファイルにより定義され、CPU301に読み出されてもよい。
For convenience of explanation, the scoring
図8の配点情報501によれば、1〜10バイトの長さに対して、それぞれ、1点、2点、3点、4点、5点、7点、8点、10点、11点、12点という配点が定義されている。11バイト以上の長さに対する配点は、図8では省略されている。
According to the scoring
ここで、上記のように、文字列sの長さを|s|と表記し、配点情報501において長さ|s|に割り当てられている点数をf(|s|)と表記することにする。この表記を用いて説明すると、本実施形態の配点情報501は、任意の文字列s1とs2に対して以下の式(1)を満たすように定義されている。
f(|s1|)+f(|s2|)≦f(|s1|+|s2|) (1)
Here, as described above, the length of the character string s is expressed as | s |, and the number of points assigned to the length | s | in the scoring
f (| s 1 |) + f (| s 2 |) ≦ f (| s 1 | + | s 2 |) (1)
例えば、配点情報501によれば、1バイトと7バイトの文字列の配点はそれぞれ1点と8点であり、8(=1+7)バイトの文字列の配点は10点である。そして、10点は1点と8点の和以上である。よって、|s1|=1で|s2|=7の場合、式(1)が満たされている。他の場合も、図8の配点情報501によれば、式(1)が満たされている。
For example, according to the scoring
式(1)を満たす配点情報501によれば、部分文字列類似度評価部110は、次のように部分文字列を評価することになる。つまり、部分文字列類似度評価部110は、第1と第2の長さを足した第3の長さの部分文字列同士が一致する場合には、第1の長さの部分文字列同士が一致する場合の評価と第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与える。
According to the scoring
なお、式(1)の意義と、図8の基準値情報502については、図7の点数計算処理について説明し終わってから改めて説明することにし、ここでは図7の説明に戻る。
ステップS311でキーワード類似度評価部109は、分割パターンQaの末尾まで調べ終わったか否かを判断する。つまり、キーワード類似度評価部109は、分割パターンQa内の最後の部分文字列についてステップS309の判定をし終えたか否かを判断する。
Note that the significance of equation (1) and the
Keyword
そして、まだ分割パターンQaの末尾まで調べ終わっていなければ、処理はステップS312に移行する。他方、分割パターンQaの末尾まで調べ終わっていれば、処理はステップS313に移行する。 And, if not finished examining still until the end of the division pattern Q a, the process proceeds to step S312. On the other hand, if finished it examined until the end of the divided pattern Q a, the process proceeds to step S313.
ステップS312でキーワード類似度評価部109は、分割パターンQa内で次の部分文字列に注目するため、変数jの値を1増やす。そして、処理はステップS308に戻る。
Step keyword
また、ステップS313でキーワード類似度評価部109は、変数scoreの値が変数maxの値を超えているか否かを判断する。
変数scoreの値が変数maxの値を超えている場合、現在の分割パターンQaとQbの組み合わせにしたがって計算した類似度は、今までのどの分割パターンの組み合わせにしたがって計算した類似度よりも高い。よって、この場合、現在の分割パターンQaとQbの組み合わせから得られた最高の類似度を記憶するため、処理はステップS314に移行する。他方、変数scoreの値が変数maxの値以下であれば、処理はステップS315に移行する。
In step S313, the keyword
If the value of the variable score is greater than the value of the variable max, the degree of similarity calculated according to the combination of the current division pattern Q a and Q b, than the similarity calculated in accordance with a combination of any division pattern ever high. Therefore, in this case, to store the highest similarity obtained from the combination of the current division pattern Q a and Q b, the process proceeds to step S314. On the other hand, if the value of the variable score is less than or equal to the value of the variable max, the process proceeds to step S315.
ステップS314でキーワード類似度評価部109は、変数maxに変数scoreの値を代入する。そして、処理はステップS315に移行する。
ステップS315でキーワード類似度評価部109は、変数bの値を1増やす。そして、処理はステップS316に移行する。
In step S314, the keyword
In step S315, the keyword
ステップS316でキーワード類似度評価部109は、キーワードAについて現在注目している分割パターンQaに対して、キーワードBのすべての分割パターンによる類似度の計算を終えたか否かを判断する。具体的には、ある文字列sの文字数をc(s)と表記することにすると、キーワードBの分割パターンは、2c(B)−1通りあるので、キーワード類似度評価部109は、変数bの値が2c(B)−1を超えたか否かを判断する。
In step S < b > 316, the keyword
もし、変数bの値が2c(B)−1を超えていれば、キーワードAについての次の分割パターンを検討するため、処理はステップS317に移行する。逆に、変数bの値が2c(B)−1以下であれば、キーワードAについて現在注目している分割パターンQaに対して、キーワードBの次の分割パターンによる類似度の計算を行うため、処理はステップS305に戻る。 If the value of the variable b exceeds 2c (B) -1 , the process proceeds to step S317 in order to examine the next division pattern for the keyword A. On the other hand, if the value of the variable b is 2 c (B) -1 or less, the degree of similarity is calculated for the divided pattern Q a currently focused on the keyword A by the next divided pattern of the keyword B. Therefore, the process returns to step S305.
ステップS317でキーワード類似度評価部109は、変数aの値を1増やす。そして、処理はステップS318に移行する。
ステップS318でキーワード類似度評価部109は、キーワードAのすべての分割パターンによる類似度の計算を終えたか否かを判断する。具体的には、キーワードAの分割パターンは、2c(A)−1通りあるので、キーワード類似度評価部109は、変数aの値が2c(A)−1を超えたか否かを判断する。
In step S317, the keyword
In step S <b> 318, the keyword
もし、変数aの値が2c(A)−1を超えていれば、処理はステップS319に移行する。逆に、変数aの値が2c(A)−1以下であれば、キーワードAの次の分割パターンによる類似度の計算を行うため、処理はステップS303に戻る。 If the value of the variable a exceeds 2c (A) -1 , the process proceeds to step S319. On the other hand, if the value of the variable a is 2 c (A) −1 or less, the process returns to step S303 in order to calculate the similarity according to the next division pattern of the keyword A.
ステップS319でキーワード類似度評価部109は、変数maxの値を、キーワードAとBの類似度を示す点数として返す。
なお、図7に関する上記の説明においては、キーワードAに関して2c(A)−1通りある分割パターンのうちどれを何番目と数えるかについては限定していない。すなわち、キーワード類似度評価部109は2c(A)−1通りの分割パターンを任意の順序にしたがって順序づけることができる。キーワードBに関する2c(B)−1通りの分割パターンについても同様に、キーワード類似度評価部109は任意の順序にしたがって順序づけることができる。
In step S319, the keyword
In the above description regarding FIG. 7, it is not limited which number of 2c (A) −1 divided patterns for keyword A is counted. That is, the keyword
以上のようにして図7の点数計算処理においてキーワードAとBから計算される点数は、キーワードAとBの分割パターンの任意の組み合わせから得られる点数のうちで最高のものである。そして、図7の処理により得られる点数は、上記式(1)を満たすように配点情報501で定義された配点の累積加算により得られる。
As described above, the score calculated from the keywords A and B in the score calculation process of FIG. 7 is the highest score obtained from an arbitrary combination of the divided patterns of the keywords A and B. And the score obtained by the process of FIG. 7 is obtained by the cumulative addition of the score defined by the
以上から、「キーワード類似度評価部109による評価は、キーワードAとBが完全に一致しなくても、短い部分文字列で一致しているものがあれば、それなりの点数を与えるものである」と言うことができる。同時に、キーワード類似度評価部109による評価は、キーワードAとBの間で一致する部分文字列が長いほど高く評価するものでもある。
From the above, “the evaluation by the keyword
そこで、キーワード類似度評価部109による評価についてより詳しく説明するために、再度上記の式(1)を取り上げる。
式(1)の左辺は、ある部分文字列s1が2つのキーワード間で一致し、かつある部分文字列s2も2つのキーワード間で一致する場合に、部分文字列s1とs2それぞれの一致に起因して加算される点数を示す。また、式(1)の右辺は、部分文字列s1とs2を連結した文字列(便宜上「s1・s2」と表記する)が2つのキーワード間で一致する場合に、文字列(s1・s2)の一致に起因して加算される点数を示す。したがって、式(1)は、部分文字列s1とs2が離れていてそれぞれキーワード間で一致する場合の点数以上の点数を、部分文字列s1とs2を連結した文字列(s1・s2)全体がキーワード間で一致する場合に付与することを示している。
Therefore, in order to explain the evaluation by the keyword
The left side of the expression (1) indicates that when a partial character string s 1 matches between two keywords, and a partial character string s 2 also matches between two keywords, the partial character strings s 1 and s 2 respectively Indicates the number of points added due to the match. Further, the right side of the expression (1) is a character string (when the character string obtained by concatenating the partial character strings s 1 and s 2 (referred to as “s 1 · s 2 ” for convenience) matches between two keywords ( The number of points added due to the coincidence of s 1 · s 2 is shown. Thus, equation (1), the partial strings s 1 and s 2 is the score or scores in the case of matching between each away keyword substrings s 1 and s 2 the connecting string (s 1 S 2 ) Indicates that the keyword is assigned when the entire keyword matches.
また、以下の式(2)が成立する場合、式(1)より式(3)が成立するので、式(3)の両辺にf(|s1|)を足して式(4)が得られる。そして、式(4)の右辺は式(1)よりf(|s1|+|s2|)以下なので、式(2)から式(5)が得られる。
|s2|=|s3|+|s4| (2)
f(|s3|)+f(|s4|)≦f(|s2|) (3)
f(|s1|)+f(|s3|)+f(|s4|)
≦f(|s1|)+f(|s2|) (4)
f(|s1|)+f(|s3|)+f(|s4|)
≦f(|s1|+|s3|+|s4|) (5)
式(5)は、3つの離れた箇所で部分文字列s1とs3とs4がそれぞれキーワード間で一致する場合の点数以上の点数を、部分文字列s1とs3とs4が連続した文字列(s1・s3・s4)全体がキーワード間で一致する場合に付与することを示している。
Further, when the following expression (2) is satisfied, expression (3) is satisfied from expression (1). Therefore, f (| s 1 |) is added to both sides of expression (3) to obtain expression (4). It is done. Since the right side of Expression (4) is less than f (| s 1 | + | s 2 |) from Expression (1), Expression (5) is obtained from Expression (2).
| S 2 | = | s 3 | + | s 4 | (2)
f (| s 3 |) + f (| s 4 |) ≦ f (| s 2 |) (3)
f (| s 1 |) + f (| s 3 |) + f (| s 4 |)
≦ f (| s 1 |) + f (| s 2 |) (4)
f (| s 1 |) + f (| s 3 |) + f (| s 4 |)
≦ f (| s 1 | + | s 3 | + | s 4 |) (5)
The expression (5) indicates that the partial character strings s 1 , s 3, and s 4 are score points equal to or higher than the points when the partial character strings s 1 , s 3, and s 4 match between the keywords at three separate locations. This indicates that the entire continuous character string (s 1 s 3 s 4 ) is assigned when the keywords match.
同様に式を導出することで、2以上の任意のRに関して次のことが成り立つ。すなわち、配点情報501によれば、離れたR箇所でR個の部分文字列がそれぞれキーワード間で一致する場合の点数以上の点数が、R個の部分文字列を連結した文字列全体がキーワード間で一致する場合に付与される。
Similarly, by deriving the equation, the following holds for any two or more Rs. That is, according to the scoring
したがって、式(1)を満たすように定義された配点情報501によれば、あるキーワードAとBの組み合わせに対して図7の点数計算処理により得られる可能性のある最高の点数は、次の(b1)〜(b3)のいずれかである。
(b1)キーワードAとBの長さが等しい場合、配点情報501において長さ|A|(すなわち長さ|B|)に対応づけられている配点。
(b2)キーワードAの方がキーワードBより短い場合、配点情報501において長さ|A|に対応づけられている配点。
(b3)キーワードBの方がキーワードAより短い場合、配点情報501において長さ|B|に対応づけられている配点。
Therefore, according to the scoring
(B1) When the lengths of the keywords A and B are the same, the score assigned to the length | A | (that is, the length | B |) in the
(B2) When the keyword A is shorter than the keyword B, the score assigned to the length | A | in the
(B3) When the keyword B is shorter than the keyword A, the score associated with the length | B | in the
そこで、あるキーワードAとBに対して図7の点数計算処理によって計算された点数が、「キーワードAとBが一致する」と見なしてよい基準を満たすか否かは、キーワードA、B又はその双方の長さに応じて判断することが妥当である。そこで、図8に示すように、本実施形態の判定装置100では、長さ(本実施形態ではバイト数)に応じて取りうる最高点数に1未満の定数βを乗じた値を、当該長さに対応する基準値として定義する基準値情報502が使われる。
Therefore, whether or not the score calculated by the score calculation process of FIG. 7 for a certain keyword A and B satisfies a criterion that can be regarded as “keywords A and B match” is keyword A, B or its It is reasonable to judge according to both lengths. Therefore, as shown in FIG. 8, in the
具体的には、図6のステップS206では、選択副作用と選択キーワードが一致すると見なしてよい基準として、基準値情報502において選択副作用の長さに対応づけられている基準値が使われる。つまり、ステップS206で副作用判定・学習部108は、ステップS205でキーワード類似度評価部109により計算された点数が、基準値情報502において選択副作用の長さに対応づけられている基準値以上か否かを判断する。そして、上記点数が上記基準値以上であれば、副作用判定・学習部108は基準が満たされていると判断し、処理はステップS207へ移行する。
Specifically, in step S206 of FIG. 6, a reference value associated with the length of the selected side effect in the
なお、図6のステップS206において、選択キーワードが選択副作用より短い場合、ステップS205で計算される点数は、図8の基準値情報502において選択副作用の長さに対応づけられている「取りうる最高点数」に満たないことは明らかである。しかし、図6の処理では、選択キーワードが選択副作用より短くても、上記のとおりステップS206では基準値情報502において選択副作用の長さに対応づけられている基準値が使われる。なぜなら、図6の処理では選択副作用の側に視点があり、図6の処理は、選択副作用と類似度の高い副作用が選択類薬の副作用キーワード群の中にあるか否かを判別することを目的としているからである。
When the selected keyword is shorter than the selected side effect in step S206 in FIG. 6, the score calculated in step S205 is “the highest possible value” associated with the length of the selected side effect in the
なお、図8の配点情報501と基準値情報502は、類薬処理部103によっても利用されるが、類薬処理部103による利用については図11〜14とともに後述する。
また、式(1)を満たす配点は、人間の知見に基づいて選ばれて設定されたものでもよい。例えば、本実施形態では、「長さ1〜5バイトに対しては、長さに重み1を乗じた値を配点とし、長さ6〜10バイトに対しては、長さに重み1.2を乗じて小数点以下を切り捨てた値を配点とする」という方針にしたがって配点情報501が設定されている。
Note that the scoring
Further, the score satisfying the formula (1) may be selected and set based on human knowledge. For example, in the present embodiment, “for lengths of 1 to 5 bytes, a value obtained by multiplying the length by
あるいは、適宜の正の定数Cを用いて、任意の長さ|s|に対して、例えば式(6)のように配点f(|s|)を定義することで、式(1)を成立させることもできる。
f(|s|)=C|s|2 (6)
式(6)は、単位長さあたりの配点を文字列長|s|に比例する値(すなわちC|s|)とすることで、長さ|s|の文字列同士の一致にはC|s|2点を与えることを示している。なお、式(6)の例に限らず、一般に、単位長さあたりの配点が文字列長に対して単調増加するように定義された配点は、式(1)を満たす。
Alternatively, using an appropriate positive constant C, for example, by defining a score f (| s |) as shown in Equation (6) for an arbitrary length | s |, Equation (1) is satisfied. It can also be made.
f (| s |) = C | s | 2 (6)
The expression (6) is obtained by setting the score per unit length to a value proportional to the character string length | s | (that is, C | s |). s | 2 points are given. Note that, not limited to the example of Expression (6), generally, a score defined such that the score per unit length monotonously increases with respect to the character string length satisfies Expression (1).
続いて、上記の図7と8を参照して説明した点数計算処理についての理解を助けるため、図9を参照して具体例を挙げる。
図9は、点数計算処理の具体例を模式的に説明する図である。図7におけるキーワードAが図9では「全身麻酔剤」というキーワード601に相当し、図7におけるキーワードBが図9では「全身吸入麻酔剤」というキーワード602に相当する。
Next, a specific example will be given with reference to FIG. 9 in order to facilitate understanding of the score calculation processing described with reference to FIGS.
FIG. 9 is a diagram schematically illustrating a specific example of the score calculation process. The keyword A in FIG. 7 corresponds to the
キーワード601は5文字なので、キーワード601の分割パターンは、16(=25−1)通りある。図9には例として、「全身/麻酔/剤」という分割パターン603aと、「全身麻酔剤」という分割パターン603bと、「全身麻酔/剤」という分割パターン603cが図示してある。そして、他の13通りの分割パターンについては図9では省略されている。
Since the
また、キーワード602は7文字なので、キーワード602の分割パターンは64(=27−1)通りある。図9には例として、「全身/吸入/麻酔/剤」という分割パターン604aと、「全身吸入/麻酔/剤」という分割パターン604bと、「全身/吸入麻酔/剤」という分割パターン604cが図示してある。そして、他の61通りの分割パターンについては図9では省略されている。
Since the
また、図9では、各分割パターンにおける各部分文字列を示す矩形の下に、図8の配点情報501において当該部分文字列の長さに対応づけられている配点を記して、説明の便宜を図ってある。
Further, in FIG. 9, below the rectangle indicating each partial character string in each divided pattern, the score corresponding to the length of the partial character string in the
図8の点数計算処理によれば、キーワード601の16通りの分割パターンと、キーワード602の64通りの分割パターンのすべての組み合わせについて、点数の計算が行われ、最高の点数がキーワード601と602の類似度を示す点数として得られる。
According to the score calculation process of FIG. 8, the score is calculated for all combinations of the 16 division patterns of the
例えば、分割パターン603aと604aの組み合わせに関しては、図7において、次のようにして点数が計算される。
すなわち、j=1のときのステップS309では、分割パターン603a内の1番目の部分文字列「全身」に一致する部分文字列が分割パターン604a内に見つかる。そこで、ステップS310では、図8の配点情報501において「全身」の長さ(つまり4バイト)に対応する点数4点が加算される。
For example, regarding the combination of the
That is, in step S309 when j = 1, a partial character string that matches the first partial character string “whole body” in the divided
また、j=2のときのステップS309では、分割パターン603a内の2番目の部分文字列「麻酔」に一致する部分文字列が分割パターン604a内に見つかる。そこで、ステップS310では、「麻酔」の長さ(つまり4バイト)に対応する点数4点が加算される。
In step S309 when j = 2, a partial character string that matches the second partial character string “anesthetic” in the divided
そして、j=3のときのステップS309では、分割パターン603a内の3番目の部分文字列「剤」に一致する部分文字列が分割パターン604a内に見つかる。そこで、ステップS310では、「剤」の長さ(つまり2バイト)に対応する2点が加算される。
In step S309 when j = 3, a partial character string that matches the third partial character string “agent” in the divided
その結果、分割パターン603aと604aの組み合わせに対して得られる点数(すなわちステップS313の実行時における変数scoreの値)は、10(=4+4+2)点である。
As a result, the number of points obtained for the combination of the divided
同様にして、分割パターン603aと604bの組み合わせに対して得られる点数は、部分文字列「麻酔」と「剤」それぞれの一致に起因して加算された合計6(=4+2)点である。また、分割パターン603aと604cの組み合わせに対して得られる点数は、部分文字列「全身」と「剤」それぞれの一致に起因して加算された合計6(=4+2)点である。
Similarly, the number of points obtained for the combination of the
なお、図9のキーワード601と602の例の場合、図示を省略した「全身/麻酔剤」という分割パターンと、「全身/吸入/麻酔剤」という分割パターンの組み合わせから得られる11(=4+7)点という点数が最高点である。よって、キーワード601と602に対してキーワード類似度評価部109が図7の点数計算処理の結果として返す点数は11点である。
In the case of the
以上、図7〜9を参照して、図6のステップS205における点数計算処理について詳しく説明した。続いて、図6のステップS210における点数正規化処理の詳細を説明する。 The score calculation process in step S205 of FIG. 6 has been described in detail above with reference to FIGS. Next, details of the point normalization process in step S210 of FIG. 6 will be described.
図10は、点数正規化処理のフローチャートである。
ステップS401で副作用判定・学習部108は、第1引数としてP1の具体的な値が与えられているか、それとも第1引数がNULLであるかを判断する。第1引数がNULLであれば、処理はステップS402に移行する。他方、第1引数としてP1の具体的な値が与えられていれば、処理はステップS403に移行する。
FIG. 10 is a flowchart of the score normalization process.
Side effects judgment and
ステップS402で副作用判定・学習部108は、0を返す。そして点数正規化処理は終了する。なお、ステップS402は、具体的に値が与えられた引数が1つもない場合のステップである。
In step S402, the side effect determination /
例えば、図6の処理において、どの選択キーワードもステップS206で一致の基準を満たさないと判断された場合は、図10のステップS402が実行されることになる。よって、正規化された点数は0点である。 For example, in the process of FIG. 6, if it is determined in step S206 that no selected keyword satisfies the matching criteria, step S402 of FIG. 10 is executed. Therefore, the normalized score is 0 points.
ステップS403で副作用判定・学習部108は、第2引数としてP2の具体的な値が与えられているか、それとも第2引数がNULLであるかを判断する。第2引数がNULLであれば、処理はステップS404に移行する。他方、第2引数としてP2の具体的な値が与えられていれば、処理はステップS405に移行する。
Side effects judgment and
ステップS404は、具体的に1つだけ引数として値が与えられた場合のためのステップである。この場合、副作用判定・学習部108は、当該1つの値(すなわちP1の値)自体を、正規化された値として返す。そして点数正規化処理は終了する。
Step S404 is a step for a case where a value is given as one argument. In this case, side effects judgment and
例えば、図6の処理において、ある1つの選択キーワードのみがステップS206で一致の基準を満たすと判断された場合は、図10のステップS404が実行されることになる。よって、正規化された点数は、当該1つの選択キーワードに関して得られた点数そのものである。 For example, in the process of FIG. 6, if it is determined that only one selected keyword satisfies the matching criterion in step S206, step S404 of FIG. 10 is executed. Therefore, the normalized score is the score itself obtained for the one selected keyword.
また、ステップS405で副作用判定・学習部108は、第3引数としてP3の具体的な値が与えられているか、それとも第3引数がNULLであるかを判断する。第3引数がNULLであれば、処理はステップS406に移行する。他方、第3引数としてP3の具体的な値が与えられていれば、処理はステップS407に移行する。
Furthermore, side effects judgment and
ステップS406は、具体的に2つだけ引数として値が与えられた場合のためのステップである。この場合、副作用判定・学習部108は、当該2つの値(すなわちP1とP2の値)を正規化した値を下記の式(7)にしたがって算出し、算出した値を返す。そして点数正規化処理は終了する。なお、式(7)及び後述の式(8)の左辺のPRは、正規化された点数を示す。
他方、ステップS407は、3つの引数すべてに対して具体的に値が指定された場合のためのステップである。この場合、副作用判定・学習部108は、3つの値(すなわちP1とP2とP3の値)を正規化した値を下記の式(8)にしたがって算出し、算出した値を返す。そして点数正規化処理は終了する。
さて、以上のとおり図1〜10を参照して説明した副作用処理部102による処理では、学習結果テーブル204が使われる。そして、学習結果テーブル204の一部のフィールドは、前述したとおり、本実施形態では前処理によって予め学習される。そこで、以下では前処理について説明する。
In the processing by the side
図1の判定装置100の通常運用の開始前には、例えば、次の(c1)〜(c4)のような一連の前処理が行われる。また、判定装置100の通常運用開始後に添付文書202の更新又は追加が生じる場合には、次の(c5)のような前処理が行われる。
Prior to the start of normal operation of the
(c1)格納部101に添付文書群201を格納する処理。
(c2)利用可能な同義語辞書203のデータがあれば、当該データを持つ同義語辞書203を格納部101に格納し、利用可能な同義語辞書203のデータがなければ、何もエントリを持たない初期状態の同義語辞書203を格納部101上に作成する処理。
(c3)何もエントリを持たない初期状態の学習結果テーブル204を格納部101上に作成する処理。
(c4)図11のフローチャートにしたがって、学習結果テーブル204にエントリを追加し、既知副作用リスト以外のフィールドについての学習を行う処理。
(c5)図14のフローチャートにしたがって、添付文書202の更新又は追加を行い、その更新又は追加に応じて学習結果テーブル204の学習を行う処理。
(C1) Processing for storing the attached
(C2) If there is data in the
(C3) Processing for creating an initial learning result table 204 having no entry on the storage unit 101.
(C4) Processing for adding an entry to the learning result table 204 and learning for fields other than the known side effect list according to the flowchart of FIG.
(C5) A process of updating or adding the attached
なお、上記(c1)〜(c3)の前処理は、例えばシステム管理者によって行われてもよいし、前処理制御部113により行われてもよい。以下では、前処理制御部113による制御にしたがって行われる上記(c4)と(c5)の処理について、図11〜14を参照して詳しく説明する。
Note that the preprocessing (c1) to (c3) may be performed by, for example, a system administrator, or may be performed by the
図11は、通常運用の開始前に判定装置100が行う上記(c4)の前処理のフローチャートである。
ステップS501で前処理制御部113は、例えば添付文書202のファイル数を数えることによって添付文書202が登録されている医薬品の数を求め、求めた数を変数Nに代入して記憶する。
FIG. 11 is a flowchart of the preprocessing (c4) performed by the
In step S501, the
次のステップS502で前処理制御部113は、添付文書202が登録されている医薬品について順番に注目していくための変数iの値を1に初期化する。なお、以下では説明の簡単化のため、i番目の医薬品の添付文書202のことを単に「i番目の添付文書202」という。
In the next step S502, the
続いて、ステップS503で前処理制御部113は、i番目の医薬品についてのエントリを学習結果テーブル204に追加する。
図1に関して説明したように、本実施形態では、添付文書202のファイル名が医薬品のIDを含むことで添付文書202が医薬品のIDと対応づけられている。よって、前処理制御部113は、添付文書群201の中からi番目の添付文書202を選び、選んだ添付文書202のファイル名から当該添付文書202に対応するIDを認識する。そして、前処理制御部113は、認識したIDを「ID」フィールドに設定し、かつ他のフィールドを空に初期化したエントリを、学習結果テーブル204に追加する。
Subsequently, in step S <b> 503, the
As described with reference to FIG. 1, in the present embodiment, the file name of the attached
そして、次のステップS504で前処理制御部113は、効能・効果キーワード抽出部111に対して、i番目の添付文書202の「効能又は効果」セクションからキーワードを抽出して学習結果テーブル204に登録するよう命令する。そして、効能・効果キーワード抽出部111は命令にしたがってキーワード抽出と学習結果テーブル204への登録を行う。
In the next step S504, the
なお、図3のステップS104における副作用キーワード抽出部107によるキーワード抽出と同様に、効能・効果キーワード抽出部111がキーワードの抽出に用いるアルゴリズムは、実施形態に応じて様々でよい。
Similar to the keyword extraction by the side effect
例えば、効能・効果キーワード抽出部111は、i番目の添付文書202の「効能又は効果」セクションを形態素解析し、名詞の1つ以上の連なりをキーワードとして抽出してもよい。効能・効果キーワード抽出部111は、形態素解析の結果に対してさらに構文解析を行い、構文解析の結果を使ってキーワードを抽出してもよい。
For example, the efficacy / effect keyword extraction unit 111 may perform morphological analysis on the “efficacy or effect” section of the i-th attached
あるいは、効能・効果キーワード抽出部111は、漢字、カタカナ又は英字の連なりをキーワードとして抽出するといったような、字種に基づく簡易的なキーワード抽出処理を行ってもよい。また、効能又は効果として記載されうる医学用語の辞書のデータが利用可能であれば、効能・効果キーワード抽出部111は、i番目の添付文書202の「効能又は効果」セクションから、辞書のエントリと一致する文字列をキーワードとして抽出してもよい。
Alternatively, the efficacy / effect keyword extraction unit 111 may perform a simple keyword extraction process based on the character type, such as extracting kanji, katakana or a sequence of English letters as a keyword. In addition, if medical dictionary data that can be described as an effect or effect is available, the effect / effect keyword extraction unit 111 reads the dictionary entry from the “effect or effect” section of the i-th attached
いずれにせよ、ステップS504において効能・効果キーワード抽出部111は、i番目の添付文書202の「効能又は効果」セクションから、実施形態に応じた適宜のアルゴリズムにしたがってキーワードを抽出する。そして、効能・効果キーワード抽出部111は、i番目の医薬品に対応してステップS503で追加された学習結果テーブル204のエントリの効能・効果キーワード群のフィールドに、抽出したキーワードを登録する。なお、前処理制御部113が効能・効果キーワード抽出部111にi番目の医薬品のIDを通知することで、効能・効果キーワード抽出部111は、キーワード抽出の対象の添付文書202及びキーワードの登録先のエントリを認識することができる。
In any case, in step S504, the effect / effect keyword extraction unit 111 extracts keywords from the “effect or effect” section of the i-th attached
そして、次のステップS505で前処理制御部113は、副作用キーワード抽出部107に対して、i番目の添付文書202の「副作用」セクションからキーワードを抽出して学習結果テーブル204に登録するよう命令する。そして、副作用キーワード抽出部107は命令にしたがってキーワード抽出と学習結果テーブル204への登録を行う。
In the next step S505, the
なお、ステップS505におけるキーワード抽出のアルゴリズムも、図3のステップS104と同様、実施形態に応じて様々でよい。また、前処理制御部113が副作用キーワード抽出部107にi番目の医薬品のIDを通知することで、副作用キーワード抽出部107は、キーワード抽出の対象の添付文書202及びキーワードの登録先のエントリを認識することができる。
Note that the keyword extraction algorithm in step S505 may be varied depending on the embodiment, as in step S104 in FIG. Further, the
次のステップS506で前処理制御部113は、変数iの値を1増やす。そして、処理はステップS507に移行する。なお、上記のステップS504とS505の順序は逆でもよい。
In the next step S506, the
そして、ステップS507で前処理制御部113は、変数iの値が変数Nの値を超えているか否かを判断する。変数iの値が変数Nの値を超えていれば、添付文書群201に含まれるすべての添付文書202についてステップS503〜S505の処理が終了しているので、処理はステップS508に移行する。逆に、変数iの値が変数Nの値以下ならば、まだステップS503〜S505の処理を行っていない添付文書202が残っているので処理はステップS503に戻る。
In step S507, the
ステップS508で前処理制御部113は、変数iの値を再度1に初期化する。そして処理はステップS509に移行する。
ステップS509で前処理制御部113は、類薬判定・学習部112に対して、i番目の医薬品の類薬を学習するよう命令し、類薬判定・学習部112はi番目の医薬品の類薬を学習する。
In step S508, the
In step S509, the
なお、本実施形態では、類薬の関係は対称的である。すなわち、任意のiとjに関して、j番目の医薬品がi番目の医薬品の類薬であれば、i番目の医薬品はj番目の医薬品の類薬である。よって、ステップS509で前処理制御部113は、類薬判定・学習部112に対して、類薬を学習する対象であるi番目の医薬品のIDを指定し、(i+1)番目からN番目の医薬品を、i番目の医薬品の類薬であるか否かを調べるための比較範囲として指定する。
In the present embodiment, the relationship between the analogs is symmetric. That is, for any i and j, if the j-th drug is an i-th drug analog, the i-th drug is a j-th drug analog. Therefore, in step S509, the
ステップS509における類薬判定・学習部112の動作の詳細は図12とともに後述するが、概略を述べれば次のとおりである。
すなわち、類薬判定・学習部112は、前処理制御部113から指定された比較範囲に含まれる各医薬品がi番目の医薬品の類薬か否かを判断する。そして、i番目の医薬品の類薬が見つかれば、類薬判定・学習部112は、見つかった類薬のIDを、i番目の医薬品に対応する学習結果テーブル204のエントリの類薬リストに追加する。また、類薬判定・学習部112は、見つかった類薬に対応する学習結果テーブル204のエントリの類薬リストに、i番目の医薬品のIDを追加する。
Details of the operation of the analogy drug determination / learning
In other words, the similar drug determination / learning
その後、ステップS510で前処理制御部113は、変数iの値を1増やす。そして、処理はステップS511に移行する。
ステップS511で前処理制御部113は、変数iの値が変数Nの値以上であるか否かを判断する。変数iの値が変数Nの値以上であれば、添付文書202が登録されているすべての医薬品について類薬の学習が済んだということなので、図11の前処理も終了する。他方、変数iの値が変数Nの値未満であれば、処理はステップS509に戻る。
Thereafter, in step S510, the
In step S511, the
図12は、類薬判定・学習部112が図11のステップS509と後述の図14のステップS808で行う類薬学習処理のフローチャートである。本実施形態では、前処理制御部113が類薬判定・学習部112に対して、類薬を学習する対象の医薬品(以下「学習対象薬」という)のID(以下「学習対象薬ID」という)を指定する。また、前処理制御部113は、学習対象薬の類薬か否かの比較を行うための比較範囲の下限と上限も類薬判定・学習部112に対して指定する。
FIG. 12 is a flowchart of the similar drug learning process performed by the similar drug determination / learning
ステップS601で類薬判定・学習部112は、学習対象薬について学習済みの内容を読み込んで、「類薬学習リスト」として記憶する。すなわち、類薬判定・学習部112は、前処理制御部113から指定された学習対象薬IDをIDとして有するエントリを学習結果テーブル204において検索し、検索の結果見つかったエントリの類薬リストを読み込み、類薬学習リストとして記憶する。
In step S <b> 601, the similar drug determination / learning
また、ステップS602で類薬判定・学習部112は、「類薬候補リスト」を空に初期化する。
そして、ステップS603で類薬判定・学習部112は、前処理制御部113から指定された比較範囲内で未処理の医薬品が残っているか否かを判断する。指定された範囲内でまだ学習対象薬の類薬か否かの判断がされていない医薬品が残っていれば、処理はステップS604に移行する。逆に、指定された範囲内のすべての医薬品について学習対象薬の類薬か否かが判断済みであれば、処理はステップS617に移行する。
In step S602, the similar drug determination / learning
In step S <b> 603, the similar medicine determination / learning
ステップS604で類薬判定・学習部112は、前処理制御部113から指定された比較範囲内で未処理の医薬品を1つ選択する。以下、ステップS604で選択された医薬品を「選択薬」といい、そのIDを「選択薬ID」という。
In step S <b> 604, the similar medicine determination / learning
そして、次のステップS605で類薬判定・学習部112は、選択薬IDと学習対象薬IDが等しいか否かを判断する。選択薬IDと学習対象薬IDが等しいとき、学習対象薬自身が学習対象薬の類薬か否かを調べる必要はないので、処理はステップS603に戻る。逆に、選択薬IDと学習対象薬IDが異なる場合は、処理はステップS606に移行する。
In step S605, the similar drug determination / learning
ステップS606で類薬判定・学習部112は、選択薬IDが類薬学習リストに含まれるか否かを判断する。
選択薬IDが類薬学習リストに含まれる場合、選択薬は学習対象薬の類薬として学習済みであり、学習結果テーブル204に既に登録されているので、選択薬についてこれ以上の処理を行う必要はない。そこで、処理はステップS603に戻る。逆に、選択薬IDが類薬学習リストに含まれない場合は、処理はステップS607に移行する。
In step S606, the similar medicine determination / learning
When the selected drug ID is included in the similar drug learning list, the selected drug has already been learned as the similar drug of the learning target drug and has already been registered in the learning result table 204, so it is necessary to perform further processing on the selected drug There is no. Therefore, the process returns to step S603. Conversely, if the selected drug ID is not included in the analogy medicine learning list, the process proceeds to step S607.
ステップS607で類薬判定・学習部112は、学習対象薬と選択薬それぞれの添付文書202における「薬効分類名」セクションを参照し、比較する。上記のとおり、「薬効分類名」セクションには、「解熱鎮痛消炎剤」などの名称が1つ以上記載されているので、類薬判定・学習部112は、学習対象薬と選択薬で一致する薬効分類の名称があるか否かを確認する。
In step S <b> 607, the similar drug determination / learning
そして、次のステップS608で類薬判定・学習部112は、ステップS607の比較の結果、学習対象薬と選択薬で一致する薬効分類の名称があったか否かを判断する。学習対象薬と選択薬で一致する薬効分類の名称があった場合は、学習対象薬と選択薬は類薬である。よって、選択薬を学習対象薬の類薬として学習するために、処理はステップS609に移行する。逆に、学習対象薬と選択薬で一致する薬効分類の名称がなかった場合は、他のセクションの記述に基づいて選択薬が学習対象薬の類薬か否かをさらに調査するために、処理はステップS610に移行する。
In step S608, the analogy drug determination / learning
ステップS609で類薬判定・学習部112は、類薬学習リストに選択薬IDを追加する。そして、処理はステップS603に戻る。
また、ステップS610で類薬判定・学習部112は、学習対象薬と選択薬それぞれの添付文書202における「有効成分に関する理化学的知見」セクションを参照し、比較する。
In step S609, the similar drug determination / learning
In step S610, the similar drug determination / learning
上記のように、「有効成分に関する理化学的知見」セクションには、一般名、化学名、分子式及び構造式が含まれる。また、複数の有効成分を含む医薬品の場合、複数の有効成分それぞれの一般名、化学名、分子式及び構造式が記載されている。 As mentioned above, the “physicochemical findings regarding active ingredients” section includes generic names, chemical names, molecular formulas and structural formulas. Moreover, in the case of a pharmaceutical containing a plurality of active ingredients, the general name, chemical name, molecular formula and structural formula of each of the plurality of active ingredients are described.
そこで、本実施形態では、類薬判定・学習部112は、学習対象薬と選択薬それぞれの添付文書202における「有効成分に関する理化学的知見」セクションから一般名と化学名を抽出し、一般名同士と化学名同士を比較する。
Therefore, in this embodiment, the similar drug determination / learning
そして、ステップS611で類薬判定・学習部112は、学習対象薬と選択薬の間で一致する一般名又は化学名があるか否かを判断する。もし、学習対象薬と選択薬の間で一致する一般名又は化学名があった場合は、学習対象薬と選択薬は類薬である。よって、選択薬を学習対象薬の類薬として学習するために、処理はステップS612に移行する。逆に、学習対象薬と選択薬で一般名にも化学名にも一致するものが見つからなかった場合は、他のセクションの記述に基づいて選択薬が学習対象薬の類薬か否かをさらに調査するために、処理はステップS613に移行する。
In step S611, the similar drug determination / learning
なお、添付文書202内で構造式が所定のマークアップ言語によって記載されている実施形態においては、類薬判定・学習部112は、ステップS610においてさらに構造式同士を比較してもよい。そして、ステップS611で類薬判定・学習部112は、構造式同士が学習対象薬と選択薬の間で一致していれば選択薬を学習対象薬の類薬と判断し、続いてステップS612を実行してもよい。
In the embodiment in which the structural formula is described in a predetermined markup language in the attached
ステップS612で類薬判定・学習部112は、類薬学習リストに選択薬IDを追加する。そして、処理はステップS603に戻る。
また、ステップS613で類薬判定・学習部112は、図13に「効能・効果類似度算出処理」として示す処理を行う。すなわち、類薬判定・学習部112は、学習対象薬と選択薬それぞれについて既に添付文書202の「効能又は効果」セクションから学習して学習結果テーブル204に登録した効能・効果キーワード群同士の類似度を求める。
In step S612, the similar drug determination / learning
In step S613, the analogy drug determination / learning
なお、ステップS613の詳細は図13とともに後述するが、ステップS613では、Term Frequency-Inverse Document Frequency(TF・IDF)値を使ったベクトル空間モデルによる一般的な文書間の類似度算出とは異なるアルゴリズムが使われる。すなわち、図13の処理では、効能又は効果に基づいて2つの医薬品同士が類薬か否かを判断するという目的に合わせたアルゴリズムが採用されている。図13の処理によれば、医学用語では共通の単語を含む複合語が大量にあることと、2つの医薬品の間で効能又は効果の全体が類似していなくても一部が一致していれば2つの医薬品が類薬である蓋然性が高いことが考慮される。その結果、図13の処理によれば、類薬の判定に適した類似度が得られる。 The details of step S613 will be described later with reference to FIG. 13, but in step S613, an algorithm different from general document similarity calculation using a vector space model using term frequency-inverse document frequency (TF / IDF) values is used. Is used. That is, in the process of FIG. 13, an algorithm is adopted in accordance with the purpose of determining whether two medicines are similar or not based on efficacy or effect. According to the processing of FIG. 13, in medical terms, there are a large number of compound words including common words, and even if the efficacy or overall effect is not similar between the two medicines, a part of them may match. For example, it is considered that two drugs are highly likely to be similar drugs. As a result, according to the process of FIG. 13, a similarity suitable for determination of an analog is obtained.
そして、次のステップS614で類薬判定・学習部112は、ステップS613で求めた類似度が、「γ1以上」、「γ2以上γ1未満」、「γ2未満」のうちどの範囲に該当するかを判断する。なお、本実施形態においてγ1とγ2は、予め決められた適宜の閾値であり、γ1>γ2である。
Then, in the next step S614, the analogy drug determination / learning
なお、本実施形態における閾値γ1とγ2は固定された値である。しかし、実施形態によっては、閾値γ1とγ2は、学習対象薬と選択薬について学習結果テーブル204に学習されている効能・効果キーワード群に含まれるキーワードの数又は長さに応じて変化するように決められた値であってもよい。 Note that the threshold values γ 1 and γ 2 in the present embodiment are fixed values. However, in some embodiments, the thresholds γ 1 and γ 2 change according to the number or length of keywords included in the efficacy / effect keyword group learned in the learning result table 204 for the learning target drug and the selected drug. It may be a value determined in this way.
閾値γ1は、「学習対象薬と選択薬が類薬同士である」と判断するのが妥当であることを示す基準値である。また、閾値γ2は、「学習対象薬と選択薬は類薬同士ではない」と判断するか「学習対象薬と選択薬は類薬同士の可能性がある」と判断するかの境界を示す基準値である。 The threshold value γ 1 is a reference value indicating that it is appropriate to determine that “the learning target drug and the selected drug are similar drugs”. In addition, the threshold γ 2 indicates a boundary for determining that “the learning target drug and the selected drug are not similar drugs” or “the learning target drug and the selected drug may be similar drugs”. This is the reference value.
ステップS613で求めた類似度がγ1以上の場合、処理はステップS614からステップS615に移行する。また、ステップS613で求めた類似度がγ2以上γ1未満の場合、処理はステップS614からステップS616に移行する。そして、ステップS613で求めた類似度がγ2未満の場合、処理はステップS614からステップS603に戻る。 When the similarity is one or more γ obtained in step S613, the process proceeds from step S614 to step S615. Also, similarity obtained in step S613 is a case of two or more gamma less than 1 gamma, the process proceeds from step S614 to step S616. When the similarity obtained in step S613 is less than gamma 2, the process returns from step S614 to step S603.
ステップS615で類薬判定・学習部112は、類薬学習リストに選択薬IDを追加する。つまり、類薬判定・学習部112は、選択薬を学習対象薬の類薬として記憶する。そして、処理はステップS603に戻る。
In step S615, the similar drug determination / learning
また、ステップS616で類薬判定・学習部112は、類薬候補リストに選択薬IDを追加する。つまり、類薬判定・学習部112は、選択薬を学習対象薬の類薬の可能性がある医薬品として記憶する。そして、処理はステップS603に戻る。
In step S616, the similar drug determination / learning
以上のようにして、類薬判定・学習部112が、前処理制御部113から指定された比較範囲内に含まれる各医薬品についてステップS604以降の処理を実行することで、学習対象薬に関する類薬学習リストと類薬候補リストが完成する。そして、類薬学習リストと類薬候補リストが完成すると、上記のとおり処理はステップS603からステップS617へと移行する。
As described above, the similar drug determination / learning
ステップS617で類薬判定・学習部112は、類薬学習リストの内容を学習結果テーブル204に記録する。具体的には、類薬判定・学習部112は、類薬学習リストに含まれる各IDを、学習結果テーブル204においてIDとして学習対象薬IDを持つエントリの類薬リストに追加する。さらに、類薬判定・学習部112は、類薬学習リストに含まれる各IDについて、学習結果テーブル204において当該IDをIDとして持つエントリの類薬リストに学習対象薬IDを追加する。
In step S617, the similar drug determination / learning
そして、次のステップS618で類薬判定・学習部112は、類薬候補リストが空か否かを判断する。
類薬候補リストが空の場合、学習対象薬の類薬か否かが不明な医薬品はない。よって、この場合、図12の類薬学習処理も終了する。
In step S618, the similar drug determination / learning
When the similar drug candidate list is empty, there is no drug for which it is unknown whether it is a similar drug to be learned. Therefore, in this case, the similar medicine learning process of FIG. 12 is also terminated.
他方、類薬候補リストが空ではない場合は、学習対象薬の類薬と断定することはできないが学習対象薬の類薬の可能性がある医薬品が見つかった場合である。よって、この場合、ユーザによる判断の入力を受け付けるため、処理はステップS619に移行する。 On the other hand, if the similar drug candidate list is not empty, it is a case where a drug that cannot be determined as a similar drug as a learning target drug but that may be a similar drug as a learning target drug is found. Therefore, in this case, in order to accept a determination input by the user, the process proceeds to step S619.
ステップS619で類薬判定・学習部112は、類薬候補リストにIDが含まれる各医薬品が、学習対象薬の類薬か否かについて、ユーザからの入力を受け付ける。例えば、類薬判定・学習部112は、図2の出力装置306に相当するディスプレイに、次の(d1)〜(d4)を表示させてもよい。
In step S619, the similar drug determination / learning
(d1)学習対象薬ID。なお、類薬判定・学習部112は、学習対象薬の添付文書202へのリンクを学習対象薬IDに埋め込んでもよい。また、類薬判定・学習部112は、学習対象薬を特定する情報として、学習対象薬IDの代わりに(又は学習対象薬IDとともに)、学習対象薬の販売名をディスプレイに表示させてもよい。
(D1) Learning target drug ID. Note that the similar medicine determination / learning
(d2)類薬候補リストに含まれる各ID。なお、類薬判定・学習部112は、各IDに、当該IDに対応する添付文書202へのリンクを埋め込んでもよい。また、類薬判定・学習部112は、類薬候補リストにIDが含まれる各医薬品を特定する情報として、IDの代わりに(又はIDとともに)、当該医薬品の販売名をディスプレイに表示させてもよい。
(D2) Each ID included in the drug candidate list. The similar medicine determination / learning
(d3)類薬候補リストに含まれる各IDについて、当該IDの医薬品が学習対象薬の類薬か否かをそれぞれ指定するためのユーザインタフェース。より具体的には、ラジオボタン、チェックボックス、プルダウンリストなどが利用可能である。 (D3) A user interface for designating, for each ID included in the similar drug candidate list, whether the drug of the ID is a similar drug to be learned. More specifically, radio buttons, check boxes, pull-down lists, etc. can be used.
(d4)入力内容を確定させるための、ボタンなどのユーザインタフェース。
例えば上記の(d1)〜(d4)のようなユーザインタフェースが採用される場合、類薬判定・学習部112は、(d4)のボタンが押下されるまで待機する。そして、(d4)のボタンが押下されると、類薬判定・学習部112は、類薬候補リストに含まれる各IDについて(d3)のユーザインタフェースを介して入力された判断結果を取り込む。
(D4) A user interface such as a button for confirming the input content.
For example, when the user interfaces such as (d1) to (d4) described above are employed, the analogy medicine determination / learning
そして、次のステップS620において、類薬判定・学習部112は、ステップS619で受け付けた入力結果にしたがい、学習対象薬の類薬と判定されたもののIDを学習結果テーブル204に記録する。
In step S620, the similar drug determination / learning
すなわち、類薬判定・学習部112は、類薬候補リストに含まれるIDのうち、上記(d3)のユーザインタフェースを介して取り込んだ入力内容が「類薬である」と示すものを、「類薬ID」として認識する。なお、類薬候補リストに含まれるどのIDも類薬IDとして認識されないかもしれないし、1つのIDのみが類薬IDとして認識されるかもしれないし、複数のIDが類薬IDとして認識されるかもしれない。
That is, the similar drug determination / learning
類薬判定・学習部112は、類薬IDを1つ以上認識した場合は、各類薬IDについて、学習結果テーブル204においてIDとして学習対象薬IDを持つエントリの類薬リストに当該類薬IDを追加する。さらに、類薬判定・学習部112は、各類薬IDについて、学習結果テーブル204において当該類薬IDをIDとして持つエントリの類薬リストに学習対象薬IDを追加する。
When one or more similar drug IDs are recognized, the similar drug determination / learning
なお、類薬判定・学習部112は、類薬候補リストに含まれるIDのうち、上記(d3)のユーザインタフェースを介して取り込んだ入力内容が「類薬でない」と示すものについては、特に処理を行わない。そして、以上のようにして類薬判定・学習部112がステップS620の処理を終えると、図12の類薬学習処理も終了する。
Note that the analogy medicine determination / learning
図13は、類薬判定・学習部112が図12のステップS613で行う効能・効果類似度算出処理のフローチャートである。前述のとおり、効能・効果類似度算出処理は、前処理制御部113により指定される学習対象薬と、類薬判定・学習部112が図12のステップS604で選択した選択薬との組み合わせごとに行われる。
FIG. 13 is a flowchart of the efficacy / effect similarity calculation process performed by the similar drug determination / learning
ステップS701で類薬判定・学習部112は、3つの変数P1、P2、P3を初期化してNULLとする。3つの変数P1、P2、P3は、学習対象薬と選択薬それぞれの効能・効果キーワード群内のキーワード同士の組み合わせのうちで、キーワード同士の類似度が一定の基準を満たし、かつ類似度が上位3位に入るものの類似度の点数を記憶するための変数である。
In step S701, the analogy drug determination / learning
なお、実施形態によっては、点数としては使われない特定の値(例えば−1など)を、変数P1、P2、P3の初期値として用いることもできる。また、3つの変数P1、P2、P3はそれぞれ1位、2位、3位の点数に対応する。 In some embodiments, a specific value that is not used as a score (for example, −1) can be used as an initial value of the variables P 1 , P 2 , and P 3 . The three variables P 1 , P 2 , and P 3 correspond to the first, second, and third rank points, respectively.
そして、ステップS702で類薬判定・学習部112は、学習対象薬の効能・効果キーワード群K1を取得する。すなわち、類薬判定・学習部112は、学習結果テーブル204においてIDが学習対象薬IDと一致するエントリを検索し、見つかったエントリの効能・効果キーワード群を取得する。そして、処理はステップS703に移行する。
Then, similar drugs determination and
ステップS703で類薬判定・学習部112は、選択薬の効能・効果キーワード群K2を取得する。すなわち、類薬判定・学習部112は、学習結果テーブル204においてIDが選択薬IDと一致するエントリを検索し、見つかったエントリの効能・効果キーワード群を取得する。そして、処理はステップS704に移行する。なお、ステップS702とS703の実行順序は逆でもよい。
Similar drugs determination and
ステップS704で類薬判定・学習部112は、効能・効果キーワード群K1内のキーワードと効能・効果キーワード群K2と内のキーワードとの組み合わせで、ステップS705以降の処理を行っていない未処理のものが残っているか否かを判断する。未処理の組み合わせが残っていれば、処理はステップS705に移行し、すべての組み合わせについて処理済みならば、処理はステップS711に移行する。
Step S704 In similar drugs determination and
ステップS705で類薬判定・学習部112は、効能・効果キーワード群K1内のキーワードと効能・効果キーワード群K2と内のキーワードとの組み合わせのうち、未処理の組み合わせの1つにしたがい、キーワードW1とW2を選択する。つまり、類薬判定・学習部112は、効能・効果キーワード群K1からキーワードW1を選択し、効能・効果キーワード群K2からキーワードW2を選択する。
Step S705 In similar drugs determination and
そして、次のステップS706で類薬判定・学習部112は、キーワードW1とW2の類似度をキーワード類似度評価部109に評価させ、評価結果の点数を得る。ステップS706でキーワード類似度評価部109が行う点数計算処理は、引数の内容以外は、図6の副作用類似度算出処理のステップS205に関してキーワード類似度評価部109が図7のフローチャートにしたがって行う点数計算処理と同じである。よって、ここでは点数計算処理についての詳しい説明を省略するが、1つ例を挙げれば次のとおりである。
Then, similar drugs determination and
例えば、学習対象薬IDが「111222A3333」で選択薬IDが「998877F5050」の場合、図4の学習結果テーブル204からキーワードW1として「気管支炎」が選択され、キーワードW2として「急性上気道炎」が選択されることがある。そして、「気管支炎」と「急性上気道炎」という組み合わせに対して、キーワード類似度評価部109は、図7に示した点数計算処理により、「気」と「炎」という部分文字列の一致の結果として4(=2+2)点を得て、類薬判定・学習部112に4点という点数を返す。
For example, when the learning target drug ID is “111222A3333” and the selected drug ID is “998877F5050”, “bronchitis” is selected as the keyword W 1 from the learning result table 204 of FIG. 4, and “acute upper respiratory tract inflammation” is selected as the keyword W 2. May be selected. For the combination of “bronchitis” and “acute upper respiratory tract inflammation”, the keyword
ステップS706でキーワード類似度評価部109にキーワードW1とW2の組み合わせに対応する点数を計算させた後、類薬判定・学習部112は、ステップS707において、キーワード類似度評価部109が計算した点数が所定の基準を満たすか否かを判断する。具体的には、図8の基準値情報502において、キーワードW1とW2のうち短い方の長さに対応づけられている基準値以上の点数がステップS706で得られた場合、類薬判定・学習部112は、「所定の基準が満たされた」と判断する。例えば、|W1|=10かつ|W2|=8のとき、類薬判定・学習部112は、基準値情報502において8バイトという長さに対応づけられている基準値(10×β)以上の点数が得られたか否かを判断する。
After causing the keyword
点数が基準値以上の場合、キーワードW1とW2の類似度は「一致する」と見なしてよい基準に達しているので、処理はステップS708に移行する。他方、点数が基準値未満の場合、キーワードW1とW2は「一致する」と見なしてよい基準に達していないので、処理はステップS704に戻る。 If the score is equal to or greater than the reference value, the similarity between the keywords W 1 and W 2 has reached a criterion that can be regarded as “match”, and the process moves to step S708. On the other hand, if the score is less than the reference value, the keywords W 1 and W 2 have not reached a criterion that can be regarded as “match”, and the process returns to step S704.
ステップS708で類薬判定・学習部112は、キーワードW1とW2の対を同義語として学習する。すなわち、類薬判定・学習部112は、キーワードW1とW2を対にしたエントリを同義語辞書203に追加する。
Similar drugs determination and
そして、次のステップS709で類薬判定・学習部112は、ステップS706で得た点数が、互いに一致すると見なせるキーワードの組み合わせに関して今までに得られた点数の中で上位3位以内に入る点数か否かを判断する。
Then, in the next step S709, the analogy drug determination / learning
具体的には、類薬判定・学習部112は、変数P1〜P3のうち1つでも初期状態のNULLのままのものがあれば、「ステップS706で得た点数は上位3位以内」と判断する。また、変数P1〜P3にすべて具体的な値が設定済みの場合、類薬判定・学習部112は、変数P3の値(つまり3位の点数)よりステップS706で得た点数が大きければ、「ステップS706で得た点数は上位3位以内」と判断する。
Specifically, if any one of the variables P 1 to P 3 remains as NULL in the initial state, the analogy medicine determination / learning
逆に、変数P1〜P3にすべて具体的な値が設定済みで、かつステップS706で得た点数が変数P3の値以下であれば、類薬判定・学習部112は、「ステップS706で得た点数は上位3位以内ではない」と判断する。
Conversely, if specific values have already been set for all of the variables P 1 to P 3 and the score obtained in step S706 is equal to or less than the value of the variable P 3 , the analogy medicine determination / learning
そして、類薬判定・学習部112が「ステップS706で得た点数は上位3位以内」と判断した場合、処理はステップS710に移行し、それ以外の場合、処理はステップS704に戻る。
If the similar drug determination / learning
ステップS710で類薬判定・学習部112は、ステップS706で得た点数に応じて、適宜変数P1〜P3を更新する。
具体的には、変数P1がNULLの場合、類薬判定・学習部112は、ステップS706で得た点数を変数P1に代入する。また、変数P1がNULLではなく、変数P2がNULLの場合、類薬判定・学習部112は、ステップS706で得た点数を変数P2に代入する。そして、変数P1とP2がNULLではなく、変数P3がNULLの場合、類薬判定・学習部112は、ステップS706で得た点数を変数P3に代入する。
In step S710, the similar drug determination / learning
Specifically, if the variable P 1 is NULL, similar drugs determination and
他方、変数P1〜P3のすべてに具体的な値が設定されている場合、類薬判定・学習部112は次のように変数の更新を行う。
すなわち、ステップS706で得た点数が変数P1の値より大きい場合、類薬判定・学習部112は、変数P3に現在の変数P2の値を代入し、変数P2に現在の変数P1の値を代入し、変数P1にステップS706で得た点数を代入する。あるいは、ステップS706で得た点数が変数P1の値以下で、かつ変数P2の値より大きい場合、類薬判定・学習部112は、変数P3に現在の変数P2の値を代入し、変数P2にステップS706で得た点数を代入する。あるいは、ステップS706で得た点数が変数P2の値以下で、かつ変数P3の値より大きい場合、類薬判定・学習部112は変数P3にステップS706で得た点数を代入する。
On the other hand, when specific values are set for all of the variables P 1 to P 3, the analogy drug determination / learning
That is, if the number obtained in step S706 is greater than the value of the variable P 1, similar drugs determination and
以上のようにして変数P1〜P3の更新が終了すると、処理はステップS704に戻る。
また、ステップS711で類薬判定・学習部112は、変数P1とP2とP3を引数として用いて点数正規化処理を行う。ステップS711における点数正規化処理は、処理を行う主体が類薬判定・学習部112であるという点以外は、図6のステップS210において副作用判定・学習部108が図10のフローチャートにしたがって行う点数正規化処理と同様である。よって、ここでは詳しい説明を省略する。
When the updating of the variables P 1 to P 3 is completed as described above, the process returns to step S704.
Also, similar drugs determination and
そして、次のステップS712で類薬判定・学習部112は、ステップS711で正規化した点数を図13の処理の戻り値として返し、図13の処理は終了する。つまり、図13の処理に相当する図12のステップS613において、類薬判定・学習部112は、上記の正規化した点数を類似度として取得する。
In step S712, the analogy drug determination / learning
以上、図11〜13を参照して説明した上記(c4)の前処理によれば、学習結果テーブル204の「既知副作用リスト」フィールド以外のフィールドが予め学習される。したがって、ある特定の自社薬について複数の医療機関から安全性情報報告文書205が寄せられるとしても、類薬処理部103は当該特定の自社薬の類薬の学習を前処理において1回行うだけでよい。
As described above, according to the preprocessing (c4) described above with reference to FIGS. 11 to 13, fields other than the “known side effect list” field of the learning result table 204 are learned in advance. Therefore, even if safety information report documents 205 are received from a plurality of medical institutions for a specific in-house drug, the similar
また、図13の効能・効果類似度算出処理には、次の(e1)と(e2)の特徴がある。
(e1)図13に例示したアルゴリズムは、TF・IDF値を用いてベクトル空間モデルにしたがって文書間の類似度を算出する一般的なアルゴリズムとは異なり、効能又は効果に基づいて類薬か否かを判定するのに適するように工夫されたものである。つまり、図13に示したアルゴリズムは、医薬品には複数の効能又は効果がある場合が珍しくないことと、一部の効能又は効果が高い類似度を示している医薬品同士は類薬と見なせることを利用して、類薬の判定に適するよう工夫されている。
Further, the effect / effect similarity calculation process of FIG. 13 has the following characteristics (e1) and (e2).
(E1) The algorithm illustrated in FIG. 13 is different from a general algorithm that calculates similarity between documents according to a vector space model using TF / IDF values, and whether or not it is a similar drug based on efficacy or effect. It is devised so that it is suitable for judging. That is, the algorithm shown in FIG. 13 indicates that it is not uncommon for a medicine to have a plurality of effects or effects, and that medicines showing a high degree of similarity with some effects or effects can be regarded as similar drugs. It has been devised to be suitable for the determination of similar drugs.
例えば、第1の医薬品は疾病XとYに効果があり、第2の医薬品は疾病YとZに効果があるかもしれない。この場合、第1と第2の医薬品の効果は、全体としては必ずしも類似性が高いわけではない。よって、TF・IDF値を用いてベクトル空間モデルにしたがって文書間の類似度を算出する一般的なアルゴリズムによれば、「第1と第2の医薬品が類似する」という結果が得られるとは限らない。 For example, a first drug may be effective for diseases X and Y, and a second drug may be effective for diseases Y and Z. In this case, the effects of the first and second drugs are not necessarily highly similar as a whole. Therefore, according to a general algorithm that calculates similarity between documents according to a vector space model using TF / IDF values, a result that “the first and second drugs are similar” is not always obtained. Absent.
他方で、疾病Yに効果があるという点で、第1と第2の医薬品は類薬と見なせるが、図13の処理によれば、疾病Yに効果があるという記載同士の類似性から、類薬判定・学習部112は「第1と第2の医薬品は類薬同士である」という結論を得ることができる。その理由は、以下のとおりである。
On the other hand, the first and second medicines can be regarded as similar drugs in that they are effective against disease Y. However, according to the processing of FIG. The medicine determination / learning
第1と第2の医薬品に対応する効能・効果キーワード群はそれぞれ疾病Yに関するキーワードを含む。よって、本実施形態によれば、疾病Yに関するキーワード同士の組み合わせに関して図13のステップS707で「一致の基準を満たす」と判断される。したがって、疾病Yに関するキーワード同士の類似度を示す点数を使った点数正規化処理が行われる。よって、図12に示した閾値γ1が適切に設定されていれば、類薬判定・学習部112は「第1と第2の医薬品は類薬同士である」と判断することができる。
The efficacy / effect keyword groups corresponding to the first and second pharmaceutical products each include a keyword related to the disease Y. Therefore, according to this embodiment, regarding the combination of keywords related to the disease Y, it is determined in step S707 in FIG. Therefore, the score normalization process using the score indicating the similarity between the keywords related to the disease Y is performed. Therefore, if the thresholded gamma 1 is appropriately set as shown in FIG. 12, similar drugs determination and
なお、実施形態によっては、類薬判定・学習部112はTF・IDF値を補助的に用いてもよい。つまり、類薬判定・学習部112は、TF・IDF値を使って学習対象薬と選択薬それぞれの添付文書202の「効能又は効果」セクションの特徴ベクトルを求め、特徴ベクトル同士の近さ(例えば特徴ベクトル同士のなす角)を計算してもよい。そして、類薬判定・学習部112は、特徴ベクトル同士の近さと図13の処理によって得た類似度の双方に基づいて、図12のステップS614において学習対象薬と選択薬が類薬同士か否かを判断してもよい。
Depending on the embodiment, the analogy drug determination / learning
(e2)図13の処理では、長いキーワードの一致ほど重視される。つまり、図7の点数計算処理から明らかなとおり、長いキーワード同士の一致ほど自然に点数も高くなるが、図13のステップS709においてはキーワードの長さによる違いは考慮されず、単に点数の大きさのみが判断の基準に使われる。よって、長いキーワード同士で一致する組み合わせがある場合、短いキーワード同士の一致はステップS711以降の処理にまったく影響しない場合もある。 (E2) In the process shown in FIG. That is, as apparent from the score calculation process of FIG. 7, the longer the match between the keywords, the higher the score naturally. However, in step S709 of FIG. Only is used as a criterion for judgment. Therefore, when there is a matching combination between long keywords, the matching between short keywords may not affect the processing after step S711 at all.
例えば、学習対象薬と選択薬の間で完全に一致する10バイトのキーワードが3組あるとする。すると、そのほかに完全に一致する4バイトのキーワードの組がいくつあっても、それらの4バイトのキーワードの一致によって得られた点数は、ステップS711以下では考慮されない。したがって、図13の処理で得られた類似度を使って類薬判定・学習部112が図12のステップS614で行う判断に対しても、上記の4バイトのキーワード間の一致は何の影響も及ぼさない。
For example, it is assumed that there are three sets of 10-byte keywords that completely match between the learning target drug and the selected drug. Then, no matter how many other 4-byte keyword pairs are completely matched, the score obtained by matching these 4-byte keywords is not considered in step S711 and subsequent steps. Therefore, even if the similarity determination obtained by the processing of FIG. 13 uses the similarity determination / learning
このように本実施形態では、長いキーワード同士の一致が、短いキーワード同士の一致よりも重要視され、優先的に考慮される。この点は、以下の理由から、類薬の判定に適した特徴であると言える。 As described above, in this embodiment, matching between long keywords is more important than matching between short keywords, and is considered with priority. This point can be said to be a feature suitable for determination of analogs for the following reasons.
一般的な傾向として、長いキーワードほど個別具体的な内容を示すことが多い。よって、学習対象薬と選択薬の間で長いキーワードが一致していれば、限定された個別具体的な疾病ないし症状に対して学習対象薬と選択薬が同種の効果を持っている蓋然性も高い。つまり、長いキーワードが一致していれば、学習対象薬と選択薬は類薬である蓋然性も高い。よって、本実施形態では、蓋然性の高さを反映して長いキーワードの一致ほど重視するように、図13のステップS709ではあえてキーワードの長さによる正規化などは行わず、単純に点数の大きさのみが判断の基準として使われる。 As a general tendency, longer keywords often show specific details. Therefore, if the long keywords match between the learning target drug and the selected drug, there is a high probability that the learning target drug and the selected drug have the same kind of effect on limited individual specific diseases or symptoms. . That is, if long keywords match, the learning target drug and the selected drug are highly likely to be similar drugs. Therefore, in the present embodiment, in order to emphasize the matching of long keywords reflecting the high probability, in step S709 of FIG. Only is used as a criterion for judgment.
続いて、添付文書202の追加又は更新にともなって判定装置100が行う上記(c5)の前処理について、図14を参照して説明する。
図14は、追加・更新処理のフローチャートである。なお、本実施形態では、追加・更新処理の開始を指示する入力を契機として前処理制御部113が追加・更新処理を開始する。また、当該入力は、以下の(f1)と(f2)の情報の指定も含む。
Next, the preprocessing (c5) performed by the
FIG. 14 is a flowchart of the addition / update process. In the present embodiment, the
(f1)添付文書202の追加又は更新の対象となる医薬品(以下「対象薬」という)のID(以下「対象薬ID」という)。
(f2)追加又は更新される新規添付文書を特定する新規添付文書特定情報。例えば、新規添付文書のファイルが既に記憶装置307上に作成されている場合は、新規添付文書特定情報は、当該ファイルのパスでもよい。あるいは、他のコンピュータ312上に新規添付文書のファイルがある場合は、新規添付文書特定情報は、Uniform Resource Identifier(URI)でもよい。
(F1) ID (hereinafter referred to as “target drug ID”) of a pharmaceutical product (hereinafter referred to as “target drug”) to be added or updated in the attached
(F2) New attached document specifying information for specifying a new attached document to be added or updated. For example, when a file of a new attached document has already been created on the
さて、入力装置305を介して対象薬IDと新規添付文書特定情報が入力され、追加・更新処理の開始が指示されると、前処理制御部113は追加・更新処理を開始する。そして、ステップS801で前処理制御部113は、入力された対象薬IDを検索キーとして学習結果テーブル204を検索し、入力された対象薬IDをIDとして持つエントリが学習結果テーブル204にあるか否かを確認する。
When the target drug ID and the new attached document specifying information are input via the
入力された対象薬IDをIDとして持つエントリが学習結果テーブル204にある場合は、登録済みの添付文書202の更新のために追加・更新処理の開始が指示されたということなので、処理はステップS802に移行する。他方、入力された対象薬IDをIDとして持つエントリが学習結果テーブル204にない場合は、新たな医薬品についての添付文書202の追加のために追加・更新処理の開始が指示されたということなので、処理はステップS803に移行する。
If there is an entry having the input target drug ID as an ID in the learning result table 204, it means that the start of the addition / update process has been instructed to update the registered attached
ステップS802で前処理制御部113は、対象薬の添付文書202を、新規添付文書特定情報により特定される新規添付文書で置換する。そして、処理はステップS805に移行する。
In step S802, the
また、ステップS803で前処理制御部113は、新規添付文書特定情報により特定される新規添付文書を、対象薬の添付文書202として添付文書群201に追加する。そして、処理はステップS804に移行する。なお、本実施形態では上述のごとく、添付文書202のファイル名が医薬品のIDを含むので、ステップS802とS803で前処理制御部113は適宜ファイル名の付け替えも行う。
In step S803, the
ステップS804で前処理制御部113は、対象薬についてのエントリを学習結果テーブル204に追加する。つまり、前処理制御部113は、入力装置305を介して指定された対象薬IDを「ID」フィールドに設定し、かつ他のフィールドを空に初期化したエントリを、学習結果テーブル204に追加する。そして、処理はステップS805に移行する。
In step S804, the
ステップS805で前処理制御部113は、効能・効果キーワード抽出部111に対して、対象薬の添付文書202の「効能又は効果」セクションからキーワードを抽出して学習結果テーブル204に登録するよう命令する。そして、効能・効果キーワード抽出部111は命令にしたがってキーワード抽出と学習結果テーブル204への登録を行う。なお、ステップS805は、図11のステップS504と類似の処理であり、違いはキーワード抽出の対象がどの医薬品の添付文書202かという点だけなので、詳細な説明は割愛する。
In step S805, the
そして、次のステップS806で前処理制御部113は、副作用キーワード抽出部107に対して、対象薬の添付文書202の「副作用」セクションからキーワードを抽出して学習結果テーブル204に登録するよう命令する。そして、副作用キーワード抽出部107は命令にしたがってキーワード抽出と学習結果テーブル204への登録を行う。なお、ステップS806は、図11のステップS505と類似の処理であり、違いはキーワード抽出の対象がどの医薬品の添付文書202かという点だけなので、詳細な説明は割愛する。また、ステップS805とS806の実行順序は逆でもよい。
In step S806, the
さらに、次のステップS807で前処理制御部113は、添付文書202が登録されている医薬品の数を求め、求めた数を変数Nに代入して記憶する。
そして、次のステップS808で前処理制御部113は、類薬判定・学習部112に対して対象薬の類薬を学習するよう命令し、類薬判定・学習部112は対象薬の類薬を学習する。すなわち、ステップS808で類薬判定・学習部112が行う処理は図12に示した類薬学習処理である。また、ステップS808で前処理制御部113は、追加・更新処理の開始時に指定された対象薬IDを、学習対象薬IDとして類薬判定・学習部112に通知するとともに、学習対象薬との比較範囲を1番目からN番目と指定する。
Further, in the next step S807, the
In the next step S808, the
なお、図12のステップS601に示したように、類薬判定・学習部112は学習結果テーブル204に学習済みの類薬リストを使って類薬学習リストを初期化する。よって、添付文書202の更新のために図14の追加・更新処理が行われる場合、対象薬に関して学習結果テーブル204に学習済みの、対象薬の類薬リストの内容は消えない。
Note that, as shown in step S601 of FIG. 12, the similar drug determination / learning
以上のとおり、本実施形態によれば、類薬処理部103は、判定対象薬ID206で特定される判定対象薬に関して、予め類薬リストの学習を行う。前処理の段階ではどの医薬品が判定対象薬かは決まってはいないが、判定対象薬に注目した観点から前処理を説明しなおせば下記のとおりである。
As described above, according to the present embodiment, the analog
すなわち、効能・効果キーワード抽出部111は、判定対象薬及び判定対象薬以外の他の医薬品のそれぞれの添付文書202における効能又は効果の記載部分に対して語句抽出処理を行って効能効果語句集合を取得する効能効果語句抽出手段の一例である。本実施形態では、取得された効能効果語句集合は、学習結果テーブル204の「効能・効果キーワード群」フィールドに格納される。
That is, the efficacy / effect keyword extraction unit 111 performs a phrase extraction process on the description part of the efficacy or effect in the attached
また、類薬判定・学習部112は、判定対象薬以外の他の医薬品の少なくとも一部について、それぞれ、判定対象薬の類薬か否かの判定を行う第1の類薬判定手段の一例である。第1の類薬判定手段としての類薬判定・学習部112は、他の医薬品に関して取得された効能効果語句集合に含まれる語句と、判定対象薬に関して取得された効能効果語句集合に含まれる語句との組み合わせを、キーワード類似度評価部109に評価させる。
The similar drug determination / learning
さらに、第1の類薬判定手段としての類薬判定・学習部112は、複数の組み合わせについての評価を集計することで、判定対象薬と、選択薬として注目している当該他の医薬品との間の効能又は効果の類似度を示す値を算出する。つまり、類薬判定・学習部112は、キーワード類似度評価部109による評価の集計として、具体的には、一致の基準を満たす語句のうちで上位3位までの点数を選び出して正規化する処理を行う。
Furthermore, the similar drug determination / learning
そして、第1の類薬判定手段としての類薬判定・学習部112は、上記のように集計によって算出した、類似度を示す値を、閾値γ1と比較する。そして、類薬判定・学習部112は、算出した値の示す類似度が閾値γ1の示す類似度よりも高いとき、当該他の医薬品を判定対象薬の類薬と判定する。よって、類薬リストを参照して判定対象薬の類薬を認識する類薬認識部105は、第1の類薬判定手段としての類薬判定・学習部112の判定結果にしたがって類薬を認識していると言える。
Then, the analog drug determination / learning
また、第1の類薬判定手段としての類薬判定・学習部112による判定は、判定対象薬以外の他の医薬品の少なくとも一部について行われると説明したが、「少なくとも一部」という意味は次のとおりである。
In addition, it has been described that the determination by the similar drug determination / learning
すなわち、第1の類薬判定手段としての判定は、本実施形態では図12のステップS613とS614において行われる。そして、ステップS613は、必ずしもすべての医薬品について実行されるわけではない。 In other words, the determination as the first analog determination unit is performed in steps S613 and S614 in FIG. And step S613 is not necessarily performed about all the pharmaceutical products.
つまり、類薬判定・学習部112は、判定対象薬以外の複数の他の医薬品のうち、添付文書202に記載されている薬効分類名、基準名、一般名、化学名又は構造式が判定対象薬と一致する医薬品を類薬と判定する第2の類薬判定手段としての機能も実現する。そして、類薬判定・学習部112は、第2の類薬判定手段として図12のステップS607〜S612の処理を行い、第2の類薬判定手段としては類薬と判定しなかった医薬品についてのみ、第1の類薬判定手段としてステップS613〜S614の処理を行う。
That is, the medicinal product determination / learning
そのため、第1の類薬判定手段としての類薬判定・学習部112が判定を行う対象は、判定対象薬以外の他の医薬品のすべてとは限らない。よって、上記の説明では「少なくとも一部」と述べた。このように、ステップS607〜S612の処理と比べて複雑なステップS613〜S614の処理を行う対象を一部の類薬に限ることで、無駄な処理負荷を減らすことができる。
Therefore, the target for determination by the similar drug determination / learning
ところで、本発明は上記実施形態に限られるものではない。上記の説明においてもいくつかの変形について説明したが、上記実施形態は、さらに例えば下記(g1)〜(g8)の観点から様々に変形することもでき、これらの変形は、相互に矛盾しない限り、任意に組み合わせることが可能である。 By the way, the present invention is not limited to the above embodiment. Although some modifications have been described in the above description, the above embodiment can be further modified variously from the viewpoints of (g1) to (g8) below, for example, as long as these modifications do not contradict each other. Any combination is possible.
(g1)図7の点数計算処理に関する変形
キーワード抽出のアルゴリズムによっては、キーワード類似度評価部109が行う図7の点数計算処理が変形され、また、あわせて学習結果テーブル204の効能・効果キーワード群と副作用キーワード群のデータ形式が変形されてもよい。
(G1) Modification Regarding Score Calculation Processing in FIG. 7 Depending on the keyword extraction algorithm, the score calculation processing in FIG. The data format of the side effect keyword group may be modified.
具体的には、副作用キーワード抽出部107が形態素解析を利用してキーワード抽出を行う場合、キーワード類似度評価部109が図6のステップS205で行う図7の点数計算処理は、以下のように変形されてもよい。同様に、効能・効果キーワード抽出部111が形態素解析を利用してキーワード抽出を行う場合、キーワード類似度評価部109が図13のステップS706で行う図7の点数計算処理は、以下のように変形されてもよい。
Specifically, when the side effect
すなわち、図7の点数計算処理は、キーワードを部分文字列に分割する分割位置を形態素区切りの位置に限定するように変形されてもよい。
図7の点数計算処理のアルゴリズムは、キーワードAとBの双方について、すべての可能な分割パターンを網羅するように調べ上げる方針にしたがう。よって、図7の点数計算処理では、キーワード内の任意の位置が、部分文字列同士を分割する分割位置になりうる。
That is, the score calculation process of FIG. 7 may be modified so that the division position for dividing the keyword into partial character strings is limited to the morpheme division position.
The score calculation algorithm in FIG. 7 follows a policy of examining all the possible division patterns for both keywords A and B. Therefore, in the score calculation process of FIG. 7, an arbitrary position in the keyword can be a division position for dividing the partial character strings.
つまり、キーワード類似度評価部109は、2つの語句同士の類似度を求めるのに、2つの語句について、それぞれの語句内で互いに隣接する任意の2文字の間で分割する分割パターンとして可能な分割パターン同士のすべての組み合わせについての評価を集計する。なお、ここでの「集計」とは、図7の例では具体的には最高の評価を選び出すことに相当する。
That is, the keyword
そのため、図7に示した上記実施形態では、キーワード類似度評価部109が考慮する分割パターンの組み合わせの数が多く、キーワード類似度評価部109の処理負荷が高い。
Therefore, in the embodiment shown in FIG. 7, the number of combinations of division patterns considered by the keyword
それに対し、キーワードを部分文字列に分割する分割位置を形態素区切りの位置に限定するように変形された点数計算処理においては、キーワードAとBそれぞれに関する分割パターンの数が限定されるので、組み合わせの数も少なく抑えられる。よって、キーワード類似度評価部109の処理負荷も減る。
On the other hand, in the score calculation process modified so as to limit the division position for dividing the keyword into partial character strings to the morpheme division position, the number of division patterns for each of the keywords A and B is limited. The number can be kept small. Therefore, the processing load of the keyword
例えば、図9に例示した「全身麻酔剤」というキーワード601は5文字なので、図7の点数計算処理では、キーワード601に対して16(=25−1)通りの分割パターンが考慮される。
For example, since the
他方、キーワード601が形態素解析の結果を利用して抽出されたものであるとすると、上記のように変形された点数計算処理においては、キーワード601に対して可能な分割パターンの数はごく少数である。
On the other hand, if the
例えば、「全身麻酔剤」というキーワード601は、「全身」という名詞と「麻酔」という名詞と「剤」という名詞の連なりとして、形態素解析の結果から得られたものだとする。すると、キーワード601内に形態素区切りの位置は2箇所しかないので、上記のように変形された点数計算処理においては、キーワード601に対して可能な分割パターンの数は4(=22)通りしかない。すなわち、この例では、図9に示した3通りの分割パターン603a〜603cと、「全身/麻酔剤」という分割パターンという合計4通りのみが可能な分割パターンである。
For example, it is assumed that the
したがって、上記のように変形された点数計算処理は、図7の点数計算処理と比べると、キーワード類似度評価部109の計算負荷を少なくする効果を奏する。逆に、上記の変形された点数計算処理と比べて図7の点数計算処理の方が優れている点としては、形態素解析用の辞書に登録されていない未知語に対する頑健性(robustness)が挙げられる。
Therefore, the score calculation process modified as described above has an effect of reducing the calculation load of the keyword
また、上記のように変形された点数計算処理をキーワード類似度評価部109が行えるようにするために、学習結果テーブル204が変形されてもよい。例えば、学習結果テーブル204は、副作用キーワード抽出部107が形態素解析の結果を用いて抽出した各キーワードにおける形態素区切りの位置を示す情報を含むように変形されてもよい。形態素区切りの位置を示す情報は、例えば、学習結果テーブル204の新たなフィールドに格納されてもよいし、「副作用キーワード群」フィールド自体に含まれてもよい。
In addition, the learning result table 204 may be modified so that the keyword
例えば、副作用キーワード抽出部107は、適宜のデリミタ文字を用いたり所定の文法にしたがってマークアップしたりすることで形態素区切りの位置を示したキーワードを、副作用キーワード群の各要素として学習結果テーブル204に記録してもよい。あるいは、副作用キーワード抽出部107は、副作用キーワード群内の各キーワードに関する形態素区切りの位置を示す情報を、学習結果テーブル204の新たなフィールドに記録してもよい。
For example, the side effect
もちろん、効能・効果キーワード抽出部111と「効能・効果キーワード群」フィールドに関しても、上記と同様の変形が可能である。
そして、学習結果テーブル204が形態素区切りの位置を示す情報を保持していれば、副作用判定・学習部108又は類薬判定・学習部112は、学習結果テーブル204から形態素区切りの位置を示す情報を容易に読み出すことができる。
Of course, the effect / effect keyword extraction unit 111 and the “effect / effect keyword group” field can be modified in the same manner as described above.
If the learning result table 204 holds information indicating the position of the morpheme break, the side effect determination /
よって、副作用判定・学習部108は図6のステップS205において、選択キーワードにおける形態素区切りの位置を示す情報をキーワード類似度評価部109に通知することができる。
Therefore, the side effect determination /
また、副作用キーワード抽出部107は、図3のステップS104で安全性情報報告文書205から形態素解析により選択副作用を抽出している場合には、選択副作用における形態素区切りの位置を示す情報を副作用判定・学習部108に通知することもできる。よって、副作用判定・学習部108は、副作用キーワード抽出部107から通知された情報をキーワード類似度評価部109に通知することができ、キーワード類似度評価部109は選択副作用における形態素区切りの位置を認識することができる。
Further, if the selected side effect is extracted from the safety
同様に、類薬判定・学習部112は図13のステップS706において、キーワードW1とW2それぞれにおける形態素区切りの位置を示す情報をキーワード類似度評価部109に通知することができる。
Likewise, similar drugs determination and
したがって、キーワード類似度評価部109は、上記のように変形された点数計算処理においては、処理対象の2つのキーワードそれぞれにおける形態素区切りの位置を示す情報を認識することができる。すると、上記のとおり、キーワード類似度評価部109は、キーワードを部分文字列に分割する分割位置を形態素区切りの位置に限定することで、2つのキーワード間の類似度を示す点数を比較的少ない計算量で計算することができる。
Therefore, in the score calculation process modified as described above, the keyword
また、キーワード類似度評価部109は、予め決められた下限より短い部分文字列を含まない分割パターン同士の組み合わせについてのみ、図7のステップS306〜S314の処理を行ってもよい。例えば、下限が「2文字」あるいは「4バイト」などと決められていてもよい。すると、計算量が削減される効果も得られ、例えば「心臓」を含むキーワードと「腎臓」を含むまったく異なるキーワードとの間で「臓」という1文字の一致に起因してノイズ的に上乗せされる分の点数の影響も排除することができる。
Further, the keyword
(g2)類薬の学習を行うタイミングに関する変形
上記実施形態では、図12の類薬学習処理が図11のステップS509と図14のステップS808において行われる。すなわち、類薬は、図3の処理が実行される前に学習される。つまり、上記実施形態では、類薬認識部105が、医薬品を一意に識別する識別情報と当該医薬品の類薬とを関連付ける類薬学習結果情報を、格納部101の学習結果テーブル204から読み出すことにより、判定対象薬の類薬を認識する。
(G2) Modification Regarding Timing of Learning Similar Medicine In the above embodiment, the similar medicine learning process of FIG. 12 is performed in step S509 of FIG. 11 and step S808 of FIG. That is, the similar medicine is learned before the processing of FIG. 3 is executed. That is, in the above-described embodiment, the similar
しかし、実施形態によっては、類薬認識部105が類薬処理部103を含んでもよく、その場合、副作用処理部102が図3の処理を行うときに、類薬認識部105内の類薬処理部103が図12の類薬学習処理を行ってもよい。
However, depending on the embodiment, the similar
つまり、類薬処理部103は、上記実施形態のように事前に類薬学習処理を行う代わりに、副作用処理部102が図3の処理を行うときに、その場で類薬学習処理を行ってもよい。具体的には、図3のステップS102の直前に図12の類薬学習処理が行われてもよい。
That is, the similar
なお、その場合には、例えば類薬認識部105が判定対象薬ID206を学習対象薬IDとして類薬判定・学習部112に指定すればよい。また、類薬認識部105は、図14のステップS808で前処理制御部113が類薬判定・学習部112に指定するのと同様に、1番目からN番目までのすべての添付文書202を比較対象の範囲として類薬判定・学習部112に指定する。
In this case, for example, the similar
そして、類薬判定・学習部112が図12の類薬学習処理を終えると、類薬認識部105は、学習された類薬リストをステップS102において取得することができる。あるいは、類薬判定・学習部112は、類薬学習処理の結果を学習結果テーブル204に記録する代わりに、類薬認識部105に類薬学習処理の結果を直接通知してもよい。つまり、実施形態によっては、学習結果テーブル204の類薬リストのフィールドは省略されてもよい。
When the similar drug determination / learning
以上をまとめると、類薬認識手段を実現する類薬認識部105が類薬処理部103を含み、類薬処理部103がステップS102の直前に類薬学習処理を行う場合、類薬認識部105は、複数の医薬品の各々について添付文書202を読み出すことで類薬を認識する。すなわち、類薬認識手段の一部としての類薬処理部103は、複数の医薬品の各々について添付文書202を格納部101から読み出し、読み出した添付文書202を用いて類薬学習処理を行う。すると、類薬学習処理の結果、類薬処理部103を含む類薬認識部105は、複数の他の医薬品の中で判定対象薬に類似する類薬を認識することができる。
In summary, when the analog
また、副作用判定・学習部108又は類薬判定・学習部112による同義語辞書203へのエントリの追加は、ある2つの医薬品同士が類薬か否かの判断に影響を及ぼすことがある。なぜなら、図12の類薬学習処理のステップS613では図13の処理が行われ、図13のステップS706でキーワード類似度評価部109が行う図7の点数計算処理のステップS309では、同義語辞書203が参照されるからである。よって、同義語辞書203へのエントリの追加を契機として不定期に、あるいは適宜の間隔で定期的に、前処理制御部113は類薬判定・学習部112に類薬学習処理の再実行を命じてもよい。
In addition, the addition of an entry to the
(g3)装置構成に関する変形
上記実施形態では、判定装置100が副作用処理部102と類薬処理部103の双方を含むが、類薬処理部103を含む第1の装置と、副作用処理部102を含む第2の装置が、別々に設けられていてもよい。そして、第1の装置が前処理により学習結果テーブル204の既知副作用リスト以外のフィールドを学習し、第2の装置が第1の装置から学習の結果得られた学習結果テーブル204のデータを受け取ってもよい。
(G3) Modification Regarding Device Configuration In the above embodiment, the
第2の装置は、受け取った学習結果テーブル204のデータを、第2の装置がアクセス可能な記憶装置に格納し、参照することができる。よって、第2の装置は自ら前処理を行わなくても、図3の処理を実行することができる。 The second device can store the data of the received learning result table 204 in a storage device accessible by the second device and refer to it. Therefore, the second device can execute the process of FIG. 3 without performing the pre-processing by itself.
また、図1の判定装置100においては、キーワード類似度評価部109が副作用処理部102と類薬処理部103の間で共有されている。しかし、実施形態によっては、副作用処理部102と類薬処理部103にそれぞれ別々のキーワード類似度評価部109が設けられていてもよい。
Further, in the
また、図1では判定装置100の内部に格納部101があるが、格納部101は判定装置100の外部にあってもよい。例えば、判定装置100の格納部101以外の構成要素が図2のコンピュータ300により実現され、格納部101が図2の他のコンピュータ312の記憶装置により実現されてもよい。
Further, in FIG. 1, the storage unit 101 is inside the
(g4)ユーザインタフェースに関する変形
上記実施形態に関して例示したユーザインタフェースは例示に過ぎない。
例えば、副作用判定・学習部108は、図5に示した副作用判定結果画面400以外の形式の画面を出力装置306に表示させてもよい。あるいは、副作用判定・学習部108は、各選択副作用についての判断結果を、Graphical User Interface(GUI)ではなくCommand-Line Interface(CLI)を介して出力してもよい。また、副作用判定・学習部108は、既知の可能性があると判断した副作用に関して、ユーザからの既知か未知かの判断の入力を、図5の副作用判定結果画面400などのGUIを介して受け取ることもできるし、CLIを介して受け取ることもできる。
(G4) Modifications Related to User Interface The user interface illustrated with respect to the above embodiment is merely an example.
For example, the side effect determination /
同様に、ある2つの医薬品同士が類薬か否かに関するユーザの判断結果を類薬判定・学習部112が受け付けるためのユーザインタフェースも、実施形態に応じて任意であり、GUIでもよいしCLIでもよい。
Similarly, the user interface for the analogy medicine determination / learning
また、図3の例では、副作用判定・学習部108は、判定対象薬のすべての類薬について、当該類薬の副作用キーワード群と選択副作用との類似度をステップS112で求めている。しかし、実施形態によっては、副作用判定・学習部108は、判定対象薬の一部の類薬についてのみステップS112の処理を行ってもよい。以下に、判定対象薬に類薬が3つある場合を具体例として挙げて説明する。
In the example of FIG. 3, the side effect determination /
副作用判定・学習部108は、まず1つ目の類薬についてステップS112の処理を行い、その結果得られた類似度がα1以上であれば、「選択副作用は既知の副作用である」と判断することができる。よって、副作用判定・学習部108は、ステップS113とS114の処理を行った後、ステップS110に戻らずにすぐにステップS116の処理を実行してもよい。つまり、この場合、副作用判定・学習部108は、選択副作用に関しては、2つ目と3つ目の類薬と判定対象薬との比較を省略してもよい。
The side effect determination /
また、場合によっては、1つ目の類薬に関して行ったステップS112の処理の結果として得られた類似度がα1未満であり、2つ目の類薬に関して行ったステップS112の処理の結果として得られた類似度がα1以上ということもある。その場合、副作用判定・学習部108は、2つ目の類薬に関してステップS113の判断の後にステップS114の処理を行い、その後すぐにステップS116の処理を実行すればよい。
In some cases, resulting similarity of processing first step S112 of performing with respect to similar drugs are the α less than 1, as a result of the processing of step S112 was carried out with respect to the second similar drugs The obtained similarity may be α 1 or more. In this case, the side effect determination /
すなわち、副作用判定・学習部108は、α1以上の類似度が得られるまでは類薬を順々に考慮するが、ある類薬に関してα1以上の類似度が得られれば、残りの類薬についてはステップS111〜S115の処理を省略してもよい。
That is, the side effects judgment and
(g5)データに関する変形
図1には同義語辞書203をテーブル形式で示したが、同義語辞書203のデータ形式は任意である。また、図4の学習結果テーブル204が表すデータも、テーブル以外の任意のデータ形式で表すことができる。例えば、同義語辞書203と学習結果テーブル204は、eXtensible Markup Language(XML)データベースにより実現されてもよい。
(G5) Data-related modification FIG. 1 shows the
なお、同義語辞書203は省略可能である。その場合、同義語辞書203へのエントリの追加処理も省略可能であり、また、部分文字列類似度評価部110は、図7のステップS309で、部分文字列substrと完全一致する部分文字列のみを探す。
The
また、上記実施形態では個々の添付文書202がそれぞれ1つのファイルである場合を例として説明したが、添付文書群201全体が1つのファイルであってもよい。あるいは、学習結果テーブル204と添付文書群201の全体が1つのXMLデータベースファイルにより実現されてもよい。
In the above embodiment, the case where each attached
そして、上記実施形態では、各医薬品のIDとして販売名コードが使われるが、販売名コード以外のデータ(例えば前処理制御部113が自動的に各医薬品に割り付ける連番)がIDとして利用されてもよい。 In the above-described embodiment, the sales name code is used as the ID of each medicine, but data other than the sales name code (for example, a serial number automatically assigned to each medicine by the preprocessing control unit 113) is used as the ID. Also good.
また、図8に示した配点情報501と基準値情報502における具体的数値は一例であり、実施形態に応じて適宜具体的数値は変えることができる。また、例えば図8の基準値情報502によれば、基準値は、取りうる最高点数の定数倍(β倍)として定義されているが、基準値は、取りうる最高点数以下の値であればよく、取りうる最高点数の定数倍でなくてもよい。また、実施形態によっては、βが、ユーザ指定の可能な可変パラメタでもよい。
Moreover, the specific numerical values in the scoring
そして、学習結果テーブル204は、図4に示したフィールドのうち一部が省略されていてもよい。例えば、上記(g2)に関して述べたように、「類薬リスト」フィールドは実施形態によっては省略可能である。 In the learning result table 204, some of the fields illustrated in FIG. 4 may be omitted. For example, as described in the above (g2), the “similar medicine list” field may be omitted depending on the embodiment.
同様に、「効能・効果キーワード群」フィールドと「副作用キーワード群」フィールドも、実施形態によっては省略可能である。つまり、この2つのフィールドをなくす代わりに、キーワード群を使う処理のたびに、効能・効果キーワード抽出部111又は副作用キーワード抽出部107がキーワード抽出を行うことも可能である。
Similarly, the “efficacy / effect keyword group” field and the “side effect keyword group” field may be omitted depending on the embodiment. That is, instead of eliminating these two fields, the efficacy / effect keyword extraction unit 111 or the side effect
例えば、キーワード群を使う処理のたびに副作用キーワード抽出部107がキーワード抽出を行う場合には、副作用キーワード抽出部107によって比較対象集合取得手段を実現することができる。すなわち、比較対象集合取得手段としての副作用キーワード抽出部107は、類薬として認識された医薬品の添付文書202における副作用の記載部分に含まれる語句の集合を比較対象語句集合として取得する。
For example, when the side effect
具体的には、比較対象集合取得手段としての副作用キーワード抽出部107は、類薬として認識された医薬品の添付文書202を格納部101から読み出す。そして、副作用キーワード抽出部107は、読み出した当該添付文書202における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、比較対象語句集合を取得する。
Specifically, the side effect
また、実施形態によっては、「既知副作用リスト」フィールドも省略可能である。ただし、上記実施形態では、様々な医療機関から同じ自社薬について同じ副作用が複数回報告される可能性を想定して、学習結果テーブル204には「既知副作用リスト」フィールドが設けられている。 In some embodiments, the “known side effect list” field can also be omitted. However, in the above embodiment, a “known side effect list” field is provided in the learning result table 204 on the assumption that the same side effect may be reported multiple times for the same in-house drug from various medical institutions.
つまり、ある副作用の発生が初めて医療機関から製薬会社に報告されてから、添付文書202の改訂が行われるまでの期間中は、当該副作用は周知ではないので、異なる医療機関がそれぞれ製薬会社に当該副作用の報告を行うかもしれない。その場合に、判定装置100あるいはユーザが同じ判断を何度も繰り返さなくてもよいように、上記実施形態では学習結果テーブル204が「既知副作用リスト」フィールドを備え、副作用判定・学習部108が「既知副作用リスト」フィールドの学習を行う。
In other words, since the side effect is not known during the period from the time when the occurrence of a side effect is first reported to the pharmaceutical company by the medical institution until the revision of the
なお、以上例示したようなフィールドの省略とは逆に、学習結果テーブル204は、図4にないフィールドをさらに有していてもよい。例えば、判定装置100が製薬会社において運用される場合、学習結果テーブル204は、自社薬か他社薬かを示すフラグのフィールドを有していてもよい。すると、類薬の学習を行う学習対象薬を自社薬に限定することができるようになる。
Contrary to the omission of fields as exemplified above, the learning result table 204 may further include fields not shown in FIG. For example, when the
上記実施形態における図11と14の処理は、各医薬品がどの製薬会社の製品かによらない処理であり、判定装置100が製薬会社以外の第3者機関で運用される場合にも適用可能な処理である。それに対し、判定装置100が製薬会社で運用される場合は、安全性情報報告文書205は自社薬に関するもののみである。よって、他社薬同士が類薬か否かという情報は必要ではなく、自社薬同士が類薬か否か、自社薬と他社薬が類薬か否か、という情報さえあれば十分である。
The processing of FIGS. 11 and 14 in the above-described embodiment is processing that does not depend on which pharmaceutical company each pharmaceutical product is, and can be applied when the
そこで、例えば、前処理制御部113は、図11のステップS509の類薬学習処理を類薬判定・学習部112に行わせる前に、i番目の医薬品のIDに対応する学習結果テーブル204内のエントリにおける上記フラグの値を参照する。すると、前処理制御部113は、フラグの値から、i番目の医薬品が自社薬か否かを判断することができる。
Therefore, for example, the
そして、i番目の医薬品が自社薬なら、前処理制御部113はステップS509のとおり類薬判定・学習部112に類薬学習処理を行わせる。他方、i番目の医薬品が他社薬なら、ステップS509は省略される。
If the i-th drug is an in-house drug, the
また、図14の処理は次のように変形されてもよい。すなわち、前処理制御部113は、ステップS806の後で、対象薬IDに対応する学習結果テーブル204のエントリにおいて上記フラグの値を参照し、対象薬が自社薬か否かを判断する。そして、対象薬が自社薬の場合は、図14と同様に前処理制御部113はステップS807の処理を実行し、ステップS808で類薬判定・学習部112に類薬学習処理を行わせればよい。
Further, the processing of FIG. 14 may be modified as follows. That is, after step S806, the
他方、対象薬が他社薬の場合、前処理制御部113は、各自社薬について、当該自社薬を学習対象薬として図12の類薬学習処理を行うよう類薬判定・学習部112に命令する。その際、前処理制御部113は、類薬学習処理を行う比較範囲を、図14における対象薬(つまり添付文書202の追加又は更新があった他社薬)のみに限定するよう、類薬判定・学習部112に指定すればよい。
On the other hand, when the target drug is another company's drug, the
以上のように前処理を変形することで、自社薬についてのみ効率よく類薬処理部103が類薬の学習を行うことが可能となる。
また、図4の例では学習結果テーブル204の既知副作用リストの要素は、既知と判定された副作用である。しかし、実施形態によっては、どの類薬を根拠として副作用が既知と判定されたのかを示す類薬IDと当該副作用とのペアが、既知副作用リストの各要素として記録されてもよい。つまり、図3のステップS116又はS117における学習の際に、副作用判定・学習部108は、既知副作用学習リスト又は既知副作用候補リスト内のIDを副作用と対応づけたペアを、学習結果テーブル204の既知副作用リストに追加してもよい。
By modifying the pre-processing as described above, it becomes possible for the similar
In the example of FIG. 4, the elements of the known side effect list in the learning result table 204 are side effects determined to be known. However, depending on the embodiment, a pair of the similar drug ID indicating which side effect is determined to be known based on which similar drug may be recorded as each element of the known side effect list. That is, during the learning in step S116 or S117 in FIG. 3, the side effect determination /
(g6)点数正規化処理に関する変形
図10の点数正規化処理は、上位3位までの点数を引数とする。しかし、Tを2以上の任意の整数として、点数正規化処理は、上位T位までの点数を引数とするように変形されてもよい。その場合も、点数正規化処理を行う副作用判定・学習部108又は類薬判定・学習部112は、NULLではなく具体的に値の与えられているt個(t≦T)の引数を使って、t個の引数の値の2乗平均平方根を、正規化した値として算出すればよい。
(G6) Modification related to point normalization processing The point normalization processing in FIG. 10 uses the upper three points as arguments. However, the score normalization process may be modified so that the score up to the upper T rank is used as an argument, where T is an arbitrary integer of 2 or more. Even in that case, the side effect determination /
あるいは、副作用判定・学習部108又は類薬判定・学習部112は、複数の点数の2乗平均平方根ではなく、複数の点数の相加平均、相乗平均、重み付き平均などを、複数の点数を正規化した点数として求めてもよい。
Alternatively, the side effect determination /
(g7)配点に関する変形
上記実施形態では、類薬判定・学習部112がキーワード類似度評価部109に行わせる点数計算処理と、副作用判定・学習部108がキーワード類似度評価部109に行わせる点数計算処理で、同じ図8の配点情報501が使われる。しかし、実施形態によっては、類薬判定・学習部112がキーワード類似度評価部109に行わせる点数計算処理用の配点情報とは別の配点情報が、副作用判定・学習部108がキーワード類似度評価部109に行わせる点数計算処理で用いられてもよい。
(G7) Modification Regarding Scoring In the above embodiment, the score calculation process that the analog medicine determination / learning
その場合、2種類の配点情報が使い分けられるのにあわせて、2種類の基準値情報が使い分けられてもよい。つまり、図6のステップS206における一致の基準と、図13のステップS707における一致の基準は別の基準でもよい。 In that case, two types of reference value information may be used properly in accordance with the two types of scoring information being used properly. In other words, the matching criterion in step S206 in FIG. 6 and the matching criterion in step S707 in FIG. 13 may be different criteria.
また、図7のステップS309において、部分文字列同士が完全に一致する場合と同義語として一致する場合で、ステップ310で加算される配点が異なっていてもよい。つまり、図8の配点情報501は、長さごとに配点を定義する情報だが、配点情報501において、長さごとに、完全一致用の配点と同義語一致用の配点がそれぞれ定義されていてもよい。その場合、同じ長さに対応する完全一致用の配点は、同義語一致用の配点以上となるよう定義される。
Further, in step S309 in FIG. 7, the points added in
(g8)キーワード抽出に関する変形
上記実施形態では、副作用キーワード抽出部107は添付文書202の「副作用」セクションからキーワードを抽出する。しかし、実施形態によっては、副作用キーワード抽出部107はさらに、添付文書202の「相互作用」セクションなどの他のセクションからもキーワードを抽出し、学習結果テーブル204の「副作用キーワード群」に加えてもよい。
(G8) Modification Regarding Keyword Extraction In the above embodiment, the side effect
同様に、効能・効果キーワード抽出部111は添付文書202の「効能又は効果」セクションだけではなく「薬効薬理」セクションなどの他のセクションからもキーワードを抽出し、学習結果テーブル204の「効能・効果キーワード群」に加えてもよい。
Similarly, the efficacy / effect keyword extraction unit 111 extracts keywords from not only the “efficacy or effect” section of the attached
また、上記実施形態に関して、副作用キーワード抽出部107と効能・効果キーワード抽出部111がそれぞれ行うキーワード抽出のアルゴリズムをいくつか例示した。しかし、キーワード抽出のアルゴリズムは上記に例示したものに限らない。例えば、副作用キーワード抽出部107又は効能・効果キーワード抽出部111は、ストップワードリストを持っていてもよく、ストップワードリスト中のストップワードはキーワードとして抽出しないようにしてもよい。例えば、添付文書202に使われる用語の中では、「患者」や「投与」などの語がストップワードに含まれていてもよい。
Further, regarding the above-described embodiment, several examples of keyword extraction algorithms respectively performed by the side effect
また、上記実施形態に関しては、形態素解析の結果を利用するキーワード抽出の例として、名詞の連なりをキーワードとして抽出する手法を例示したが、キーワードは名詞の連なりでなくてもよい。例えば、副作用キーワード抽出部107又は効能・効果キーワード抽出部111は、形態素解析の結果から、形容詞と当該形容詞に後続する名詞の連なりの全体を、キーワードとして抽出してもよい。
In the above embodiment, as an example of keyword extraction using the result of morphological analysis, a technique of extracting a series of nouns as a keyword has been illustrated. However, the keyword may not be a series of nouns. For example, the side effect
また、このようにキーワードの中に複数種類の品詞が含まれる場合、同義語辞書203には、品詞の差を越えた同義語の対が登録されていてもよい。例えば、「上昇」と「高い」を対にしたエントリが、予め同義語辞書203に登録されていてもよい。すると、「血圧上昇」と「高い血圧」という2つのキーワードに対して図7の点数計算処理によって計算される点数もある程度高くなり、キーワードの意味をより良く点数に反映することも可能となる。
Further, when a plurality of types of parts of speech are included in the keyword as described above, the
最後に、上記の種々の実施形態に関して、さらに下記の付記を開示する。
(付記1)
医薬品を特定するための情報を受け付け、前記情報が示す前記医薬品を判定対象薬として特定する特定手段と、
前記判定対象薬の副作用について記載した報告文書を取得する報告文書取得手段と、
医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識する類薬認識手段と、
語句内に含まれる部分文字列同士の類似度を評価するのに、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与える部分文字列類似度評価手段と、
2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を前記文字列類似度評価手段に評価させ、前記文字列類似度評価手段による評価の結果を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する語句類似度評価手段と、
前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出する副作用語句抽出手段と、
前記類薬認識手段により前記類薬として認識された医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬認識手段により前記類薬として認識された前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識された前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識された前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得する比較対象集合取得手段と、
前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを、前記語句類似度評価手段に評価させ、評価の結果と第1の閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定する判定手段と、
前記判定手段による判定結果を出力する出力手段
を備えることを特徴とする情報処理装置。
(付記2)
前記判定対象薬の添付文書を前記格納手段から読み出し、該添付文書における効能又は効果の記載部分に対して語句抽出処理を行って第1の効能効果語句集合を取得し、前記複数の他の医薬品それぞれについて当該医薬品の添付文書を前記格納手段から読み出し、該添付文書における効能又は効果の記載部分に対して語句抽出処理を行って当該他の医薬品に関する第2の効能効果語句集合を取得する効能効果語句抽出手段と、
前記複数の他の医薬品の少なくとも一部について、それぞれ、
当該他の医薬品に関して取得された前記第2の効能効果語句集合に含まれる語句と、前記第1の効能効果語句集合に含まれる語句との組み合わせを、前記語句類似度評価手段に評価させ、
複数の組み合わせについての評価を集計することで、前記判定対象薬と当該他の医薬品との間の効能又は効果の類似度を示す値を算出し、
算出した前記値を第2の閾値と比較し、
算出した前記値の示す類似度が前記第2の閾値の示す類似度よりも高いとき、当該他の医薬品を前記判定対象薬の類薬と判定し、前記判定対象薬の前記識別情報と当該他の医薬品を関連付けるように前記格納手段上の前記類薬学習結果情報を更新する第1の類薬判定手段と、
をさらに備え、
前記類薬認識手段は、前記第1の類薬判定手段の判定結果にしたがって前記判定対象薬の前記類薬を認識する
ことを特徴とする付記1に記載の情報処理装置。
(付記3)
前記複数の他の医薬品のうち、前記添付文書に記載されている薬効分類名、基準名、一般名、化学名又は構造式が前記判定対象薬と一致する医薬品を、前記類薬と判定し、前記類薬と判定した当該医薬品を前記判定対象薬の前記識別情報と関連付けるように前記格納手段上の前記類薬学習結果情報を更新する第2の類薬判定手段をさらに備え、
前記第1の類薬判定手段は、前記複数の他の医薬品のうち前記第2の類薬判定手段により前記類薬として判定されていない医薬品について、前記類薬か否かの判定を行い、
前記類薬認識手段は、前記第2の類薬判定手段と前記第1の類薬判定手段双方の判定結果にしたがって前記判定対象薬の前記類薬を認識する
ことを特徴とする付記2に記載の情報処理装置。
(付記4)
前記語句類似度評価手段は、前記2つの語句について、それぞれの語句内で互いに隣接する任意の2文字の間で分割する分割パターンとして可能な分割パターン同士のすべての組み合わせについての評価を集計することで、前記2つの語句同士の前記類似度を求める
ことを特徴とする付記1から3のいずれか1項に記載の情報処理装置。
(付記5)
前記語句類似度評価手段は、前記2つの語句各々を形態素区切りの位置で分割する分割パターンのみを用いて前記2つの語句同士の前記類似度を求める
ことを特徴とする付記1から3のいずれか1項に記載の情報処理装置。
(付記6)
コンピュータに、
医薬品を特定するための情報を受け付け、
前記情報が示す前記医薬品を判定対象薬として特定し、
前記判定対象薬の副作用について記載した報告文書を取得し、
医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識し、
前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出し、
前記類薬として認識した医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬として認識した前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識した前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識した前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得し、
前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを評価し、評価の結果と第1の閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定し、
前記判定対象副作用語句が示す前記副作用が既知の副作用か否かの判定結果を出力する
ことを含む副作用判定処理を実行させ、
前記比較対象語句集合に含まれる前記語句と前記判定対象副作用語句との前記組み合わせの評価のために、語句類似度評価処理として、
2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与えるようにして評価し、
前記部分文字列同士について評価した前記類似度を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、
前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する
ことを含む処理を実行させる判定プログラム。
(付記7)
前記副作用判定処理は、さらに、
前記判定対象薬の添付文書を前記格納手段から読み出し、該添付文書における効能又は効果の記載部分に対して語句抽出処理を行って第1の効能効果語句集合を取得し、
前記複数の他の医薬品それぞれについて当該医薬品の添付文書を前記格納手段から読み出し、該添付文書における効能又は効果の記載部分に対して語句抽出処理を行って当該他の医薬品に関する第2の効能効果語句集合を取得する
ことを含み、
前記判定プログラムは、前記コンピュータに、
前記複数の他の医薬品の少なくとも一部について、それぞれ、
当該他の医薬品に関して取得された前記第2の効能効果語句集合に含まれる語句と、前記第1の効能効果語句集合に含まれる語句との組み合わせを、前記語句類似度評価処理により評価し、
複数の組み合わせについての評価を集計することで、前記判定対象薬と当該他の医薬品との間の効能又は効果の類似度を示す値を算出し、
算出した前記値を第2の閾値と比較し、算出した前記値の示す類似度が前記第2の閾値の示す類似度よりも高いとき、当該他の医薬品を前記判定対象薬の類薬と判定し、前記判定対象薬の前記識別情報と当該他の医薬品を関連付けるように前記格納手段上の前記類薬学習結果情報を更新する
ことを含む第1の類薬判定処理をさらに実行させ、
前記第1の類薬判定処理の判定結果にしたがって前記判定対象薬の前記類薬を認識させる、
ことを特徴とする付記6に記載の判定プログラム。
(付記8)
前記判定プログラムは、
前記複数の他の医薬品のうち、前記添付文書に記載されている薬効分類名、基準名、一般名、化学名又は構造式が前記判定対象薬と一致する医薬品を、前記類薬と判定し、前記類薬と判定した当該医薬品を前記判定対象薬の前記識別情報と関連付けるように前記格納手段上の前記類薬学習結果情報を更新する第2の類薬判定処理を前記コンピュータに実行させ、
前記複数の他の医薬品のうち前記第2の類薬判定処理により前記類薬として判定されていない医薬品を対象として、前記コンピュータに前記第1の類薬判定処理を行わせ、
前記第2の類薬判定処理と前記第1の類薬判定処理双方の判定結果にしたがって前記コンピュータに前記判定対象薬の前記類薬を認識させる
ことを特徴とする付記7に記載の判定プログラム。
(付記9)
前記語句類似度評価処理は、前記2つの語句について、それぞれの語句内で互いに隣接する任意の2文字の間で分割する分割パターンとして可能な分割パターン同士のすべての組み合わせについての評価を集計することで、前記2つの語句同士の前記類似度を求めることを含む
ことを特徴とする付記6から8のいずれか1項に記載の判定プログラム。
(付記10)
前記語句類似度評価処理は、前記2つの語句各々を形態素区切りの位置で分割する分割パターンのみを用いて前記2つの語句同士の前記類似度を求めることを含む
ことを特徴とする付記6から8のいずれか1項に記載の判定プログラム。
(付記11)
コンピュータが、
医薬品を特定するための情報を受け付け、
前記情報が示す前記医薬品を判定対象薬として特定し、
前記判定対象薬の副作用について記載した報告文書を取得し、
医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識し、
前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出し、
前記類薬として認識した医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬として認識した前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識した前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識した前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得し、
前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを評価し、評価の結果と第1の閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定し、
前記判定対象副作用語句が示す前記副作用が既知の副作用か否かの判定結果を出力し、
前記比較対象語句集合に含まれる前記語句と前記判定対象副作用語句との前記組み合わせの評価のために、語句類似度評価処理として、
2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与えるようにして評価し、
前記部分文字列同士について評価した前記類似度を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、
前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する
ことを含む処理を実行する
ことを特徴とする判定方法。
(付記12)
前記コンピュータが、さらに、
前記判定対象薬の添付文書を前記格納手段から読み出し、該添付文書における効能又は効果の記載部分に対して語句抽出処理を行って第1の効能効果語句集合を取得し、
前記複数の他の医薬品それぞれについて当該医薬品の添付文書を前記格納手段から読み出し、該添付文書における効能又は効果の記載部分に対して語句抽出処理を行って当該他の医薬品に関する第2の効能効果語句集合を取得し、
前記複数の他の医薬品の少なくとも一部について、それぞれ、
当該他の医薬品に関して取得された前記第2の効能効果語句集合に含まれる語句と、前記第1の効能効果語句集合に含まれる語句との組み合わせを、前記語句類似度評価処理により評価し、
複数の組み合わせについての評価を集計することで、前記判定対象薬と当該他の医薬品との間の効能又は効果の類似度を示す値を算出し、
算出した前記値を第2の閾値と比較し、算出した前記値の示す類似度が前記第2の閾値の示す類似度よりも高いとき、当該他の医薬品を前記判定対象薬の類薬と判定し、前記判定対象薬の前記識別情報と当該他の医薬品を関連付けるように前記格納手段上の前記類薬学習結果情報を更新する
ことを含む第1の類薬判定処理を実行し、
前記第1の類薬判定処理の判定結果にしたがって前記判定対象薬の前記類薬を認識する、
ことを特徴とする付記11に記載の判定方法。
(付記13)
前記コンピュータが、
前記複数の他の医薬品のうち、前記添付文書に記載されている薬効分類名、基準名、一般名、化学名又は構造式が前記判定対象薬と一致する医薬品を、前記類薬と判定し、前記類薬と判定した当該医薬品を前記判定対象薬の前記識別情報と関連付けるように前記格納手段上の前記類薬学習結果情報を更新する第2の類薬判定処理をさらに実行し、
前記複数の他の医薬品のうち前記第2の類薬判定処理により前記類薬として判定されていない医薬品を対象として、前記第1の類薬判定処理を行い、
前記第2の類薬判定処理と前記第1の類薬判定処理双方の判定結果にしたがって前記判定対象薬の前記類薬を認識する
ことを特徴とする付記12に記載の判定方法。
(付記14)
前記語句類似度評価処理は、前記2つの語句について、それぞれの語句内で互いに隣接する任意の2文字の間で分割する分割パターンとして可能な分割パターン同士のすべての組み合わせについての評価を集計することで、前記2つの語句同士の前記類似度を求めることを含む
ことを特徴とする付記11から13のいずれか1項に記載の判定方法。
(付記15)
前記語句類似度評価処理は、前記2つの語句各々を形態素区切りの位置で分割する分割パターンのみを用いて前記2つの語句同士の前記類似度を求めることを含む
ことを特徴とする付記11から13のいずれか1項に記載の判定方法。
Finally, the following additional notes are disclosed regarding the various embodiments described above.
(Appendix 1)
A means for receiving information for identifying a drug, and identifying the drug indicated by the information as a determination target drug;
Report document acquisition means for acquiring a report document describing the side effects of the determination target drug;
By reading from the storage means the identification information that uniquely identifies the drug and the similar drug learning result information from the storage means, or for each of a plurality of drugs, the identification information of the drug and the side effects of the drug And a medicinal product recognition means for recognizing a similar drug to the determination target drug among a plurality of other medicinal products by reading out a package insert including the efficacy or effect of the medicinal product from the storage unit,
To evaluate the similarity between partial character strings included in a phrase, the first length and the second length are added to each other when the first and second partial character strings match. A partial character string similarity evaluation unit that gives a higher evaluation than the evaluation obtained by adding the evaluation when the partial character strings having the same length match each other and the evaluation when the partial character strings having the second length match. ,
By allowing the character string similarity evaluation means to evaluate the similarity between partial character strings obtained by dividing each of the two phrases, and summing up the evaluation results by the character string similarity evaluation means, the 2 Evaluate a combination of division patterns that divide each of the two phrases into one or more partial character strings, and use the evaluation of a plurality of combinations of the division patterns of each of the two phrases to determine the similarity between the two phrases A word similarity evaluation means for evaluating
From the report document, a side effect phrase extracting means for extracting a phrase indicating the side effect of the determination target drug as a determination target side effect phrase;
By reading out a package insert of a medicine recognized as the drug by the drug recognizing means from the storage means and extracting a set of words by a word extraction process from a side effect description part in the package attached, or The medicinal product recognized from the storage means as the medicinal product by a set of words and phrases obtained by the word extraction process from the side effect description part in the package insert of the medicinal product recognized by the medicinal product recognition unit as the medicinal product By reading out the side effect learning result information associated with the identification information, the set of words / phrases included in the description part of the side effect in the package insert of the drug recognized as the similar drug is acquired as a comparison target word / phrase set. A comparison target set acquisition means;
For at least a part of the analogy drug, the phrase similarity evaluation unit evaluates the combination of the word / phrase included in the comparison target word / phrase acquired for the analogy drug and the judgment target side effect word / phrase. A determination means for determining whether or not the side effect indicated by the determination target side effect phrase is a known side effect in the related drug, using the result and the first threshold;
An information processing apparatus comprising: output means for outputting a determination result by the determination means.
(Appendix 2)
The attached document of the determination target drug is read from the storage unit, and a phrase extraction process is performed on the indication of the effect or effect in the attached document to obtain a first effect-effect phrase set, and the plurality of other medicines The efficacy and effect of reading the package insert of the drug for each from the storage means and performing the phrase extraction process on the indication of the effect or effect in the package insert to obtain the second set of effect and effect phrases related to the other drug Word extraction means;
For at least some of the other pharmaceutical products, respectively
The phrase similarity evaluation means evaluates a combination of a phrase included in the second efficacy effect phrase set acquired for the other pharmaceutical product and a phrase included in the first efficacy effect phrase set,
By calculating the evaluation for a plurality of combinations, a value indicating the efficacy or similarity of the effect between the determination target drug and the other drug is calculated,
Comparing the calculated value with a second threshold;
When the similarity indicated by the calculated value is higher than the similarity indicated by the second threshold, the other medicine is determined as an analog of the determination target drug, and the identification information of the determination target drug and the other First analog medicine determination means for updating the analog medicine learning result information on the storage means so as to associate the medicines of
Further comprising
The information processing apparatus according to
(Appendix 3)
Among the plurality of other medicinal products, a medicinal property classification name, a reference name, a common name, a chemical name or a structural formula described in the package insert are determined to be a similar drug, and the medicinal product is determined as the similar drug, A second similar medicine determination means for updating the similar medicine learning result information on the storage means so as to associate the medicine determined as the similar medicine with the identification information of the determination target medicine;
The first similar drug determination means determines whether or not it is the similar drug for a drug that has not been determined as the similar drug by the second similar drug determination means among the plurality of other drug drugs,
The additional drug recognition unit according to
(Appendix 4)
The phrase similarity evaluation means aggregates evaluations for all combinations of division patterns that can be divided into any two characters adjacent to each other in the two phrases. The information processing apparatus according to any one of
(Appendix 5)
Any one of
(Appendix 6)
On the computer,
Accepts information to identify medicines,
The drug indicated by the information is identified as a determination target drug,
Obtain a report document describing the side effects of the determination target drug,
By reading from the storage means the identification information that uniquely identifies the drug and the similar drug learning result information from the storage means, or for each of a plurality of drugs, the identification information of the drug and the side effects of the drug And a medicinal product similar to the determination target drug among a plurality of other medicinal products by reading out the package insert including the efficacy or effect of the medicinal product from the storage unit,
From the report document, the phrase indicating the side effect of the determination target drug is extracted as a determination target side effect phrase,
By reading out a package insert of a medicine recognized as the similar drug from the storage means, and extracting a set of phrases from the side effect description part of the package insert by a phrase extraction process, or from the storage section, the class By reading out the side effect learning result information that associates the set of phrases obtained by the phrase extraction process from the description part of the side effects in the package insert of the drug recognized as a drug with the identification information of the drug recognized as the similar drug, A set of phrases included in the description part of the side effect in the package insert of the drug recognized as the similar drug is obtained as a set of phrases to be compared;
For at least a part of the similar drugs, the combination of the phrase included in the set of comparison target words acquired for the similar drug and the determination target side effect phrase is evaluated, and the result of the evaluation and the first threshold value To determine whether the side effect indicated by the determination target side effect phrase is a known side effect in the related drug,
Executing a side effect determination process including outputting a determination result of whether or not the side effect indicated by the determination target side effect phrase is a known side effect;
In order to evaluate the combination of the phrase included in the comparison target phrase set and the determination target side effect phrase, as a phrase similarity evaluation process,
When the partial character strings of the third length obtained by adding the first length and the second length match the similarity between the partial character strings obtained by dividing each of the two phrases respectively. The evaluation is performed so as to give a higher evaluation than the evaluation obtained by adding the evaluation when the partial character strings of the first length match and the evaluation when the partial character strings of the second length match. ,
Evaluating the combination of division patterns that divide each of the two phrases into one or more partial character strings by counting the similarities evaluated for the partial character strings,
The determination program which performs the process including evaluating the similarity of two said phrases using evaluation about multiple combinations of the division | segmentation pattern of each said two phrases.
(Appendix 7)
The side effect determination process further includes
Reading the attached document of the determination target drug from the storage unit, performing a phrase extraction process on the effect or effect description part in the attached document to obtain a first efficacy effect phrase set,
For each of the plurality of other medicines, a package insert of the drug is read from the storage means, and a phrase extraction process is performed on a description of the effect or effect in the package insert to obtain a second efficacy effect phrase related to the other drug Including obtaining a set,
The determination program is stored in the computer.
For at least some of the other pharmaceutical products, respectively
Evaluating a combination of a phrase included in the second efficacy effect phrase set acquired for the other pharmaceutical product and a phrase included in the first efficacy effect phrase set by the phrase similarity evaluation process,
By calculating the evaluation for a plurality of combinations, a value indicating the efficacy or similarity of the effect between the determination target drug and the other drug is calculated,
The calculated value is compared with a second threshold, and when the similarity indicated by the calculated value is higher than the similarity indicated by the second threshold, the other drug is determined as an analog of the determination target drug And further executing a first drug determination process including updating the drug learning result information on the storage means so as to associate the identification information of the drug to be determined with the other drug.
Recognizing the similar drug of the determination target drug according to the determination result of the first similar drug determination process,
The determination program according to
(Appendix 8)
The determination program is:
Among the plurality of other medicinal products, a medicinal property classification name, a reference name, a common name, a chemical name or a structural formula described in the package insert are determined to be a similar drug, and the medicinal product is determined as the similar drug, Causing the computer to execute a second similar drug determination process for updating the similar drug learning result information on the storage means so as to associate the drug determined to be the similar drug with the identification information of the determination target drug;
For a drug that has not been determined as the similar drug by the second similar drug determination process among the plurality of other drug products, the computer performs the first similar drug determination process,
The determination program according to
(Appendix 9)
The phrase similarity evaluation process totals evaluations for all combinations of division patterns that can be divided into arbitrary two characters adjacent to each other in each of the two phrases. The determination program according to any one of
(Appendix 10)
The phrase similarity evaluation processing includes obtaining the similarity between the two phrases by using only a division pattern that divides each of the two phrases at a morpheme segmentation position. The determination program according to any one of the above.
(Appendix 11)
Computer
Accepts information to identify medicines,
The drug indicated by the information is identified as a determination target drug,
Obtain a report document describing the side effects of the determination target drug,
By reading from the storage means the identification information that uniquely identifies the drug and the similar drug learning result information from the storage means, or for each of a plurality of drugs, the identification information of the drug and the side effects of the drug And a medicinal product similar to the determination target drug among a plurality of other medicinal products by reading out the package insert including the efficacy or effect of the medicinal product from the storage unit,
From the report document, the phrase indicating the side effect of the determination target drug is extracted as a determination target side effect phrase,
By reading out a package insert of a medicine recognized as the similar drug from the storage means, and extracting a set of phrases from the side effect description part of the package insert by a phrase extraction process, or from the storage section, the class By reading out the side effect learning result information that associates the set of phrases obtained by the phrase extraction process from the description part of the side effects in the package insert of the drug recognized as a drug with the identification information of the drug recognized as the similar drug, A set of phrases included in the description part of the side effect in the package insert of the drug recognized as the similar drug is obtained as a set of phrases to be compared;
For at least a part of the similar drugs, the combination of the phrase included in the set of comparison target words acquired for the similar drug and the determination target side effect phrase is evaluated, and the result of the evaluation and the first threshold value To determine whether the side effect indicated by the determination target side effect phrase is a known side effect in the related drug,
Outputs a determination result as to whether the side effect indicated by the determination target side effect phrase is a known side effect,
In order to evaluate the combination of the phrase included in the comparison target phrase set and the determination target side effect phrase, as a phrase similarity evaluation process,
When the partial character strings of the third length obtained by adding the first length and the second length match the similarity between the partial character strings obtained by dividing each of the two phrases respectively. The evaluation is performed so as to give a higher evaluation than the evaluation obtained by adding the evaluation when the partial character strings of the first length match and the evaluation when the partial character strings of the second length match. ,
Evaluating the combination of division patterns that divide each of the two phrases into one or more partial character strings by counting the similarities evaluated for the partial character strings,
A method including: evaluating a similarity between the two words / phrases using an evaluation of a plurality of combinations of division patterns of the two words / phrases.
(Appendix 12)
The computer further comprises:
Reading the attached document of the determination target drug from the storage unit, performing a phrase extraction process on the effect or effect description part in the attached document to obtain a first efficacy effect phrase set,
For each of the plurality of other medicines, a package insert of the drug is read from the storage means, and a phrase extraction process is performed on a description of the effect or effect in the package insert to obtain a second efficacy effect phrase related to the other drug Get a set,
For at least some of the other pharmaceutical products, respectively
Evaluating a combination of a phrase included in the second efficacy effect phrase set acquired for the other pharmaceutical product and a phrase included in the first efficacy effect phrase set by the phrase similarity evaluation process,
By calculating the evaluation for a plurality of combinations, a value indicating the efficacy or similarity of the effect between the determination target drug and the other drug is calculated,
The calculated value is compared with a second threshold, and when the similarity indicated by the calculated value is higher than the similarity indicated by the second threshold, the other drug is determined as an analog of the determination target drug And performing a first medicine determination process including updating the medicine learning result information on the storage means so as to associate the identification information of the medicine to be judged with the other medicine.
Recognizing the similar drug of the determination target drug according to the determination result of the first similar drug determination process,
The determination method according to
(Appendix 13)
The computer is
Among the plurality of other medicinal products, a medicinal property classification name, a reference name, a common name, a chemical name or a structural formula described in the package insert are determined to be a similar drug, and the medicinal product is determined as the similar drug, Further executing a second similar drug determination process for updating the similar drug learning result information on the storage means so as to associate the drug determined as the similar drug with the identification information of the determination target drug,
For the drug that has not been determined as the similar drug by the second similar drug determination process among the plurality of other drugs, the first similar drug determination process is performed,
13. The determination method according to
(Appendix 14)
The phrase similarity evaluation process totals evaluations for all combinations of division patterns that can be divided into arbitrary two characters adjacent to each other in each of the two phrases. The determination method according to any one of
(Appendix 15)
The phrase similarity evaluation processing includes obtaining the similarity between the two phrases using only a division pattern that divides each of the two phrases at a morpheme segmentation position. The determination method according to any one of the above.
100 判定装置
101 格納部
102 副作用処理部
103 類薬処理部
104 判定対象薬指定部
105 類薬認識部
106 報告文書取得部
107 副作用キーワード抽出部
108 副作用判定・学習部
109 キーワード類似度評価部
110 部分文字列類似度評価部
111 効能・効果キーワード抽出部
112 類薬判定・学習部
113 前処理制御部
201 添付文書群
202 添付文書
203 同義語辞書
204 学習結果テーブル
205 安全性情報報告文書
206 判定対象薬ID
300 コンピュータ
301 CPU
302 ROM
303 RAM
304 通信インタフェース
305 入力装置
306 出力装置
307 記憶装置
308 駆動装置
309 バス
310 可搬型記憶媒体
311 ネットワーク
312 他のコンピュータ
400 副作用判定結果画面
401 判定対象薬表示欄
402 判定結果一覧表
403 ラジオボタン
404 学習ボタン
501 配点情報
502 基準値情報
601、602 キーワード
603a〜603c、604a〜604c 分割パターン
DESCRIPTION OF
300
302 ROM
303 RAM
Claims (5)
前記判定対象薬の副作用について記載した報告文書を取得する報告文書取得手段と、
医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識する類薬認識手段と、
語句内に含まれる部分文字列同士の類似度を評価するのに、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与える部分文字列類似度評価手段と、
2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を前記文字列類似度評価手段に評価させ、前記文字列類似度評価手段による評価の結果を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する語句類似度評価手段と、
前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出する副作用語句抽出手段と、
前記類薬認識手段により前記類薬として認識された医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬認識手段により前記類薬として認識された前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識された前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識された前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得する比較対象集合取得手段と、
前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを、前記語句類似度評価手段に評価させ、評価の結果と第1の閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定する判定手段と、
前記判定手段による判定結果を出力する出力手段
を備えることを特徴とする情報処理装置。 A means for receiving information for identifying a drug, and identifying the drug indicated by the information as a determination target drug;
Report document acquisition means for acquiring a report document describing the side effects of the determination target drug;
By reading from the storage means the identification information that uniquely identifies the drug and the similar drug learning result information from the storage means, or for each of a plurality of drugs, the identification information of the drug and the side effects of the drug And a medicinal product recognition means for recognizing a similar drug to the determination target drug among a plurality of other medicinal products by reading out a package insert including the efficacy or effect of the medicinal product from the storage unit,
To evaluate the similarity between partial character strings included in a phrase, the first length and the second length are added to each other when the first and second partial character strings match. A partial character string similarity evaluation unit that gives a higher evaluation than the evaluation obtained by adding the evaluation when the partial character strings having the same length match each other and the evaluation when the partial character strings having the second length match. ,
By allowing the character string similarity evaluation means to evaluate the similarity between partial character strings obtained by dividing each of the two phrases, and summing up the evaluation results by the character string similarity evaluation means, the 2 Evaluate a combination of division patterns that divide each of the two phrases into one or more partial character strings, and use the evaluation of a plurality of combinations of the division patterns of each of the two phrases to determine the similarity between the two phrases A word similarity evaluation means for evaluating
From the report document, a side effect phrase extracting means for extracting a phrase indicating the side effect of the determination target drug as a determination target side effect phrase;
By reading out a package insert of a medicine recognized as the drug by the drug recognizing means from the storage means and extracting a set of words by a word extraction process from a side effect description part in the package attached, or The medicinal product recognized from the storage means as the medicinal product by a set of words and phrases obtained by the word extraction process from the side effect description part in the package insert of the medicinal product recognized by the medicinal product recognition unit as the medicinal product By reading out the side effect learning result information associated with the identification information, the set of words / phrases included in the description part of the side effect in the package insert of the drug recognized as the similar drug is acquired as a comparison target word / phrase set. A comparison target set acquisition means;
For at least a part of the analogy drug, the phrase similarity evaluation unit evaluates the combination of the word / phrase included in the comparison target word / phrase acquired for the analogy drug and the judgment target side effect word / phrase. A determination means for determining whether or not the side effect indicated by the determination target side effect phrase is a known side effect in the related drug, using the result and the first threshold;
An information processing apparatus comprising: output means for outputting a determination result by the determination means.
前記複数の他の医薬品の少なくとも一部について、それぞれ、
当該他の医薬品に関して取得された前記第2の効能効果語句集合に含まれる語句と、前記第1の効能効果語句集合に含まれる語句との組み合わせを、前記語句類似度評価手段に評価させ、
複数の組み合わせについての評価を集計することで、前記判定対象薬と当該他の医薬品との間の効能又は効果の類似度を示す値を算出し、
算出した前記値を第2の閾値と比較し、
算出した前記値の示す類似度が前記第2の閾値の示す類似度よりも高いとき、当該他の医薬品を前記判定対象薬の類薬と判定し、前記判定対象薬の前記識別情報と当該他の医薬品を関連付けるように前記格納手段上の前記類薬学習結果情報を更新する第1の類薬判定手段と、
をさらに備え、
前記類薬認識手段は、前記第1の類薬判定手段の判定結果にしたがって前記判定対象薬の前記類薬を認識する
ことを特徴とする請求項1に記載の情報処理装置。 The attached document of the determination target drug is read from the storage unit, and a phrase extraction process is performed on the indication of the effect or effect in the attached document to obtain a first effect-effect phrase set, and the plurality of other medicines The efficacy and effect of reading the package insert of the drug for each from the storage means and performing the phrase extraction process on the indication of the effect or effect in the package insert to obtain the second set of effect and effect phrases related to the other drug Word extraction means;
For at least some of the other pharmaceutical products, respectively
The phrase similarity evaluation means evaluates a combination of a phrase included in the second efficacy effect phrase set acquired for the other pharmaceutical product and a phrase included in the first efficacy effect phrase set,
By calculating the evaluation for a plurality of combinations, a value indicating the efficacy or similarity of the effect between the determination target drug and the other drug is calculated,
Comparing the calculated value with a second threshold;
When the similarity indicated by the calculated value is higher than the similarity indicated by the second threshold, the other medicine is determined as an analog of the determination target drug, and the identification information of the determination target drug and the other First analog medicine determination means for updating the analog medicine learning result information on the storage means so as to associate the medicines of
Further comprising
The information processing apparatus according to claim 1, wherein the similar drug recognition unit recognizes the similar drug of the determination target drug according to a determination result of the first similar drug determination unit.
前記第1の類薬判定手段は、前記複数の他の医薬品のうち前記第2の類薬判定手段により前記類薬として判定されていない医薬品について、前記類薬か否かの判定を行い、
前記類薬認識手段は、前記第2の類薬判定手段と前記第1の類薬判定手段双方の判定結果にしたがって前記判定対象薬の前記類薬を認識する
ことを特徴とする請求項2に記載の情報処理装置。 Among the plurality of other medicinal products, a medicinal property classification name, a reference name, a common name, a chemical name or a structural formula described in the package insert are determined to be a similar drug, and the medicinal product is determined as the similar drug, A second similar medicine determination means for updating the similar medicine learning result information on the storage means so as to associate the medicine determined as the similar medicine with the identification information of the determination target medicine;
The first similar drug determination means determines whether or not it is the similar drug for a drug that has not been determined as the similar drug by the second similar drug determination means among the plurality of other drug drugs,
The said analogy drug recognition means recognizes the said analogy drug of the said determination object drug according to the determination result of both said 2nd analogy drug determination means and said 1st analogy drug determination means. The information processing apparatus described.
医薬品を特定するための情報を受け付け、
前記情報が示す前記医薬品を判定対象薬として特定し、
前記判定対象薬の副作用について記載した報告文書を取得し、
医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識し、
前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出し、
前記類薬として認識した医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬として認識した前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識した前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識した前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得し、
前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを評価し、評価の結果と閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定し、
前記判定対象副作用語句が示す前記副作用が既知の副作用か否かの判定結果を出力する
ことを含む副作用判定処理を実行させ、
前記比較対象語句集合に含まれる前記語句と前記判定対象副作用語句との前記組み合わせの評価のために、語句類似度評価処理として、
2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与えるようにして評価し、
前記部分文字列同士について評価した前記類似度を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、
前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する
ことを含む処理を実行させる判定プログラム。 On the computer,
Accepts information to identify medicines,
The drug indicated by the information is identified as a determination target drug,
Obtain a report document describing the side effects of the determination target drug,
By reading from the storage means the identification information that uniquely identifies the drug and the similar drug learning result information from the storage means, or for each of a plurality of drugs, the identification information of the drug and the side effects of the drug And a medicinal product similar to the determination target drug among a plurality of other medicinal products by reading out the package insert including the efficacy or effect of the medicinal product from the storage unit,
From the report document, the phrase indicating the side effect of the determination target drug is extracted as a determination target side effect phrase,
By reading out a package insert of a medicine recognized as the similar drug from the storage means, and extracting a set of phrases from the side effect description part of the package insert by a phrase extraction process, or from the storage section, the class By reading out the side effect learning result information that associates the set of phrases obtained by the phrase extraction process from the description part of the side effects in the package insert of the drug recognized as a drug with the identification information of the drug recognized as the similar drug, A set of phrases included in the description part of the side effect in the package insert of the drug recognized as the similar drug is obtained as a set of phrases to be compared;
For at least a part of the similar drugs, the combination of the phrase included in the comparison target phrase set acquired with respect to the similar drug and the judgment target side effect phrase is evaluated, and the evaluation result and the threshold value are used. Determining whether the side effect indicated by the determination side effect phrase is a known side effect in the related drug,
Executing a side effect determination process including outputting a determination result of whether or not the side effect indicated by the determination target side effect phrase is a known side effect;
In order to evaluate the combination of the phrase included in the comparison target phrase set and the determination target side effect phrase, as a phrase similarity evaluation process,
When the partial character strings of the third length obtained by adding the first length and the second length match the similarity between the partial character strings obtained by dividing each of the two phrases respectively. The evaluation is performed so as to give a higher evaluation than the evaluation obtained by adding the evaluation when the partial character strings of the first length match and the evaluation when the partial character strings of the second length match. ,
Evaluating the combination of division patterns that divide each of the two phrases into one or more partial character strings by counting the similarities evaluated for the partial character strings,
The determination program which performs the process including evaluating the similarity of two said phrases using evaluation about multiple combinations of the division | segmentation pattern of each said two phrases.
医薬品を特定するための情報を受け付け、
前記情報が示す前記医薬品を判定対象薬として特定し、
前記判定対象薬の副作用について記載した報告文書を取得し、
医薬品を一意に識別する識別情報と該医薬品の類薬とを関連付ける類薬学習結果情報を格納手段から読み出すことにより、あるいは、複数の医薬品の各々について、当該医薬品の前記識別情報と当該医薬品の副作用と当該医薬品の効能又は効果を含む添付文書を前記格納手段から読み出すことにより、複数の他の医薬品の中で前記判定対象薬に類似する類薬を認識し、
前記報告文書から、前記判定対象薬の前記副作用を示す語句を、判定対象副作用語句として抽出し、
前記類薬として認識した医薬品の添付文書を前記格納手段から読み出して、該添付文書における副作用の記載部分から、語句抽出処理により語句の集合を抽出することによって、あるいは、前記格納手段から、前記類薬として認識した前記医薬品の添付文書における副作用の記載部分からの語句抽出処理により得られた語句の集合を前記類薬として認識した前記医薬品の前記識別情報と関連付ける副作用学習結果情報を読み出すことによって、前記類薬として認識した前記医薬品の前記添付文書における前記副作用の前記記載部分に含まれる語句の集合を、比較対象語句集合として取得し、
前記類薬の少なくとも一部について、それぞれ、当該類薬に関して取得された前記比較対象語句集合に含まれる語句と、前記判定対象副作用語句との組み合わせを評価し、評価の結果と閾値とを用いて、前記判定対象副作用語句が示す前記副作用が当該類薬において既知の副作用か否かを判定し、
前記判定対象副作用語句が示す前記副作用が既知の副作用か否かの判定結果を出力し、
前記比較対象語句集合に含まれる前記語句と前記判定対象副作用語句との前記組み合わせの評価のために、語句類似度評価処理として、
2つの語句の各々をそれぞれ分割して得られる部分文字列同士の類似度を、第1の長さと第2の長さを足した第3の長さの部分文字列同士が一致する場合には前記第1の長さの部分文字列同士が一致する場合の評価と前記第2の長さの部分文字列同士が一致する場合の評価を足した評価以上の高い評価を与えるようにして評価し、
前記部分文字列同士について評価した前記類似度を集計することで、前記2つの語句の各々を1つ以上の部分文字列に分割する分割パターンの組み合わせを評価し、
前記2つの語句それぞれの分割パターンの複数通りの組み合わせについての評価を用いて前記2つの語句同士の類似度を評価する
ことを含む処理を実行する
ことを特徴とする判定方法。 Computer
Accepts information to identify medicines,
The drug indicated by the information is identified as a determination target drug,
Obtain a report document describing the side effects of the determination target drug,
By reading from the storage means the identification information that uniquely identifies the drug and the similar drug learning result information from the storage means, or for each of a plurality of drugs, the identification information of the drug and the side effects of the drug And a medicinal product similar to the determination target drug among a plurality of other medicinal products by reading out the package insert including the efficacy or effect of the medicinal product from the storage unit,
From the report document, the phrase indicating the side effect of the determination target drug is extracted as a determination target side effect phrase,
By reading out a package insert of a medicine recognized as the similar drug from the storage means, and extracting a set of phrases from the side effect description part of the package insert by a phrase extraction process, or from the storage section, the class By reading out the side effect learning result information that associates the set of phrases obtained by the phrase extraction process from the description part of the side effects in the package insert of the drug recognized as a drug with the identification information of the drug recognized as the similar drug, A set of phrases included in the description part of the side effect in the package insert of the drug recognized as the similar drug is obtained as a set of phrases to be compared;
For at least a part of the similar drugs, the combination of the phrase included in the comparison target phrase set acquired with respect to the similar drug and the judgment target side effect phrase is evaluated, and the evaluation result and the threshold value are used. Determining whether the side effect indicated by the determination side effect phrase is a known side effect in the related drug,
Outputs a determination result as to whether the side effect indicated by the determination target side effect phrase is a known side effect,
In order to evaluate the combination of the phrase included in the comparison target phrase set and the determination target side effect phrase, as a phrase similarity evaluation process,
When the partial character strings of the third length obtained by adding the first length and the second length match the similarity between the partial character strings obtained by dividing each of the two phrases respectively. The evaluation is performed so as to give a higher evaluation than the evaluation obtained by adding the evaluation when the partial character strings of the first length match and the evaluation when the partial character strings of the second length match. ,
Evaluating the combination of division patterns that divide each of the two phrases into one or more partial character strings by counting the similarities evaluated for the partial character strings,
A method including: evaluating a similarity between the two words / phrases using an evaluation of a plurality of combinations of division patterns of the two words / phrases.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010019649A JP5392120B2 (en) | 2010-01-29 | 2010-01-29 | Information processing apparatus, determination program, and determination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010019649A JP5392120B2 (en) | 2010-01-29 | 2010-01-29 | Information processing apparatus, determination program, and determination method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011159078A true JP2011159078A (en) | 2011-08-18 |
JP5392120B2 JP5392120B2 (en) | 2014-01-22 |
Family
ID=44590981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010019649A Expired - Fee Related JP5392120B2 (en) | 2010-01-29 | 2010-01-29 | Information processing apparatus, determination program, and determination method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5392120B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212853A (en) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | Similarity-computation apparatus, side effect determining apparatus and system for calculating similarity between drugs and using the similarities to extrapolate side effect |
JPWO2016147276A1 (en) * | 2015-03-13 | 2017-04-27 | 株式会社Ubic | DATA ANALYSIS SYSTEM, DATA ANALYSIS METHOD, DATA ANALYSIS PROGRAM, AND RECORDING MEDIUM OF THE PROGRAM |
JP2017211772A (en) * | 2016-05-24 | 2017-11-30 | 株式会社日立製作所 | Adverse effect analysis system, and adverse effect analysis method |
CN111814461A (en) * | 2020-07-09 | 2020-10-23 | 科大讯飞股份有限公司 | Text processing method, related device and readable storage medium |
JP2021002309A (en) * | 2019-06-25 | 2021-01-07 | 富士ゼロックス株式会社 | Information processing device and program |
CN111814461B (en) * | 2020-07-09 | 2024-05-31 | 科大讯飞股份有限公司 | Text processing method, related equipment and readable storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004151850A (en) * | 2002-10-29 | 2004-05-27 | Toppan Printing Co Ltd | Document creation management method and system |
JP2004295414A (en) * | 2003-03-26 | 2004-10-21 | Takazono Sangyo Co Ltd | Dosage instruction support system, dosage instruction support program and computer-readable recording medium with the dosage instruction support program recorded |
-
2010
- 2010-01-29 JP JP2010019649A patent/JP5392120B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004151850A (en) * | 2002-10-29 | 2004-05-27 | Toppan Printing Co Ltd | Document creation management method and system |
JP2004295414A (en) * | 2003-03-26 | 2004-10-21 | Takazono Sangyo Co Ltd | Dosage instruction support system, dosage instruction support program and computer-readable recording medium with the dosage instruction support program recorded |
Non-Patent Citations (1)
Title |
---|
JPN6013045919; 長野 浩三: 'オートマトン(SIGMA技術)を用いた医薬品安全性情報の解析' 日本薬学会年会要旨集 Vol.129 No.4, 20090305, pp.191 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2016147276A1 (en) * | 2015-03-13 | 2017-04-27 | 株式会社Ubic | DATA ANALYSIS SYSTEM, DATA ANALYSIS METHOD, DATA ANALYSIS PROGRAM, AND RECORDING MEDIUM OF THE PROGRAM |
JP2016212853A (en) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | Similarity-computation apparatus, side effect determining apparatus and system for calculating similarity between drugs and using the similarities to extrapolate side effect |
JP2017211772A (en) * | 2016-05-24 | 2017-11-30 | 株式会社日立製作所 | Adverse effect analysis system, and adverse effect analysis method |
JP2021002309A (en) * | 2019-06-25 | 2021-01-07 | 富士ゼロックス株式会社 | Information processing device and program |
JP7367353B2 (en) | 2019-06-25 | 2023-10-24 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
CN111814461A (en) * | 2020-07-09 | 2020-10-23 | 科大讯飞股份有限公司 | Text processing method, related device and readable storage medium |
CN111814461B (en) * | 2020-07-09 | 2024-05-31 | 科大讯飞股份有限公司 | Text processing method, related equipment and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5392120B2 (en) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11275905B2 (en) | Systems and methods for semantic search and extraction of related concepts from clinical documents | |
JP5990178B2 (en) | System and method for keyword extraction | |
US9881037B2 (en) | Method for systematic mass normalization of titles | |
CN110413734B (en) | Intelligent search system and method for medical service | |
Wu et al. | Ranking gene-drug relationships in biomedical literature using latent dirichlet allocation | |
JP5900367B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
US20140156670A1 (en) | Numeric range search device, numeric range search method, and numeric range search program | |
WO2023029513A1 (en) | Artificial intelligence-based search intention recognition method and apparatus, device, and medium | |
JP2014106665A (en) | Document retrieval device and document retrieval method | |
JP5392120B2 (en) | Information processing apparatus, determination program, and determination method | |
JP2009193219A (en) | Indexing apparatus, method thereof, program, and recording medium | |
Pandey et al. | Adverse event extraction from structured product labels using the event-based text-mining of health electronic records (ETHER) system | |
Sibanda et al. | Syntactically-informed semantic category recognizer for discharge summaries | |
JP4661415B2 (en) | Expression fluctuation processing system | |
JP6409071B2 (en) | Sentence sorting method and calculator | |
JP6210865B2 (en) | Data search system and data search method | |
JP5269399B2 (en) | Structured document retrieval apparatus, method and program | |
WO2015177861A1 (en) | Device and method for generating training data | |
JP2013222418A (en) | Passage division method, device and program | |
Millán-Hernández et al. | Soft bigram similarity to identify confusable drug names | |
US11520989B1 (en) | Natural language processing with keywords | |
Fenz et al. | De-identification of unstructured paper-based health records for privacy-preserving secondary use | |
JP2007220144A (en) | Patent retrieval device, and control method and control program for patent retrieval device | |
JPH117447A (en) | Topic extracting method, topic extraction model to be used for the extracting method, preparing method for the topic extraction model, and topic extraction program recording medium | |
Hoste et al. | Classification-based scientific term detection in patient information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5392120 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |