JP6608119B2 - Drug name output device, drug name output method, and drug name output program - Google Patents

Drug name output device, drug name output method, and drug name output program Download PDF

Info

Publication number
JP6608119B2
JP6608119B2 JP2018135921A JP2018135921A JP6608119B2 JP 6608119 B2 JP6608119 B2 JP 6608119B2 JP 2018135921 A JP2018135921 A JP 2018135921A JP 2018135921 A JP2018135921 A JP 2018135921A JP 6608119 B2 JP6608119 B2 JP 6608119B2
Authority
JP
Japan
Prior art keywords
search
character string
drug
drug name
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018135921A
Other languages
Japanese (ja)
Other versions
JP2018181370A (en
Inventor
明 日野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2018135921A priority Critical patent/JP6608119B2/en
Publication of JP2018181370A publication Critical patent/JP2018181370A/en
Application granted granted Critical
Publication of JP6608119B2 publication Critical patent/JP6608119B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、薬剤名の検索対象の文字列を受け付け、その文字列を用いてデータ記憶部を参照することによって薬剤名の出力を行う薬剤名出力装置および薬剤名出力方法並びに薬剤名出力プログラムに関するものである。   The present invention relates to a drug name output device, a drug name output method, and a drug name output program for receiving a drug name search target character string and outputting a drug name by referring to a data storage unit using the character string. Is.

従来、文字列検索が広く一般に利用されている。多く場合、ユーザは検索クエリとして文字列を手動入力し、検索サーバからの回答を得る。その際、検索クエリの文字列は、スペルミス等といった多少のあいまいさは含むが、多量または大きな誤りは含まないことが前提とされている。   Conventionally, character string search has been widely used. In many cases, the user manually inputs a character string as a search query and obtains an answer from the search server. At that time, it is assumed that the character string of the search query includes some ambiguity such as a spelling error but does not include a large amount or a large error.

上記のような多少のあいまいさについては、たとえば正規化処理や編集距離などを用いた近傍探索によって解消され、適切な検索を行うことができる。なお、正規化処理は、検索クエリを予め定められた統一形式に変換する処理であり、たとえば「行った」から「行く」への変換や「apples」から「apple」への変換といった語尾の変換処理や、「ダイヤモンド」を「ダイアモンド」に変換する表記の揺れを修正する処理や、「Apple」を「apple」に変換する大文字または小文字への統一化処理や、「apple」を「apple」に変換する半角または全角への統一化処理などがある。   The slight ambiguity as described above can be eliminated by a neighborhood search using, for example, normalization processing or edit distance, and an appropriate search can be performed. The normalization process is a process for converting the search query into a predetermined unified format. For example, the conversion of endings such as conversion from “go” to “go” and conversion from “apples” to “apple” Processing, processing to correct the shaking of the notation that converts “diamond” to “diamond”, unified processing to uppercase or lowercase that converts “Apple” to “apple”, and “apple” to “apple” There is a unified process to convert to half-width or full-width.

また、編集距離などを用いた近傍探索は、編集距離などによって語の類似度を計測し、検索クエリに近い語を含む検索結果を出力する。たとえば、編集距離「1」まで許容すれば、検索クエリから1文字違いの語の集合を得ることができる。   In the neighborhood search using the edit distance or the like, the word similarity is measured based on the edit distance or the like, and a search result including a word close to the search query is output. For example, if the edit distance is allowed up to “1”, a set of words with one character difference can be obtained from the search query.

特開2012−133539号公報JP 2012-133539 A 特開平10−240870号公報Japanese Patent Laid-Open No. 10-240870 特開平7−152871号公報Japanese Patent Laid-Open No. 7-152871

ここで、今後は、上述したような手動入力以外の入力方法(画像または音声)が広がるものと想定されるが、画像に基づくOCR(optical character recognition)の結果や音声認識の結果では、多量でかつ人間が起こしえないような、誤りおよびノイズを含み、有意義な検索結果を得られない恐れがある。特に、広告や包装などでは、特殊な書体、意匠またはロゴを含み、OCRを適切に行うことが難しい。その結果、たとえばノイズを含んだ認識結果をAND検索すれば該当無し、ノイズを含んだ認識結果をOR検索すれば無意味な結果を大量に得ることになる。   Here, in the future, it is assumed that input methods (images or sounds) other than the manual input as described above will be widened. In addition, there is a possibility that meaningful search results cannot be obtained including errors and noises that cannot be caused by humans. In particular, advertisements and packaging include special typefaces, designs or logos, and it is difficult to perform OCR appropriately. As a result, for example, if an AND search is performed on a recognition result including noise, there is no corresponding result, and a large amount of meaningless results are obtained if an OR search is performed on the recognition result including noise.

上述した正規化処理は、検索クエリに多量でかつ人間が起こしえないような誤りがないことが前提であるため、OCRの結果などを検索に用いたとしても適切な検索を行うことができない。   The normalization process described above is based on the premise that there are no errors in the search query that are large and cannot be made by humans, and therefore an appropriate search cannot be performed even if the OCR result or the like is used for the search.

また、上述した編集距離などを用いた近傍探索は、編集距離に対し、その集合の大きさ(語の数)は指数的に増大し、検索に要する時間も増える。OCRの結果など誤り箇所が限定的と仮定できない場合、単純適用は困難である。   Further, in the neighborhood search using the edit distance described above, the size of the set (number of words) increases exponentially with respect to the edit distance, and the time required for the search also increases. Simple application is difficult if the error location cannot be assumed to be limited, such as OCR results.

特許文献1においては、ノイズを含むOCRの結果を検索対象として、検索文字列をクラスタリングして特徴ベクトルを算出し、検索対象の特徴ベクトルと照合することによりあいまい検索を実現する方法が提案されている。   Patent Document 1 proposes a method for realizing a fuzzy search by using the OCR result including noise as a search target, calculating a feature vector by clustering search character strings, and collating with the feature vector of the search target. Yes.

しかしながら、特許文献1の方法では、特徴ベクトル生成へのノイズの影響を抑制するために入力文字列および検索文字列以外の情報を必要とするため、ノイズの影響の抑制が難しい。   However, in the method of Patent Document 1, since information other than the input character string and the search character string is required to suppress the influence of noise on the feature vector generation, it is difficult to suppress the influence of noise.

また、特許文献2においては、OCRの結果の文字列を単語毎に区切り、その単語の出現回数を集計し、その出現回数によって認識結果の妥当性をチェックすることによって単語の認識率を向上させることが開示されているが、大量の単語を含む文書におけるOCRの精度を上げる方法であり、OCRの結果に基づく検索文字列に多くのノイズを含む場合に適切な検索を行うのは難しい。また、特許文献3には、2回の異なる文字認識結果を総合して基本ツリー辞書により判定することによりOCRの結果の文字列の文字認識率を向上させることが提案されているが、OCRの結果に基づく検索文字列に多くのノイズを含む場合に適切な検索を行うのは難しい。   In Patent Document 2, the character string of the OCR result is divided for each word, the number of appearances of the word is totaled, and the validity of the recognition result is checked based on the number of appearances, thereby improving the word recognition rate. However, it is a method for improving the accuracy of OCR in a document including a large number of words, and it is difficult to perform an appropriate search when the search character string based on the OCR result includes a lot of noise. Further, Patent Document 3 proposes to improve the character recognition rate of a character string as a result of OCR by combining two different character recognition results and determining with a basic tree dictionary. It is difficult to perform an appropriate search when a search character string based on the result includes a lot of noise.

本発明は、上記の問題に鑑み、薬剤名にノイズが含まれる文字列に基づく検索において、適切な薬剤名の出力を行うことができる薬剤名出力装置および薬剤名出力方法並びに薬剤名出力プログラムを提供することを目的とする。   In view of the above problems, the present invention provides a drug name output device, a drug name output method, and a drug name output program capable of outputting an appropriate drug name in a search based on a character string including noise in the drug name. The purpose is to provide.

本発明の薬剤名出力装置は、検索対象文字列を用いて、薬剤名が記憶されたデータ記憶部を参照して薬剤名の検索を行う検索部と、検索部によって検索された検索結果である複数の薬剤名のいずれか1つの薬剤名を表す文字列を分割して生成した部分文字列のいずれかが検索対象文字列に一致する部分の数、及び部分文字列の各々に類似する部分文字列と一致する部分の数に応じて定められる出現頻度を求め、出現頻度に基づいた信頼度を算出する処理を、検索結果の複数の薬剤名の各々に対して施して薬剤名の各々の信頼度を算出する評価部とを備えることを特徴とする。   The drug name output device of the present invention is a search unit that searches for a drug name by referring to a data storage unit in which a drug name is stored using a search target character string, and a search result searched by the search unit. The number of parts in which any of the partial character strings generated by dividing the character string representing one of the plurality of drug names matches the search target character string, and the partial characters similar to each of the partial character strings The appearance frequency determined according to the number of parts that match the column is calculated, and the reliability based on the appearance frequency is calculated for each of the plurality of drug names in the search results, and each drug name is trusted. And an evaluation unit for calculating the degree.

また、検索部は、検索対象文字列を分割した部分文字列の組み合わせを検索クエリとして検索を行う。   The search unit performs a search using a combination of partial character strings obtained by dividing the search target character string as a search query.

また、検索対象文字列がOCRによって取得された文字列であり、類似した部分文字列が、部分文字列のうちOCRによる誤認識が生じやすい文字に対して推定される他の文字を当て嵌めた新たな部分文字列である。   In addition, the search target character string is a character string acquired by OCR, and similar partial character strings are fitted with other characters estimated for characters that are likely to be erroneously recognized by OCR among the partial character strings. New substring.

また、本発明の薬剤名出力装置においては、評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部をさらに設け、検索部は、追加検索要否判定部において追加検索が必要であると判定された場合には、検索対象文字列に基づく追加検索を行い、最初の検索の検索結果と追加検索の結果とを合併統合する検索結果統合部をさらに設けることができる。   The drug name output device of the present invention further includes an additional search necessity determination unit that determines whether or not an additional search is necessary based on the reliability calculated by the evaluation unit, and the search unit includes the additional search. A search result integration unit that performs an additional search based on the search target character string and merges and integrates the search result of the first search and the result of the additional search when the necessity determination unit determines that an additional search is necessary. Can be further provided.

また、評価部は、部分文字列の出現頻度が高い検索結果の薬剤名から順に並べ、検索結果の薬剤名の数が予め設定された閾値よりも多い場合には、予め設定された数の下位の順位の検索結果の薬剤名を最初の検索の検索結果から除外することができる。   Further, the evaluation unit arranges in order from the drug name of the search result in which the appearance frequency of the partial character string is high, and if the number of drug names of the search result is larger than a preset threshold, It is possible to exclude the drug names in the search results of the ranks from the search results of the first search.

また、追加検索要否判定部は、部分文字列の出現頻度が最も高い検索結果の薬剤名を取得し、その取得した薬剤名の部分文字列が検索対象文字列の中に含まれる割合が予め設定された閾値より大きい場合には、追加検索は不要と判定し、上記割合が閾値以下である場合には、追加検索が必要であると判定することができる。   In addition, the additional search necessity determination unit acquires the drug name of the search result with the highest occurrence frequency of the partial character string, and the ratio that the partial character string of the acquired drug name is included in the search target character string is determined in advance. If it is larger than the set threshold value, it is determined that an additional search is not necessary, and if the ratio is equal to or less than the threshold value, it can be determined that an additional search is necessary.

また、最初の検索に用いられる検索対象文字列に基づく検索クエリと追加検索に用いられる検索対象文字列に基づく検索クエリとは異なっていてもよい。   Further, the search query based on the search target character string used for the initial search may be different from the search query based on the search target character string used for the additional search.

本発明の薬剤名出力方法は、薬剤名出力装置が、検索対象文字列を用いて、薬剤名が記憶されたデータ記憶部を参照して薬剤名の検索を行い、検索による検索結果である複数の薬剤名のいずれか1つの薬剤名を表す文字列を分割して生成した部分文字列のいずれかが検索対象文字列に一致する部分の数、及び部分文字列の各々に類似する部分文字列と一致する部分の数に応じて定められる出現頻度を求め、出現頻度に基づいた信頼度を算出する処理を、検索結果の複数の薬剤名の各々に対して施して薬剤名の各々の信頼度を算出し、信頼度が高い順に薬剤名を出力することを特徴とする。   In the medicine name output method of the present invention, the medicine name output device searches the medicine name by referring to the data storage unit storing the medicine name using the search target character string, and a plurality of search results are obtained by the search. The number of parts where any one of the partial character strings generated by dividing the character string representing the drug name of any one of the drug names matches the search target character string, and the partial character string similar to each of the partial character strings The frequency of appearance determined in accordance with the number of portions that match with each other, and processing for calculating the reliability based on the frequency of appearance is performed on each of the plurality of drug names in the search result, and the reliability of each drug name And drug names are output in descending order of reliability.

本発明の薬剤名出力プログラムは、コンピュータを、薬剤名が記憶されたデータ記憶部を参照して薬剤名の検索を行う検索部と、検索部によって検索された検索結果である複数の薬剤名のいずれか1つの薬剤名を表す文字列を分割して生成した部分文字列のいずれかが検索対象文字列に一致する部分の数、及び部分文字列の各々に類似する部分文字列と一致する部分の数に応じて定められる出現頻度を求め、出現頻度に基づいた信頼度を算出する処理を、検索結果の複数の薬剤名の各々に対して施して薬剤名の各々の信頼度を算出する評価部と、信頼度が高い順に薬剤名を出力する出力部として機能させることを特徴とする。   The drug name output program of the present invention includes a search unit that searches a computer for a drug name with reference to a data storage unit that stores drug names, and a plurality of drug names that are search results searched by the search unit. The number of parts where one of the partial character strings generated by dividing the character string representing any one drug name matches the search target character string, and the part that matches the partial character string similar to each of the partial character strings An evaluation for calculating the reliability of each drug name by obtaining the frequency of appearance determined according to the number of drugs and calculating the reliability based on the frequency of appearance for each of a plurality of drug names in the search result And an output unit that outputs drug names in descending order of reliability.

本発明の薬剤名出力装置および薬剤名出力方法並びに薬剤名出力プログラムによれば、薬剤名にノイズを含む短い文字列から適切な薬剤名の出力を行うことができる。   According to the medicine name output device, medicine name output method, and medicine name output program of the present invention, an appropriate medicine name can be output from a short character string including noise in the medicine name.

本発明の文字列検索装置の一実施形態を用いた検索システムの概略構成を示す図The figure which shows schematic structure of the search system using one Embodiment of the character string search apparatus of this invention. 本発明の文字列検索装置の一実施形態を用いた検索システムの作用を説明するためのフローチャートThe flowchart for demonstrating the effect | action of the search system using one Embodiment of the character string search apparatus of this invention. 最初の検索結果の評価方法を説明するためのフローチャートFlow chart for explaining the first search result evaluation method 検索対象の文字列と検索結果の文字列との照合を説明するための図Diagram for explaining matching of search target character string and search result character string 光電的に読み取られるPTP(Press Through Package)の一例を示す図The figure which shows an example of PTP (Press Through Package) read photoelectrically 図1に示す検索システムを薬剤検査システムに適用した場合における検索結果の表示例を示す図The figure which shows the example of a display of a search result at the time of applying the search system shown in FIG. 1 to a chemical | medical agent test | inspection system.

以下、本発明の文字列検索装置および方法並びにプログラムの一実施形態を用いた検索システムについて、図面を参照しながら詳細に説明する。図1は、本実施形態の検索システムの概略構成を示す図である。   Hereinafter, a search system using an embodiment of a character string search apparatus and method and a program of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing a schematic configuration of a search system according to the present embodiment.

本実施形態の検索システムは、図1に示すように、文字列検索装置1と、OCR(Optical Character Recognition)装置2と、データベース装置3(本発明のデータ記憶部に相当する)と、ディスプレイ4とを備えている。   As shown in FIG. 1, the search system of this embodiment includes a character string search device 1, an OCR (Optical Character Recognition) device 2, a database device 3 (corresponding to a data storage unit of the present invention), and a display 4. And.

文字列検索装置1は、コンピュータに対して本発明の文字列検索プログラムの一実施形態がインストールされたものである。   The character string search device 1 is obtained by installing an embodiment of the character string search program of the present invention on a computer.

文字列検索装置1は、CPU(Central Processing Unit)(中央処理装置)、半導体メモリおよびハードディスクなどを備えており、ハードディスクに本発明の文字列検索プログラムの一実施形態がインストールされている。そして、この文字列検索プログラムがCPUを有する制御部17によって実行されることによって、図1に示すような文字列受付部10、検索部11、評価部12、追加検索要否判定部13、検索結果統合部14、記憶部15および出力部16が動作する。   The character string search device 1 includes a CPU (Central Processing Unit), a semiconductor memory, a hard disk, and the like, and an embodiment of the character string search program of the present invention is installed in the hard disk. Then, the character string search program is executed by the control unit 17 having a CPU, whereby a character string receiving unit 10, a search unit 11, an evaluation unit 12, an additional search necessity determination unit 13, and a search as shown in FIG. The result integration unit 14, the storage unit 15, and the output unit 16 operate.

文字列受付部10は、検索対象の文字列を受け付けるものである。具体的には、本実施形態の文字列受付部10は、OCR装置2から出力されたOCRの結果である文字列を受け付けるものである。OCR装置2は、文字列を含む読取対象を光電的に読み取った画像データに対して文字認識処理を施し、これにより画像データに含まれる文字列を認識して出力するものである。文字認識処理としては既に公知の処理が施されるが、この文字認識処理の際、文字以外の記号、マークまたは模様などが誤認識され、実際の文字認識処理の結果にはノイズが含まれている。本実施形態では、このような誤認識による雑多なノイズを多量に含む、相当程度長い文字列が文字列受付部10によって受け付けられることを想定している。   The character string accepting unit 10 accepts a character string to be searched. Specifically, the character string receiving unit 10 according to the present embodiment receives a character string that is a result of OCR output from the OCR device 2. The OCR device 2 performs character recognition processing on image data obtained by photoelectrically reading a reading target including a character string, thereby recognizing and outputting the character string included in the image data. As a character recognition process, a known process has already been performed. However, in this character recognition process, a symbol, mark or pattern other than a character is erroneously recognized, and noise is included in the result of the actual character recognition process. Yes. In the present embodiment, it is assumed that a considerably long character string including a large amount of miscellaneous noise due to such misrecognition is received by the character string receiving unit 10.

検索部11は、文字列受付部10によって受け付けられた文字列が入力され、その文字列を用いてデータベース装置3に記憶されているデータを参照することによって検索を行うものである。本実施形態の検索部11は、文字列受付部10によって受け付けられた文字列、すなわちOCRの結果をそのまま用いるのではなく、この文字列から検索クエリを生成し、その検索クエリを用いてデータベース装置3に記憶されているデータの検索を行う。検索クエリの生成方法としては、たとえば文字列を分割して部分文字列とし、この部分文字列のANDを検索クエリとすることができる。文字列の分割方法としては、たとえばN-Gram分割を用いることができる。なお、検索クエリの生成方法としては、上述したような方法に限らず、その他の公知な方法を用いることができる。   The search unit 11 performs a search by inputting the character string received by the character string receiving unit 10 and referring to data stored in the database device 3 using the character string. The search unit 11 of the present embodiment does not directly use the character string received by the character string receiving unit 10, that is, the result of OCR, but generates a search query from this character string and uses the search query to create a database device. The data stored in 3 is searched. As a method for generating a search query, for example, a character string can be divided into partial character strings, and AND of the partial character strings can be used as a search query. As a character string dividing method, for example, N-Gram division can be used. The search query generation method is not limited to the method described above, and other known methods can be used.

また、検索部11における検索アルゴリズムについては、既に公知の検索アルゴリズムを用いることができる。   As the search algorithm in the search unit 11, a known search algorithm can be used.

評価部12は、検索部11によって最初に検索された検索結果の文字列および文字列受付部10によって受け付けられた検索対象の文字列が入力され、その入力された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価するものである。なお、検索結果の文字列の評価方法については、後述する。   The evaluation unit 12 receives the character string of the search result first searched by the search unit 11 and the character string of the search target received by the character string reception unit 10, and the character string of the input search result and the search target The character string of the search result is evaluated by collating with the character string. A method for evaluating the search result character string will be described later.

追加検索要否判定部13は、評価部12における検索結果の文字列の評価結果に基づいて、検索対象の文字列の追加検索が必要か否かを判定するものである。この追加検索は、文字列受付部10によって受け付けられた検索対象の文字列に基づく追加の検索である。したがって、最初に行った検索とは異なる検索結果が得られるような検索が行われる。   The additional search necessity determination unit 13 determines whether or not an additional search of the character string to be searched is necessary based on the evaluation result of the character string of the search result in the evaluation unit 12. This additional search is an additional search based on the search target character string received by the character string receiving unit 10. Therefore, a search is performed so that a search result different from the search performed first is obtained.

具体的には、たとえば最初の検索に用いた検索クエリとは異なる検索クエリを用いて検索を行うか、または最初の検索に用いた検索アルゴリズムとは異なる検索アルゴリズムを用いるなどすればよい。最初の検索に用いた検索クエリとは異なる検索クエリとしては、たとえば、最初の検索に用いた検索クエリとは、あいまい度が異なる検索クエリを用いることができる。より具体的には、たとえばOCRの読取対象の文字列が「アシタ」であり、最初の検索に用いた検索クエリが、「アシ AND シタ」である場合、追加検索の検索クエリは、「アシ ORシタ」とすればよい。なお、あいまい度が異なる検索クエリの生成方法としては、これに限らず、その他の公知な手法を用いることができる。   Specifically, for example, the search may be performed using a search query different from the search query used for the initial search, or a search algorithm different from the search algorithm used for the initial search may be used. As a search query different from the search query used for the initial search, for example, a search query having a different ambiguity from the search query used for the initial search can be used. More specifically, for example, when the character string to be read in the OCR is “Ashita” and the search query used for the first search is “Ashi AND Shita”, the search query for the additional search is “Ashi OR”. “Shita” can be used. The search query generation method with different ambiguities is not limited to this, and other known methods can be used.

また、最初に行った検索に用いた検索アルゴリズムとは異なる検索アルゴリズムとして、は、たとえば検索履歴を参照するものを用いることができる。   As a search algorithm different from the search algorithm used for the first search, for example, a search algorithm that refers to a search history can be used.

なお、追加検索の要否の判定方法については、後述する。   A method for determining whether or not an additional search is necessary will be described later.

追加検索要否判定部13における判定結果は検索部11に出力され、検索部11は、追加検索を行う必要があるとの判定結果である場合には上述した追加検索を行い、追加検索を行う必要がないとの判定結果である場合には、上述した追加検索を行うことなく、最初の検索の検索結果を記憶部15に出力して記憶させる。   The determination result in the additional search necessity determination unit 13 is output to the search unit 11, and the search unit 11 performs the additional search described above when the determination result indicates that the additional search needs to be performed. If the determination result is not necessary, the search result of the first search is output to the storage unit 15 and stored without performing the additional search described above.

検索結果統合部14は、検索部11における最初の検索の検索結果と、上述した追加検索の検索結果とを合併統合するものである。上述した追加検索を行うのは、評価部12において最初の検索の検索結果が充分でないと評価された場合であるが、追加検索の検索結果が最初の検索結果よりも良い結果であるとは限らないため、本実施形態においては、最初の検索の検索結果と追加検索の検索結果とを合併統合することによって、最初の検索結果も破棄することなく有効利用する。なお、この合併統合においては、最初の検索の検索結果と追加検索の検索結果とで重複する場合には、その重複は除外する。   The search result integration unit 14 merges and integrates the search result of the first search in the search unit 11 and the search result of the additional search described above. The additional search described above is performed when the evaluation unit 12 evaluates that the search result of the first search is not sufficient, but the search result of the additional search is not always better than the first search result. Therefore, in this embodiment, the search result of the first search and the search result of the additional search are merged and integrated so that the first search result is also effectively used without being discarded. In this merger and integration, if the search result of the first search and the search result of the additional search overlap, the duplication is excluded.

記憶部15は、半導体メモリおよびハードディスクなどのストレージデバイスから構成されるものであり、検索部11における最初の検索の検索結果、検索結果統合部14において合併統合された検索結果および評価部12における評価結果などが記憶されるものである。   The storage unit 15 includes a storage device such as a semiconductor memory and a hard disk. The search result of the first search in the search unit 11, the search result merged and integrated in the search result integration unit 14, and the evaluation in the evaluation unit 12 The result is stored.

出力部16は、記憶部15に記憶された最初の検索の検索結果、合併統合された検索結果および評価結果などを読み出してディスプレイ4に出力して表示させるものである。   The output unit 16 reads out the search results of the first search stored in the storage unit 15, the merged and integrated search results, the evaluation results, and the like, and outputs them to the display 4 for display.

制御部17は、上述したようにCPUを有するものであり、本実施形態の文字列検索プログラムに基づいて文字列検索装置1全体を制御するものである。   As described above, the control unit 17 has a CPU, and controls the entire character string search device 1 based on the character string search program of the present embodiment.

データベース装置3は、検索対象の文字列に関連するデータが記憶されたものである。具体的には、たとえば種々の薬剤名が記憶されている。そして、薬剤名が印字された薬剤の包装を光電的に読み取ってOCR装置2により認識された文字列が検索対象の文字列として用いられ、データベース装置3に記憶された種々の薬剤名との照合および検索が行われる。なお、データベース装置3に記憶されるデータは薬剤名に限らず、用途に応じて種々のデータが記憶される。   The database device 3 stores data related to the character string to be searched. Specifically, for example, various drug names are stored. Then, the medicine package on which the medicine name is printed is photoelectrically read and the character string recognized by the OCR device 2 is used as a character string to be searched, and collated with various medicine names stored in the database device 3. And a search is performed. The data stored in the database device 3 is not limited to the drug name, and various data are stored depending on the application.

次に、本実施形態の検索システムの作用について、図2に示すフローチャートを参照しながら説明する。   Next, the operation of the search system of this embodiment will be described with reference to the flowchart shown in FIG.

まず、文字認識処理によって認識された文字列が検索対象の文字列としてOCR装置2から出力され、文字列受付部10によって受け付けられる(S10)。   First, the character string recognized by the character recognition process is output from the OCR device 2 as a character string to be searched and accepted by the character string accepting unit 10 (S10).

文字列受付部10によって受け付けられた検索対象の文字列は検索部11に出力され、検索部11は、入力された検索対象の文字列から検索クエリを生成し、その検索クエリを用いてデータベース装置3に記憶されているデータを参照することによって最初の検索を行う(S12)。   The search target character string received by the character string reception unit 10 is output to the search unit 11, and the search unit 11 generates a search query from the input search target character string and uses the search query to create a database device. The first search is performed by referring to the data stored in 3 (S12).

そして、検索部11における最初の検索結果は評価部12に出力され、評価部12は、入力された検索結果の評価を行う。このように検索結果の評価を行うのは、OCRの結果はノイズを含むため、最初の検索で用いた検索クエリも適切でない場合があり、すなわち最初の検索結果も適切でない可能性があるからである。以下、最初の検索結果の評価方法について、図3に示すフローチャートを参照しながら詳細に説明する。また、図4は、最初の検索結果の評価における検索対象の文字列と検索結果の文字列との照合を説明するための図である。   Then, the first search result in the search unit 11 is output to the evaluation unit 12, and the evaluation unit 12 evaluates the input search result. The search result is evaluated in this way because the OCR result includes noise, so the search query used in the initial search may not be appropriate, that is, the initial search result may not be appropriate. is there. Hereinafter, the first search result evaluation method will be described in detail with reference to the flowchart shown in FIG. FIG. 4 is a diagram for explaining the collation between the search target character string and the search result character string in the evaluation of the first search result.

まず、評価部12は、文字列受付部10によって受け付けられた検索対象の文字列、すなわちノイズを含んだ状態のOCRの結果を取得し、かつj=0に設定する(S30)。jは0≦j<Mであり、Mは最初の検索結果の件数である。   First, the evaluation unit 12 acquires a search target character string received by the character string reception unit 10, that is, a result of OCR in a state including noise, and sets j = 0 (S30). j is 0 ≦ j <M, and M is the number of first search results.

次に、評価部12は、最初の検索結果の1つであるS[j](0≦j<M)を取り出し、そのS[j]に対し、正規化処理とN-Gramによる文字列の分割処理を施し、部分文字列を生成する(S32)。この際に生成された部分文字列の数をN、各部分文字列をP[i](0≦i<N)とし、i=0に設定する。また、カウンタrをr=0に設定し、カウンタfをf=0に設定する。   Next, the evaluation unit 12 takes out S [j] (0 ≦ j <M), which is one of the first search results, and performs normalization processing and N-Gram character string conversion on the S [j]. Division processing is performed to generate a partial character string (S32). The number of partial character strings generated at this time is N, each partial character string is P [i] (0 ≦ i <N), and i = 0 is set. The counter r is set to r = 0, and the counter f is set to f = 0.

なお、正規化処理は、検索対象の文字列または検索クエリを予め設定された統一形式に揃える処理であり、上述したように、語尾変化を統一された形式に変換したり、表記揺れを修正したり、大文字または小文字への統一化処理、半角または全角への統一化処理などである。   The normalization process is a process of aligning the search target character string or search query into a preset unified format, and as described above, the ending change is converted into a unified format or the notation fluctuation is corrected. Or unification processing to uppercase or lowercase, unification processing to half-width or full-width.

そして、評価部12は、部分文字列P[i]を取り出し(S34)、S30で取得された検索対象の文字列の中にP[i]と一致する部分があるか否かを判定し、一致する部分がある場合には、カウンタrをr=r+1とする(S36)。なお、この判定の際、P[i]に一致する部分だけなく、P[i]に類似する部分文字列群と一致する部分があるか否かを判定するようにしてもよい。具体的には、たとえばOCR装置2において、「シ」と「ツ」の誤認識が生じやすい場合には、「アシ」という部分文字列だけでなく、「アシ」および「アツ」を部分文字列群とし、これらの部分文字列と一致する部分があるか否かを判定するようにすればよい。なお、以下、このような部分文字列群の生成を文字列展開という。   Then, the evaluation unit 12 takes out the partial character string P [i] (S34), determines whether there is a portion that matches P [i] in the character string to be searched acquired in S30, If there is a matching part, the counter r is set to r = r + 1 (S36). In this determination, it may be determined whether there is not only a portion matching P [i] but also a portion matching a partial character string group similar to P [i]. Specifically, in the OCR device 2, for example, when erroneous recognition of “si” and “tsu” is likely to occur, not only the partial character string “ashi” but also “ashi” and “atsu” are partial character strings. What is necessary is just to determine whether there exists a part which corresponds to these partial character strings as a group. Hereinafter, generation of such a partial character string group is referred to as character string expansion.

次いで、評価部12は、検索対象の文字列の中にP[i]と一致する部分が何箇所あるかを計測する(S38)。そして、P[i]と一致する部分の数がcである場合には、f=f+cとする。なお、この際、S36と同様に、文字列展開を行ってもよい。   Next, the evaluation unit 12 measures the number of portions that match P [i] in the character string to be searched (S38). If the number of portions that match P [i] is c, then f = f + c. At this time, character string expansion may be performed as in S36.

そして、i=i+1に設定し、i<Nであるか否かを判定し、i<Nである場合には、S34〜S40までの処理を繰り返す(S42,YES)。すなわち、全ての部分文字列P[i]について、検索対象の文字列の中に含まれているか否かを判定してrをカウントし、さらに検索対象の文字列の中にP[i]と一致する部分が何箇所あるかを計測してfをカウントする。   Then, i = i + 1 is set, and it is determined whether i <N. If i <N, the processes from S34 to S40 are repeated (S42, YES). That is, it is determined whether or not all partial character strings P [i] are included in the character string to be searched, r is counted, and P [i] is included in the character string to be searched. The number of matching parts is measured and f is counted.

S42においてi<Nでないと判定された場合にはS44に進み、評価部12は、検索対象の文字列に含まれていた部分文字列の割合を算出する。具体的には、S[j]に関する指標として、R[j]=r/Nを算出し、これを記憶部15に記憶する。   When it is determined that i <N is not satisfied in S42, the process proceeds to S44, and the evaluation unit 12 calculates the ratio of the partial character string included in the character string to be searched. Specifically, R [j] = r / N is calculated as an index related to S [j], and is stored in the storage unit 15.

さらに、評価部12は、検索対象の文字列に含まれていた部分文字列の出現頻度を算出する(S46)。具体的には、S[j]に関する指標として、F[j]=f/Nを算出し、これを記憶部15に記憶する。   Furthermore, the evaluation unit 12 calculates the appearance frequency of the partial character string included in the character string to be searched (S46). Specifically, F [j] = f / N is calculated as an index related to S [j], and is stored in the storage unit 15.

そして、評価部12は、j=j+1に設定し、j<Mであるか否かを判定し、j<Mである場合には、S32〜S48までの処理を繰り返す(S50,YES)。すなわち、最初の検索結果S[j]の全てについて、評価の指標であるR[j]およびF[j]を算出し、これらを記憶部15に記憶する。なお、本実施形態においては、このR[j]およびF[j]が、本発明における信頼度に相当するものである。   Then, the evaluation unit 12 sets j = j + 1, determines whether j <M, and if j <M, repeats the processing from S32 to S48 (S50, YES). That is, R [j] and F [j], which are evaluation indexes, are calculated for all the first search results S [j], and are stored in the storage unit 15. In the present embodiment, R [j] and F [j] correspond to the reliability in the present invention.

一方、S50においてj<Mでない場合にはS52に進み、評価部12は、最初の検索結果であるS[k](0≦k<M)をF[k]の降順に並べる。すなわち、評価部12は、出現頻度の指標であるF[k]の高い順にS[k]を並べる。そして、評価部12は、たとえば最初の検索結果の数Mが、予め設定された閾値よりも大きい場合には、F[k]の値が相対的に小さい下位の検索結果を検索結果から除外することによって最初の検索結果の絞り込みを行う。なお、除外対象となる検索結果の数は、予めユーザによって設定される。評価部12は、絞り込まれた検索結果を記憶部15に記憶する。   On the other hand, if j <M is not satisfied in S50, the process proceeds to S52, and the evaluation unit 12 arranges S [k] (0 ≦ k <M), which is the first search result, in descending order of F [k]. That is, the evaluation unit 12 arranges S [k] in descending order of F [k], which is an appearance frequency index. Then, for example, when the number M of the first search results is larger than a preset threshold value, the evaluation unit 12 excludes lower search results having a relatively small value of F [k] from the search results. This narrows down the first search result. Note that the number of search results to be excluded is set in advance by the user. The evaluation unit 12 stores the narrowed search result in the storage unit 15.

以上が、評価部12における最初の検索の検索結果の評価方法の説明である。   The above is the description of the evaluation method of the search result of the first search in the evaluation unit 12.

次に、図2に戻り、S14において、上述したように評価部12における最初の検索結果の評価が終了した後、追加検索要否判定部13において、上述した追加検索が必要か否かが判定される(S16)。具体的には、追加検索要否判定部13は、図3に示すS52において、F[k]の高い順に並べられたS[k]のうち、最も高い順位の検索結果の文字列であるS[m]に関するR[m]を記憶部15から読み出し、そのR[m]を予め設定された閾値と比較し、R[m]が閾値よりも大きい場合には、追加検索不要と判定する(S16,NO)。この場合、上述したように最初の検索結果を絞り込んだ検索結果を記憶部15から読み出して出力部16に出力する。なお、このように出現頻度の指標であるF[k]のみによって追加検索の要否を判定するのではなく、部分文字列が存在する割合の指標であるR[m]も考慮して追加検索の要否を判定するには、F[k]のみで判定したのでは、一部の部分文字列の出現頻度だけが高い場合があり得るからである。R[m]も考慮することによって、部分文字列の多くが検索対象の文字列に含まれているかを確認することができる。   Next, returning to FIG. 2, in S14, after the evaluation of the first search result in the evaluation unit 12 is completed as described above, the additional search necessity determination unit 13 determines whether the above-described additional search is necessary. (S16). Specifically, the additional search necessity determination unit 13 is the character string of the search result having the highest rank among S [k] arranged in descending order of F [k] in S52 shown in FIG. R [m] related to [m] is read from the storage unit 15, and the R [m] is compared with a preset threshold value. If R [m] is larger than the threshold value, it is determined that no additional search is necessary ( S16, NO). In this case, as described above, the search result obtained by narrowing down the first search result is read from the storage unit 15 and output to the output unit 16. It should be noted that, instead of determining whether or not an additional search is necessary based only on the appearance frequency index F [k], the additional search is performed in consideration of R [m], which is an index of the proportion of partial character strings. This is because, if it is determined only by F [k], only the appearance frequency of some partial character strings may be high. By considering R [m], it can be confirmed whether most of the partial character strings are included in the character string to be searched.

一方、追加検索要否判定部13は、R[m]が閾値以下である場合には、追加検索が必要であると判定する(S16,YES)。そして、追加検索要否判定部13において追加検索が必要であると判定された場合には、その旨が検索部11に出力され、検索部11は、上述したような追加検索を行い、その検索結果は記憶部15に記憶される(S18)。   On the other hand, the additional search necessity determination unit 13 determines that an additional search is necessary when R [m] is equal to or smaller than the threshold (S16, YES). When the additional search necessity determination unit 13 determines that an additional search is necessary, a message to that effect is output to the search unit 11, and the search unit 11 performs the additional search as described above. The result is stored in the storage unit 15 (S18).

このように2段階で検索を行うことによって、最初の検索では、冗長な検索結果の発生を抑制することができ、追加検索では、より広い検索結果を得ることができる。   By performing the search in two stages in this way, the occurrence of redundant search results can be suppressed in the initial search, and a wider search result can be obtained in the additional search.

そして、追加検索の後、検索結果統合部14は、追加検索の検索結果と絞り込まれた最初の検索結果とを記憶部15から読み出してこれらを合併統合し、その合併統合した検索結果を記憶部15に記憶する(S20)。   After the additional search, the search result integration unit 14 reads out the search result of the additional search and the narrowed-down initial search result from the storage unit 15, merges and integrates them, and stores the merged and integrated search result as the storage unit. 15 (S20).

次いで、合併統合された検索結果が評価部12によって読み出され、評価部12は、合併統合された検索結果について、上述した最初の検索結果の評価と同様にして、部分文字列を検索対象の文字列とを照合することによって評価を行う。   Next, the merged and integrated search result is read by the evaluation unit 12, and the evaluation unit 12 sets the partial character string as a search target in the same manner as the evaluation of the first search result described above. Evaluate by matching against a string.

そして、合併統合された検索結果の各文字列について、たとえばF[j]を算出し、これに基づいて各文字列のスコアリングを行う。   Then, for example, F [j] is calculated for each character string of the search result merged and integrated, and each character string is scored based on this.

そして、各文字列とそのスコアは記憶部15に記憶された後、出力部16によって読み出され、たとえばスコアが高い順に並べられてディスプレイ4に表示される。この際、合併統合された検索結果の全ての文字列を並べて表示するようにしてもよいし、スコアが最も高い文字列だけを表示させるようにしてもよいし、予め設定された数の上位のスコアの文字列だけを表示させるようにしてもよい。   Each character string and its score are stored in the storage unit 15, and then read out by the output unit 16. For example, the character strings and their scores are arranged in descending order and displayed on the display 4. At this time, all the character strings of the merged and integrated search results may be displayed side by side, or only the character string having the highest score may be displayed. Only the character string of the score may be displayed.

次に、上記した検索システムを薬剤検査システムに適用した例について説明する。薬剤検査システムは、患者に処方された薬剤が、医師の処方箋にしたがった正しいものであるか否かを検査するシステムである。   Next, an example in which the above-described search system is applied to a drug inspection system will be described. The medicine inspection system is a system for inspecting whether or not a medicine prescribed to a patient is correct according to a doctor's prescription.

具体的には、この薬剤検査システムにおいては、患者に渡される薬剤の包装に印字された薬剤名、製薬会社名および薬剤の量などを含む文字列が光電的に読み取られ、その読み取られた画像データが検索システムのOCR装置2に入力される。薬剤の包装としては、たとえばPTP(Press Through Package)などがある。図5は、光電的に読み取られるPTPの一例を示すものである。図5においては、薬剤名のみが複数個所に印字されているが、実際は、上述したように製薬会社名、薬剤の量またはマークなどが印字されている場合もある。   Specifically, in this medicine inspection system, a character string including a medicine name, a pharmaceutical company name, a medicine amount, and the like printed on a medicine packaging delivered to a patient is photoelectrically read, and the read image Data is input to the OCR device 2 of the search system. Examples of the medicine packaging include PTP (Press Through Package). FIG. 5 shows an example of PTP read photoelectrically. In FIG. 5, only the drug name is printed at a plurality of locations. However, as described above, in some cases, the name of the pharmaceutical company, the amount of the drug, or a mark may be printed.

そして、OCR装置2において、画像データに対して文字認識処理が施され、画像データ内に含まれる文字列が取得される。なお、図5に示すように画像データ内の複数箇所に薬剤名が印字されている場合には、これらの文字列を繋げて1つの文字列として検索を行ってもよいし、個別の文字列として検索を行ってもよい。   Then, in the OCR device 2, character recognition processing is performed on the image data, and a character string included in the image data is acquired. If drug names are printed at a plurality of locations in the image data as shown in FIG. 5, these character strings may be connected to perform a search as one character string, or individual character strings You may search as

そして、その取得された文字列が、文字列検索装置1に入力され、文字列検索装置1は、入力された文字列を用いて上述した検索、評価および追加検索などを行う。この際、データベース装置3には多数の薬剤名のデータが記憶されており、文字列検索装置1は、入力された文字列とデータベース装置3に記憶された多数の薬剤名とを照合することによって検索および追加検索を行う。   The acquired character string is input to the character string search device 1, and the character string search device 1 performs the above-described search, evaluation, additional search, and the like using the input character string. At this time, data of a large number of drug names are stored in the database device 3, and the character string search device 1 collates the input character string with a large number of drug names stored in the database device 3. Perform searches and additional searches.

そして、文字列検索装置1による検索結果について、上述したようにそれぞれスコアが算出され、たとえば図6に示すようにスコアが高い順に薬剤名が上から表示される。薬剤検査システムに対して医師の処方箋に従った薬剤名を予め設定入力しておき、薬剤検査システムにおいて、設定入力された薬剤名と検索結果の最も高いスコアの薬剤名とを比較することによって患者に渡された薬剤が正しいものか否かを判定する。そして、正しい薬剤である場合には、検査OKの表示が行われ、正しい薬剤でない場合や検索された薬剤がない場合には、目視による確認を促す等の表示が行われる。なお、検索結果の薬剤名の表示と処方箋の薬剤名の表示のみを行い、判定については、ユーザが行うようにしてもよい。   And as above-mentioned, a score is calculated about the search result by the character string search device 1, for example, as shown in FIG. 6, a medicine name is displayed from the top in order with a high score. The patient name is set and inputted in advance according to the doctor's prescription for the drug testing system, and the drug name is compared with the drug name with the highest score in the search result in the drug testing system. It is determined whether or not the medicine passed to is correct. When the medicine is correct, the test OK is displayed. When the medicine is not correct or when there is no searched medicine, display such as prompting for visual confirmation is performed. Note that only the display of the drug name of the search result and the display of the drug name of the prescription may be performed, and the determination may be performed by the user.

なお、上述したように薬剤検査システムに上記実施形態の検索システムを適用する場合、たとえば追加検索に用いるデータベース装置を、最初の検索に用いたデータベース装置とは異なるデータベース装置としてもよい。具体的には、予め記憶されている薬剤の種類数が異なるデータベース装置を用いてもよい。   In addition, when applying the search system of the said embodiment to a chemical | medical agent test | inspection system as mentioned above, it is good also considering the database apparatus used for an additional search as a database apparatus different from the database apparatus used for the first search, for example. Specifically, database devices having different types of medicines stored in advance may be used.

また、上記実施形態の検索システムにおいては、文字列受付部10がOCR装置2から出力された文字列を受け付けるようにしたが、OCR装置に限らず、たとえば音声認識処理によって取得された文字列を取得するようにしてもよい。すなわち、OCRや音声認識によって取得された文字列のようにノイズを含むような文字列であれば如何なる文字列でもよく、このような文字列の場合に、本発明の効果が顕著に表れる。もちろん、文字列受付部10によってノイズを含まない文字列を受け付けてもよい。   Moreover, in the search system of the said embodiment, although the character string reception part 10 received the character string output from the OCR apparatus 2, it is not restricted to an OCR apparatus, For example, the character string acquired by the speech recognition process is used. You may make it acquire. That is, any character string may be used as long as it includes noise such as a character string acquired by OCR or voice recognition. In such a character string, the effect of the present invention is remarkably exhibited. Of course, the character string accepting unit 10 may accept a character string that does not include noise.

また、上記実施形態の検索システムの説明では、追加検索を一回行うようにしたが、合併統合した検索結果の評価結果に基づいて、追加検索を2回以上行うようにしてもよい。   In the description of the search system of the above embodiment, the additional search is performed once. However, the additional search may be performed twice or more based on the evaluation result of the merged and integrated search result.

1 文字列検索装置
2 OCR装置
3 データベース装置
4 ディスプレイ
10 文字列受付部
11 検索部
12 評価部
13 追加検索要否判定部
14 検索結果統合部
15 記憶部
16 出力部
17 制御部
DESCRIPTION OF SYMBOLS 1 Character string search apparatus 2 OCR apparatus 3 Database apparatus 4 Display 10 Character string reception part 11 Search part 12 Evaluation part 13 Additional search necessity judgment part 14 Search result integration part 15 Storage part 16 Output part 17 Control part

Claims (9)

検索対象文字列を用いて、薬剤名が記憶されたデータ記憶部を参照して薬剤名の検索を行う検索部と、
前記検索部によって検索された検索結果である複数の薬剤名のいずれか1つの薬剤名を表す文字列を分割して生成した部分文字列のいずれかが前記検索対象文字列に一致する部分の数、及び前記部分文字列の各々に類似する部分文字列と一致する部分の数に応じて定められる出現頻度を求め、前記出現頻度に基づいた信頼度を算出する処理を、前記検索結果の複数の薬剤名の各々に対して施して前記薬剤名の各々の前記信頼度を算出する評価部と、
前記信頼度が高い順に薬剤名を出力する出力部とを備えた薬剤名出力装置。
A search unit that searches for a drug name with reference to a data storage unit in which the drug name is stored using a search target character string;
Number of portions in which any one of the partial character strings generated by dividing a character string representing one drug name of a plurality of drug names as search results searched by the search unit matches the search target character string A frequency of appearance determined according to the number of parts matching a partial character string similar to each of the partial character strings, and calculating a reliability based on the appearance frequency, An evaluator that applies each of the drug names to calculate the reliability of each of the drug names;
A drug name output device comprising: an output unit that outputs drug names in descending order of reliability.
前記検索部は、前記検索対象文字列を分割した部分文字列の組み合わせを検索クエリとして検索を行う請求項1記載の薬剤名出力装置。   The drug name output device according to claim 1, wherein the search unit performs a search using a combination of partial character strings obtained by dividing the search target character string as a search query. 前記検索対象文字列がOCRによって取得された文字列であり、
前記類似した部分文字列が、前記部分文字列のうちOCRによる誤認識が生じやすい文字に対して推定される他の文字を当て嵌めた新たな部分文字列である請求項1または2に記載の薬剤名出力装置。
The search target character string is a character string obtained by OCR;
The said similar partial character string is a new partial character string which applied another character estimated with respect to the character which is easy to produce the misrecognition by OCR among the said partial character strings. Drug name output device.
前記評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部をさらに備え、
前記検索部が、前記追加検索要否判定部において前記追加検索が必要であると判定された場合には、前記検索対象文字列に基づく前記追加検索を行い、
最初の前記検索の検索結果と前記追加検索の結果とを合併統合する検索結果統合部をさらに備えた請求項1から3のいずれか1項に記載の薬剤名出力装置。
An additional search necessity determination unit that determines whether an additional search is necessary based on the reliability calculated in the evaluation unit;
When the search unit determines that the additional search is necessary in the additional search necessity determination unit, performs the additional search based on the search target character string,
The medicine name output device according to any one of claims 1 to 3, further comprising a search result integration unit that merges and integrates the search result of the first search and the result of the additional search.
前記評価部が、前記部分文字列の出現頻度が高い前記検索結果の薬剤名から順に並べ、前記検索結果の薬剤名の数が予め設定された閾値よりも多い場合には、予め設定された数の下位の順位の前記検索結果の薬剤名を最初の前記検索の検索結果から除外する請求項4記載の薬剤名出力装置。   When the evaluation unit arranges in order from the drug name of the search result in which the appearance frequency of the partial character string is high, and the number of drug names of the search result is larger than a preset threshold, the preset number 5. The drug name output device according to claim 4, wherein drug names in the search results of a lower rank are excluded from search results of the first search. 前記追加検索要否判定部が、前記部分文字列の出現頻度が最も高い前記検索結果の薬剤名を取得し、該取得した薬剤名の前記部分文字列が前記検索対象文字列の中に含まれる割合が予め設定された閾値より大きい場合には、前記追加検索は不要と判定し、前記割合が閾値以下である場合には、前記追加検索が必要であると判定する請求項5記載の薬剤名出力装置。   The additional search necessity determination unit acquires the drug name of the search result with the highest appearance frequency of the partial character string, and the partial character string of the acquired drug name is included in the search target character string The drug name according to claim 5, wherein when the ratio is larger than a preset threshold, it is determined that the additional search is unnecessary, and when the ratio is equal to or less than the threshold, it is determined that the additional search is necessary. Output device. 最初の前記検索に用いられる前記検索対象文字列に基づく検索クエリと前記追加検索に用いられる前記検索対象文字列に基づく検索クエリとが異なる請求項4から6いずれか1項に記載の薬剤名出力装置。   The drug name output according to any one of claims 4 to 6, wherein a search query based on the search target character string used for the first search is different from a search query based on the search target character string used for the additional search. apparatus. 薬剤名出力装置が、
検索対象文字列を用いて、薬剤名が記憶されたデータ記憶部を参照して薬剤名の検索を行い、
前記検索による検索結果である複数の薬剤名のいずれか1つの薬剤名を表す文字列を分割して生成した部分文字列のいずれかが前記検索対象文字列に一致する部分の数、及び前記部分文字列の各々に類似する部分文字列と一致する部分の数に応じて定められる出現頻度を求め、前記出現頻度に基づいた信頼度を算出する処理を、前記検索結果の複数の薬剤名の各々に対して施して前記薬剤名の各々の前記信頼度を算出し、
前記信頼度が高い順に薬剤名を出力することを特徴とする薬剤名出力方法。
The drug name output device
Using the search target character string, the drug name is searched with reference to the data storage unit in which the drug name is stored,
The number of parts in which any one of the partial character strings generated by dividing a character string representing one drug name of a plurality of drug names as a search result by the search matches the search target character string, and the part A process of obtaining an appearance frequency determined according to the number of parts that match a partial character string similar to each of the character strings, and calculating a reliability based on the appearance frequency is performed for each of the plurality of drug names in the search result. To calculate the reliability of each of the drug names,
A drug name output method, wherein drug names are output in descending order of reliability.
コンピュータを、
検索対象文字列を用いて、薬剤名が記憶されたデータ記憶部を参照して薬剤名の検索を行う検索部と、
前記検索部によって検索された検索結果である複数の薬剤名のいずれか1つの薬剤名を表す文字列を分割して生成した部分文字列のいずれかが前記検索対象文字列に一致する部分の数、及び前記部分文字列の各々に類似する部分文字列と一致する部分の数に応じて定められる出現頻度を求め、前記出現頻度に基づいた信頼度を算出する処理を、前記検索結果の複数の薬剤名の各々に対して施して前記薬剤名の各々の前記信頼度を算出する評価部と、
前記信頼度が高い順に薬剤名を出力する出力部として機能させることを特徴とする薬剤名出力プログラム。
Computer
A search unit that searches for a drug name with reference to a data storage unit in which the drug name is stored using a search target character string;
Number of portions in which any one of the partial character strings generated by dividing a character string representing one drug name of a plurality of drug names as search results searched by the search unit matches the search target character string A frequency of appearance determined according to the number of parts matching a partial character string similar to each of the partial character strings, and calculating a reliability based on the appearance frequency, An evaluator that applies each of the drug names to calculate the reliability of each of the drug names;
A drug name output program that functions as an output unit that outputs drug names in descending order of reliability.
JP2018135921A 2018-07-19 2018-07-19 Drug name output device, drug name output method, and drug name output program Active JP6608119B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018135921A JP6608119B2 (en) 2018-07-19 2018-07-19 Drug name output device, drug name output method, and drug name output program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018135921A JP6608119B2 (en) 2018-07-19 2018-07-19 Drug name output device, drug name output method, and drug name output program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014214988A Division JP6374289B2 (en) 2014-10-22 2014-10-22 Character string search apparatus and method, and program

Publications (2)

Publication Number Publication Date
JP2018181370A JP2018181370A (en) 2018-11-15
JP6608119B2 true JP6608119B2 (en) 2019-11-20

Family

ID=64276917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018135921A Active JP6608119B2 (en) 2018-07-19 2018-07-19 Drug name output device, drug name output method, and drug name output program

Country Status (1)

Country Link
JP (1) JP6608119B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925819B (en) * 2020-12-21 2023-05-19 上海药慧信息技术有限公司 Method and device for mining bid-winning information of medicine

Also Published As

Publication number Publication date
JP2018181370A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
WO2019214149A1 (en) Text key information identification method, electronic device, and readable storage medium
US10146859B2 (en) System and method for entity recognition and linking
CN106844368B (en) Method for man-machine conversation, neural network system and user equipment
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
CN112417102B (en) Voice query method, device, server and readable storage medium
US9230009B2 (en) Routing of questions to appropriately trained question and answer system pipelines using clustering
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
JP5599662B2 (en) System and method for converting kanji into native language pronunciation sequence using statistical methods
KR20210158344A (en) Machine learning system for digital assistants
KR20160060821A (en) Question answering system and method for structured knowledge-base using deep natrural language question analysis
Wemhoener et al. Creating an improved version using noisy OCR from multiple editions
KR101897060B1 (en) Named Entity Recognition Model Generation Device and Method
US20110320490A1 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP5812534B2 (en) Question answering apparatus, method, and program
JP6608119B2 (en) Drug name output device, drug name output method, and drug name output program
JP6374289B2 (en) Character string search apparatus and method, and program
Abdulmalek et al. Levenstein's Algorithm On English and Arabic: A Survey
JP2004258531A (en) Voice recognition error correction method, system, and program
CN113780454B (en) Model training and calling method and device, computer equipment and storage medium
JP5594134B2 (en) Character string search device, character string search method, and character string search program
JP2004184951A (en) Method, device, and program for class identification model, and method, device, and program for class identification
Steinmetz et al. COALA-A Rule-Based Approach to Answer Type Prediction.
JP5348964B2 (en) Information processing apparatus, information processing method, information processing system, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191022

R150 Certificate of patent or registration of utility model

Ref document number: 6608119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250