JP2021174548A - Character recognition program for medical statement and character recognition device for medical statement - Google Patents

Character recognition program for medical statement and character recognition device for medical statement Download PDF

Info

Publication number
JP2021174548A
JP2021174548A JP2021070728A JP2021070728A JP2021174548A JP 2021174548 A JP2021174548 A JP 2021174548A JP 2021070728 A JP2021070728 A JP 2021070728A JP 2021070728 A JP2021070728 A JP 2021070728A JP 2021174548 A JP2021174548 A JP 2021174548A
Authority
JP
Japan
Prior art keywords
medical
character recognition
information
text information
image information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021070728A
Other languages
Japanese (ja)
Inventor
雄一朗 中川
Yuichiro Nakagawa
航平 三好
Kohei Miyoshi
寛 北村
Hiroshi Kitamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anipos Co Ltd
Original Assignee
Anipos Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anipos Co Ltd filed Critical Anipos Co Ltd
Publication of JP2021174548A publication Critical patent/JP2021174548A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

To provide a character recognition program for a medical statement and a character recognition device for the medical statement by which text information is easily extracted even in the case of the unformatted medical statement.SOLUTION: There is provided a character recognition program for a medical statement for performing character recognition processing of the medical statement, the program executes: a primary processing information acquisition step S104 of acquiring primary processing information in which text information constituted by performing the character recognition processing is linked with position information in image information of the text information; a line determination step S105 of linking the text information in predetermined height width in the image information as one line from the primary processing information; a table specification step S106 of specifying a position of a table included in the image information; a medical examination item determination step S107 of determining the line included in a range of the table whose position is specified as an object line regarding a medical examination item in the medical statement; and a medical examination item specification creation step S108 of extracting a name of the medical examination item and its amount from the object line and linking them with each other.SELECTED DRAWING: Figure 2

Description

本発明は、医療明細書を文字認識処理するための医療明細書用文字認識プログラム及び医療明細書用文字認識装置に関するものである。 The present invention relates to a medical specification character recognition program and a medical specification character recognition device for character recognition processing of a medical specification.

近年、どの業界であってもパソコンによりデジタル処理を行うことが当たり前に行われているが、一度紙に印刷されたものをデジタル処理したいという要望も多くある。 In recent years, it has become commonplace in any industry to perform digital processing using a personal computer, but there are also many requests for digital processing once printed on paper.

紙資料の内容についてデジタル処理を行いたいときには、スキャナ等の光学装置で読み取り、OCR(Optical Character Recognition)によってテキスト情報に変換するということが行われている(例えば、特許文献1参照)。 When it is desired to digitally process the contents of a paper document, it is read by an optical device such as a scanner and converted into text information by OCR (Optical Character Recognition) (see, for example, Patent Document 1).

ここで、例えば動物医療に関しペット保険の保険金の精算を行う場合、医療明細書を保険会社に送付し、保険会社が医療明細書の内容に基づいて保険金を支払う必要があるが、通常医療明細書は紙資料であるので、ここでも紙資料である医療明細書からテキスト情報を抽出する必要がある。 Here, for example, when paying for pet insurance claims related to veterinary medical care, a medical statement must be sent to the insurance company, and the insurance company must pay the insurance claims based on the contents of the medical statement. Since the statement is a paper document, it is necessary to extract text information from the medical statement, which is also a paper document.

特開2015−45910号公報JP-A-2015-45910

しかし、医療明細書はフォーマットが定型化されておらず、多種多様な医療明細書が存在する。 However, the format of medical statements is not standardized, and there are a wide variety of medical statements.

このように紙資料のフォーマットが定型化されていない場合、紙書類のどの部分を認識してデータ出力すべきか処理が複雑化するので、データを抽出し難いという問題がある。
現状として、医療明細書のデータ化は自動では行えておらず、オペレーターが手入力している。
When the format of the paper document is not standardized in this way, there is a problem that it is difficult to extract the data because the process of recognizing which part of the paper document should be recognized and outputting the data becomes complicated.
At present, the medical statement is not automatically converted into data, and the operator manually inputs it.

そこで、本発明の目的とするところは、定型化されていない医療明細書であってもテキスト情報を抽出し易い医療明細書用文字認識プログラム及び医療明細書用文字認識装置を提供することにある。 Therefore, an object of the present invention is to provide a medical specification character recognition program and a medical specification character recognition device that can easily extract text information even if the medical specification is not standardized. ..

上記の目的を達成するために、本発明の請求項1に記載の医療明細書用文字認識プログラムは、
医療明細書を文字認識処理するための医療明細書用文字認識プログラムであって、
画像情報中の読み取り対象に対して文字認識処理が行われてなるテキスト情報と前記テキスト情報の前記画像情報における位置情報とを紐付けた一次処理情報を取得する一次処理情報取得ステップ(S104)と、
前記一次処理情報から、前記画像情報中の所定の高さ幅に入っている前記テキスト情報を一つの行として紐付ける行判定ステップ(S105)と、
前記画像情報に含まれる表の位置を特定する表特定ステップ(S106)と、
前記位置を特定された表の範囲に含まれる前記行を、前記医療明細書における診療項目に関する対象行であると判定する診療項目判定ステップ(S107)と、
前記対象行から診療項目名とその金額とを抽出しそれらを紐付ける診療項目明細作成ステップ(S108)と、を実行することを特徴とする。
In order to achieve the above object, the medical specification character recognition program according to claim 1 of the present invention is used.
A character recognition program for medical statements for character recognition processing of medical statements.
The primary processing information acquisition step (S104) for acquiring the primary processing information in which the text information obtained by performing the character recognition processing on the reading target in the image information and the position information of the text information in the image information are associated with each other. ,
A line determination step (S105) in which the text information within a predetermined height width in the image information is linked as one line from the primary processing information, and
A table identification step (S106) for specifying the position of the table included in the image information, and
The medical item determination step (S107) for determining that the row included in the range of the table whose position is specified is the target row for the medical item in the medical specification, and the medical item determination step (S107).
It is characterized in that the medical item detail creation step (S108) of extracting the medical item name and the amount thereof from the target line and associating them with each other is executed.

また、請求項2に記載の医療明細書用文字認識プログラムは、
前記診療項目明細作成ステップ(S108)において、前記対象行での前記テキスト情報が数字の場合、前記数字の左側の前記テキスト情報を診療項目名と判断することを特徴とする。
In addition, the character recognition program for medical statements according to claim 2 is
In the medical item detail creation step (S108), when the text information in the target line is a number, the text information on the left side of the number is determined to be the medical item name.

また、請求項3に記載の医療明細書用文字認識プログラムは、
前記対象行には数量及び単価が含まれ、前記金額が数量と単価の積であることの検算を行う金額検算ステップ(S110)をさらに備えることを特徴とする。
In addition, the character recognition program for medical statements according to claim 3 is
The target line includes a quantity and a unit price, and further includes a monetary amount checking step (S110) for checking that the amount is the product of the quantity and the unit price.

また、請求項4に記載の医療明細書用文字認識装置(10)は、
医療明細書を文字認識処理するための医療明細書用文字認識装置(10)であって、
画像情報中の読み取り対象に対して文字認識処理が行われてなるテキスト情報と前記テキスト情報の前記画像情報における位置情報とを紐付けた一次処理情報を取得する一次処理情報取得手段(11d)と、
前記一次処理情報から、前記画像情報中の所定の高さ幅に入っている前記テキスト情報を一つの行として紐付ける行判定手段(11e)と、
前記画像情報に含まれる表の位置を特定する表特定手段(11f)と、
前記位置を特定された表の範囲に含まれる前記行を、前記医療明細書における診療項目に関する対象行であると判定する診療項目判定手段と、
前記対象行から診療項目名とその金額とを抽出しそれらを紐付ける診療項目明細作成手段(11h)と、を備えることを特徴とする。
Further, the medical statement character recognition device (10) according to claim 4 is
A character recognition device (10) for a medical statement for character recognition processing of a medical statement.
A primary processing information acquisition means (11d) for acquiring primary processing information in which text information obtained by performing character recognition processing on a reading target in image information and position information of the text information in the image information are linked. ,
A line determination means (11e) that links the text information within a predetermined height width in the image information as one line from the primary processing information, and
A table specifying means (11f) for specifying the position of the table included in the image information, and
A medical item determination means for determining that the row included in the range of the table whose position is specified is a target row for a medical item in the medical specification, and
It is characterized by comprising a medical item detail creating means (11h) for extracting a medical item name and its amount from the target line and associating them with each other.

ここで、上記括弧内の記号は、図面および後述する発明を実施するための形態に掲載された対応要素または対応事項を示す。 Here, the symbols in parentheses indicate the corresponding elements or corresponding items described in the drawings and the embodiment for carrying out the invention described later.

本発明によれば、テキスト情報と位置情報とを紐付けた一次処理情報を取得し、一次処理情報から、画像情報中の所定の高さ幅に入っているテキスト情報を一つの行として紐付け、画像情報に含まれる表の位置を特定し、位置を特定された表の範囲に含まれる行を、医療明細書における診療項目に関する対象行であると判定するとともに、対象行から診療項目名とその金額とを抽出しそれらを紐付けるので、定型化されていない医療明細書であっても紙資料の医療明細書からテキスト情報を抽出し易い。 According to the present invention, the primary processing information in which the text information and the position information are linked is acquired, and the text information within a predetermined height width in the image information is linked as one line from the primary processing information. , The position of the table included in the image information is specified, and the row included in the range of the specified table is determined to be the target row related to the medical item in the medical statement, and the target row is used as the medical item name. Since the amount of money is extracted and linked to each other, it is easy to extract text information from the medical statement of paper materials even if it is not a standardized medical statement.

また、本発明によれば、対象行でのテキスト情報が数字の場合、数字の左側のテキスト情報を診療項目名と判断するので、より正確にテキスト情報を抽出し易い。 Further, according to the present invention, when the text information on the target line is a number, the text information on the left side of the number is determined to be the medical item name, so that the text information can be extracted more accurately.

また、本発明によれば、対象行には数量及び単価が含まれ、金額が数量と単価の積であることの検算を行うので、文字認識がより正確になる。 Further, according to the present invention, the target line includes the quantity and the unit price, and it is checked that the amount is the product of the quantity and the unit price, so that the character recognition becomes more accurate.

なお、本発明の医療明細書用文字認識プログラム及び医療明細書用文字認識装置のように、位置を特定された表の範囲に含まれる行を、医療明細書における診療項目に関する対象行であると判定する点は、上述した特許文献1には全く記載されていない。 In addition, like the medical specification character recognition program and the medical specification character recognition device of the present invention, a line included in the range of the table whose position is specified is regarded as a target line related to a medical item in the medical specification. The point to be determined is not described at all in Patent Document 1 described above.

本発明の実施形態に係る医療明細書用文字認識装置の構成概要を示すブロック図である。It is a block diagram which shows the structural outline of the character recognition apparatus for medical specifications which concerns on embodiment of this invention. 本発明の実施形態に係る医療明細書用文字認識プログラムでの処理を示すフローチャートである。It is a flowchart which shows the process in the character recognition program for medical specification which concerns on embodiment of this invention. 本発明の実施形態に係る医療明細書用文字認識プログラムで処理する医療明細書の例である。This is an example of a medical specification processed by the medical specification character recognition program according to the embodiment of the present invention. 本発明の実施形態に係る医療明細書用文字認識プログラムで処理する医療明細書の例である。This is an example of a medical specification processed by the medical specification character recognition program according to the embodiment of the present invention.

図1乃至図4を参照して、本発明の実施形態に係る医療明細書用文字認識プログラム及び医療明細書用文字認識装置10を説明する。
この医療明細書用文字認識装置10は、図1に示すようにサーバーであって、その制御部11として画像情報取得手段11aと、前処理手段11bと、画像情報送信手段11cと、一次処理情報取得手段11dと、行判定手段11eと、表特定手段11fと、診療項目名判定手段11gと、診療項目明細作成手段11hと、合計金額判定手段11iと、金額検算手段11jと、を備える。
The medical specification character recognition program and the medical specification character recognition device 10 according to the embodiment of the present invention will be described with reference to FIGS. 1 to 4.
As shown in FIG. 1, the medical statement character recognition device 10 is a server, and its control unit 11 includes an image information acquisition means 11a, a preprocessing means 11b, an image information transmission means 11c, and primary processing information. The acquisition means 11d, the row determination means 11e, the table identification means 11f, the medical treatment item name determination means 11g, the medical treatment item detail creation means 11h, the total amount determination means 11i, and the amount confirmation means 11j are provided.

また、通常のサーバーが有している記憶部12等の構成要素を本実施形態に係る医療明細書用文字認識装置10も当然に有しており、その記憶部12には本実施形態に係る医療明細書用文字認識プログラムや、取得等したデータが適宜格納されたり読み出したりされる。 In addition, the medical statement character recognition device 10 according to the present embodiment naturally has components such as a storage unit 12 that a normal server has, and the storage unit 12 according to the present embodiment. The character recognition program for medical statements and the acquired data are stored and read as appropriate.

この医療明細書用文字認識装置10が行う制御について図2を参照しながら説明する。
まず、スマートフォンのカメラ等の光学装置を使用して図3及び図4に示すような医療明細書を撮影した画像情報を、医療明細書用文字認識装置10の画像情報取得手段11aが取得する(ステップS101(以下、「ステップ」という語を省略する))。
なお、本実施形態においては、情報処理の分野において当然に行っている、データをバッファ等の記憶部12に一時的に保存することについては説明を省略している。
The control performed by the medical specification character recognition device 10 will be described with reference to FIG.
First, the image information acquisition means 11a of the medical statement character recognition device 10 acquires the image information obtained by photographing the medical statement as shown in FIGS. 3 and 4 using an optical device such as a smartphone camera ( Step S101 (hereinafter, the word "step" is omitted)).
In the present embodiment, the description of temporarily storing data in a storage unit 12 such as a buffer, which is naturally performed in the field of information processing, is omitted.

次に前処理手段11bは、OCRの前処理として画像情報に対して傾きの補正と歪みの補正を行う(S102)。これらの補正はOCRを行うための大前提であり、従来行われているものである。
次に画像情報送信手段11cが画像情報をインターネット100を介して外部サーバーに送信する(S103)。
Next, the preprocessing means 11b corrects the inclination and the distortion of the image information as the preprocessing of the OCR (S102). These corrections are a major premise for performing OCR, and are conventionally performed.
Next, the image information transmitting means 11c transmits the image information to the external server via the Internet 100 (S103).

次に一次処理情報取得手段11dは、画像情報中の読み取り対象に対して文字認識処理、いわゆるOCR処理が行われてなるテキスト情報とテキスト情報の画像情報における位置情報とを紐付けた一次処理情報を取得する(S104)。
本実施形態においてはこのOCR処理自体は外部サーバーが行い、一次処理情報取得手段11dはその外部サーバーから一時処理情報を取得した。
Next, the primary processing information acquisition means 11d is the primary processing information in which the text information obtained by performing character recognition processing, so-called OCR processing, on the reading target in the image information and the position information in the image information of the text information are linked. (S104).
In the present embodiment, the OCR process itself is performed by an external server, and the primary processing information acquisition means 11d acquires temporary processing information from the external server.

次に行判定手段11eは、一次処理情報から、画像情報中の所定の高さ幅に入っているテキスト情報を一つの行として紐付ける(S105)。
この段階では、診療項目名と単価や金額が行として紐付けられたものもあるし、医療明細書に記載されている動物病院の住所や電話番号、診療時間や休診日等のその他お知らせが含まれた行も存在する。
また、このとき行内に空白があればその空白によってテキスト情報をブロックに分ける。
Next, the line determination means 11e associates the text information within a predetermined height width in the image information with the primary processing information as one line (S105).
At this stage, some medical item names are linked to unit prices and amounts as lines, and other information such as veterinary hospital addresses and telephone numbers, medical hours and holidays listed on the medical statement is included. There is also a line that has been removed.
At this time, if there is a blank in the line, the text information is divided into blocks according to the blank.

次に表特定手段11fは、画像情報に含まれる表の位置を特定する(S106)。
この特定処理に関して、まず言葉の定義を行う。
小計の横についている可能性がある文言としては「小計」、「計」、「合計」等である。これらを小計判定文言と呼ぶ。
また、合計金額の横についている可能性がある文言としては「税込み金額」、「今回ご請求」、「合計金額」、「今回診療計」、「ご請求額」、「請求額」、「合計」等であり、これらを合計金額判定文言と呼ぶ。
Next, the table specifying means 11f specifies the position of the table included in the image information (S106).
Regarding this specific process, we first define the words.
Words that may be next to the subtotal include "subtotal,""total," and "total." These are called subtotal judgment words.
In addition, the words that may be next to the total amount are "amount including tax", "billing this time", "total amount", "medical treatment total this time", "billing amount", "billing amount", "total". , Etc., and these are called total amount judgment words.

表の位置の特定処理に関し、具体的には「数量」や「単価」という文言(表開始文言)が現れたらその位置が表の開始(上端)を表していると判定する。
一方、小計判定文言や合計金額判定文言のいずれかの文言(表終了文言)を検出したときには表の終了を表している。複数検出した場合には、もっとも下方に位置する表終了文言の位置を表の終了とする。
なお、これらの表終了文言の右側にはそれの数量を表す数字が存在するはずなので、より正確にはその数字が表の終了位置である。
表の右端はいずれの数字のテキスト情報よりも右側とする。一方、表の左端はいずれかのテキスト情報よりも左側とする。
また、この表の特定処理に関して、スマートフォン等の光学装置のユーザーから入力された表の範囲指定を組み合わせることにより、上記表の開始の判定及び表の終了の判定の精度を上げることもできる。
Regarding the process of specifying the position of the table, specifically, when the words "quantity" and "unit price" (table start wording) appear, it is determined that the position represents the start (upper end) of the table.
On the other hand, when either the subtotal judgment wording or the total amount judgment wording (table end wording) is detected, the end of the table is indicated. When more than one is detected, the position of the table end wording located at the lowest position is regarded as the end of the table.
In addition, since there should be a number indicating the quantity on the right side of these table end words, that number is the end position of the table more accurately.
The right edge of the table is to the right of the text information of any number. On the other hand, the left end of the table is on the left side of any text information.
Further, regarding the specific processing of this table, the accuracy of the determination of the start of the above table and the determination of the end of the table can be improved by combining the range designation of the table input from the user of the optical device such as a smartphone.

次に診療項目名判定手段11gは、位置を特定された表の範囲に含まれる行を、医療明細書における診療項目に関する対象行であると判定する(S107)。
すなわち、S106で特定された表の中には診療項目名やその金額だけでなく、医療明細書に記載されている動物病院の住所や電話番号、診療時間や休診日等のその他お知らせが行として含まれているが、表の範囲から動物病院の住所や電話番号、診療時間や休診日等のその他お知らせを除くことで、その除いた残りを診療項目に関する対象行とする。
Next, the medical item name determining means 11g determines that the row included in the range of the table whose position is specified is the target row related to the medical item in the medical specification (S107).
That is, in the table specified in S106, not only the medical item name and the amount thereof, but also the address and telephone number of the veterinary hospital described in the medical statement, the medical treatment hours, the holidays, etc. are displayed as lines. Although it is included, by excluding other notifications such as the address and telephone number of the veterinary hospital, consultation hours and holidays from the range of the table, the rest of the exclusion will be the target lines for medical treatment items.

次に診療項目明細作成手段11hは、対象行から診療項目名とその金額とを抽出しそれらを紐付ける(S108)。
詳しくは、それぞれの対象行におけるテキスト情報が数字の場合、数字の左側のテキスト情報を診療項目名と判断する。
また、その診療項目名と判断したテキスト情報が表の中の「診療項目」等の文言の位置の下方に位置していることを確認する。
本実施形態においては数量及び単価の記載があり、金額は数量と単価の積となっている。
数量と単価のテキスト情報(数字)の位置がそれぞれ「数量」と「単価」の文言の位置の下方にあることも確認する。
Next, the medical item detail creating means 11h extracts the medical item name and the amount thereof from the target line and associates them (S108).
Specifically, when the text information in each target line is a number, the text information on the left side of the number is determined to be the medical item name.
In addition, it is confirmed that the text information determined to be the medical item name is located below the position of the wording such as "medical item" in the table.
In this embodiment, the quantity and the unit price are described, and the amount is the product of the quantity and the unit price.
Also confirm that the position of the text information (number) of quantity and unit price is below the position of the wording of "quantity" and "unit price", respectively.

次に合計金額判定手段11iは、対象行から合計金額判定文言とその右側の数字を抽出しそれらを紐付け、その数字が合計金額であるとして保持する(S109)。 Next, the total amount determination means 11i extracts the total amount determination wording and the number on the right side of the target line, links them, and holds the number as the total amount (S109).

次に金額検算手段11jは、対象行において金額が数量と単価の積であることの検算を行う(S110)。また、対象行の金額の和が合計金額と等しいことの検算を行う。
また、数字の頭に付く円マークを「4」と誤認識する場合があるので、数字の頭のテキスト情報が「4」のときも検算を行う。
そして、この検算結果が正しければこれで終了する。
一方、検算結果が正しくなければ再度OCR処理を行う。一連のフローを繰り返してもよいし、再度のOCR処理ではテキスト情報だけ取れればそれで済むので、すぐに検算(S110)に戻ってもよい。
Next, the amount checking means 11j checks that the amount is the product of the quantity and the unit price in the target line (S110). It also checks that the sum of the amounts in the target line is equal to the total amount.
In addition, since the yen mark attached to the beginning of the number may be mistakenly recognized as "4", the check is performed even when the text information at the beginning of the number is "4".
And if this check result is correct, it ends with this.
On the other hand, if the verification result is not correct, the OCR process is performed again. A series of flows may be repeated, or in the OCR process again, only the text information needs to be obtained, so the check (S110) may be returned immediately.

以上のように構成された医療明細書用文字認識プログラム及び医療明細書用文字認識装置10によれば、テキスト情報と位置情報とを紐付けた一次処理情報を取得し、一次処理情報から、画像情報中の所定の高さ幅に入っているテキスト情報を一つの行として紐付け、画像情報に含まれる表の位置を特定し、位置を特定された表の範囲に含まれる行を、医療明細書における診療項目に関する対象行であると判定するとともに、対象行から診療項目名とその金額とを抽出しそれらを紐付けるので、定型化されていない医療明細書であっても紙資料の医療明細書からテキスト情報を抽出し易い。 According to the medical statement character recognition program and the medical statement character recognition device 10 configured as described above, the primary processing information in which the text information and the position information are linked is acquired, and the image is obtained from the primary processing information. Text information within a predetermined height width in the information is linked as one row, the position of the table included in the image information is specified, and the row included in the range of the specified table is the medical statement. Since it is determined that the line is the target line related to the medical item in the document, the medical item name and its amount are extracted from the target line and linked to each other. Easy to extract text information from books.

また、対象行でのテキスト情報が数字の場合、数字の左側のテキスト情報を診療項目名と判断するので、より正確にテキスト情報を抽出し易い。
さらに、対象行には数量及び単価が含まれ、金額が数量と単価の積であることの検算を行うので、文字認識がより正確になる。
Further, when the text information on the target line is a number, the text information on the left side of the number is determined as the medical item name, so that the text information can be extracted more accurately.
Furthermore, since the target line includes the quantity and the unit price and checks that the amount is the product of the quantity and the unit price, the character recognition becomes more accurate.

なお、本実施形態において、対象行における金額は数量と単価の積であるとしたが、これに限られるものではなく、数量と単価が省力され診療項目の金額だけが記載されていてもよい。 In the present embodiment, the amount of money in the target bank is the product of the quantity and the unit price, but the present invention is not limited to this, and the quantity and the unit price may be saved and only the amount of the medical treatment item may be described.

また、表開始文言や表終了文言は例示のものに限られない。その他の医療明細書に表われている文言も全て例示のものに限られない。 In addition, the wording at the beginning of the table and the wording at the end of the table are not limited to examples. All the wording appearing in other medical statements is not limited to the examples.

また、診療項目名について辞書を作成しておき、診療項目名のテキスト情報がその辞書に登録された文言と所定の割合以上合致する場合、テキスト情報をその辞書の文言に置き換えてもよい。
具体的には、データセットとして所持している複数枚の診療明細に含まれるテキスト、あるいは医薬品メーカーの公開している薬剤名等のリストなどから、診療明細特有の単語の辞書(Xとする)を作成しておく。
修正前の診療項目名、あるいはそれを適当なルール(例えば、括弧記号が入っていたら分割するなど)で単語単位に分割したもののそれぞれ(Aとする)に対して、以下の方法でXを用いた修正を試みる。
Aと、単語の辞書Xに含まれる各単語(B_iとする)の間で、何らかの方法で類似度(小さいほど類似しているとする)をd(A,B_i)として計算する。この類似度の計算方法としては、編集距離(レーベンシュタイン距離)などが考えられる。
そして、d(A,B_1),d(A,B_2),…,のうち、類似度が最小になる(つまり、最も類似しているとみなされる)B_iをB_i’とする。
そのB_i’に対する類似度d(A,B_i’)が、Aの値によって決まる閾値λ_A以下になっていたら、AとB_i’は十分類似しているとみなして、AをB_i’で置換して修正する。閾値λ_Aは、例えばAの語長をlen(A)として、λ_A=0.5×len(A)などとして定義する。
Further, if a dictionary is created for the medical item name and the text information of the medical item name matches the wording registered in the dictionary by a predetermined ratio or more, the text information may be replaced with the wording of the dictionary.
Specifically, a dictionary of words peculiar to medical treatment details (referred to as X) from the text included in multiple medical details possessed as a data set or the list of drug names published by the drug manufacturer. Is created.
Use X in the following method for each of the medical item names before correction, or those that are divided into word units (referred to as A) according to appropriate rules (for example, if there is a parenthesis symbol, divide them). Try to fix it.
The degree of similarity (smaller is assumed to be similar) is calculated as d (A, B_i) between A and each word (referred to as B_i) included in the word dictionary X. As a method of calculating this similarity, an editing distance (Levenshtein distance) or the like can be considered.
Then, among d (A, B_1), d (A, B_2), ..., B_i having the smallest degree of similarity (that is, being considered to be the most similar) is defined as B_i'.
If the degree of similarity d (A, B_i') to B_i'is less than or equal to the threshold value λ_A determined by the value of A, it is considered that A and B_i'are sufficiently similar, and A is replaced with B_i'. Fix it. The threshold value λ_A is defined, for example, with the word length of A as len (A) and λ_A = 0.5 × len (A).

また、OCR処理を外部サーバーで行ったが、医療明細書用文字認識装置10内で行ってもよい。 Further, although the OCR processing is performed by the external server, it may be performed in the medical statement character recognition device 10.

10 医療明細書用文字認識装置
11 制御部
11a 画像情報取得手段
11b 前処理手段
11c 画像情報送信手段
11d 一次処理情報取得手段
11e 行判定手段
11f 表特定手段
11g 診療項目名判定手段
11h 診療項目明細作成手段
11i 合計金額判定手段
11j 金額検算手段
12 記憶部
100 インターネット
10 Character recognition device for medical statements 11 Control unit 11a Image information acquisition means 11b Preprocessing means 11c Image information transmission means 11d Primary processing information acquisition means 11e Row determination means 11f Table identification means 11g Medical item name determination means 11h Medical item details creation Means 11i Total amount determination means 11j Amount verification means 12 Storage unit 100 Internet

Claims (4)

医療明細書を文字認識処理するための医療明細書用文字認識プログラムであって、
画像情報中の読み取り対象に対して文字認識処理が行われてなるテキスト情報と前記テキスト情報の前記画像情報における位置情報とを紐付けた一次処理情報を取得する一次処理情報取得ステップと、
前記一次処理情報から、前記画像情報中の所定の高さ幅に入っている前記テキスト情報を一つの行として紐付ける行判定ステップと、
前記画像情報に含まれる表の位置を特定する表特定ステップと、
前記位置を特定された表の範囲に含まれる前記行を、前記医療明細書における診療項目に関する対象行であると判定する診療項目判定ステップと、
前記対象行から診療項目名とその金額とを抽出しそれらを紐付ける診療項目明細作成ステップと、を実行することを特徴とする医療明細書用文字認識プログラム。
A character recognition program for medical statements for character recognition processing of medical statements.
A primary processing information acquisition step of acquiring primary processing information in which text information obtained by performing character recognition processing on a reading target in image information and position information of the text information in the image information are associated with each other.
From the primary processing information, a line determination step of associating the text information within a predetermined height width in the image information as one line, and
A table identification step for specifying the position of the table included in the image information, and
A medical item determination step for determining that the row included in the range of the table whose position is specified is a target row for a medical item in the medical specification, and a medical item determination step.
A character recognition program for a medical statement, characterized in that a medical item detail creation step of extracting a medical item name and its amount from the target line and associating them with each other is executed.
前記診療項目明細作成ステップにおいて、前記対象行での前記テキスト情報が数字の場合、前記数字の左側の前記テキスト情報を診療項目名と判断することを特徴とする請求項1に記載の医療明細書用文字認識プログラム。 The medical statement according to claim 1, wherein when the text information in the target line is a number in the medical item detail creation step, the text information on the left side of the number is determined as the medical item name. Character recognition program. 前記対象行には数量及び単価が含まれ、前記金額が数量と単価の積であることの検算を行う金額検算ステップをさらに備えることを特徴とする請求項1又は2に記載の医療明細書用文字認識プログラム。 The medical statement according to claim 1 or 2, wherein the target line includes a quantity and a unit price, and further includes a monetary amount checking step for checking that the amount is the product of the quantity and the unit price. Character recognition program. 医療明細書を文字認識処理するための医療明細書用文字認識装置であって、
画像情報中の読み取り対象に対して文字認識処理が行われてなるテキスト情報と前記テキスト情報の前記画像情報における位置情報とを紐付けた一次処理情報を取得する一次処理情報取得手段と、
前記一次処理情報から、前記画像情報中の所定の高さ幅に入っている前記テキスト情報を一つの行として紐付ける行判定手段と、
前記画像情報に含まれる表の位置を特定する表特定手段と、
前記位置を特定された表の範囲に含まれる前記行を、前記医療明細書における診療項目に関する対象行であると判定する診療項目判定手段と、
前記対象行から診療項目名とその金額とを抽出しそれらを紐付ける診療項目明細作成手段と、を備えることを特徴とする医療明細書用文字認識装置。
A character recognition device for medical statements for character recognition processing of medical statements.
A primary processing information acquisition means for acquiring primary processing information in which text information obtained by performing character recognition processing on a reading target in image information and position information of the text information in the image information are associated with each other.
A line determination means for associating the text information within a predetermined height width in the image information as one line from the primary processing information, and
A table specifying means for specifying the position of the table included in the image information, and
A medical item determination means for determining that the row included in the range of the table whose position is specified is a target row for a medical item in the medical specification, and
A character recognition device for a medical statement, comprising: a medical item detail creating means for extracting a medical item name and its amount from the target line and associating them with each other.
JP2021070728A 2020-04-20 2021-04-19 Character recognition program for medical statement and character recognition device for medical statement Pending JP2021174548A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020075060 2020-04-20
JP2020075060 2020-04-20

Publications (1)

Publication Number Publication Date
JP2021174548A true JP2021174548A (en) 2021-11-01

Family

ID=78280181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021070728A Pending JP2021174548A (en) 2020-04-20 2021-04-19 Character recognition program for medical statement and character recognition device for medical statement

Country Status (1)

Country Link
JP (1) JP2021174548A (en)

Similar Documents

Publication Publication Date Title
US10783366B2 (en) Computer and document identification method
USRE47037E1 (en) Efficient work flow system and method for processing taxpayer source documents
US9495658B2 (en) System, method, and apparatus for barcode identification workflow
US9286526B1 (en) Cohort-based learning from user edits
US20190286692A1 (en) Computing machine and template management method
US11477330B2 (en) Information processing device, information processing system, and non-transitory computer readable medium for providing suggestions to reconcile an inconsistency between content of related documents
US9311529B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
CN111126370A (en) OCR recognition result-based longest common substring automatic error correction method and system
CN112487859A (en) Information processing apparatus, information processing method, and computer readable medium
EP3086271A1 (en) Method and computer system for automatic handling and payment of invoices
JP2021174548A (en) Character recognition program for medical statement and character recognition device for medical statement
CN109359878B (en) Archive data processing method, computer device and computer readable storage medium
CN111428497A (en) Method, device and equipment for automatically extracting financing information
US10970483B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2022077946A (en) Data processor, data processing method and program
JP7452809B1 (en) Information processing device, information processing method and program
WO2023021636A1 (en) Data processing device, data processing method, and program
CN116030481A (en) Bank electronic receipt PDF file identification method, equipment and medium
JP4321109B2 (en) Form processing system, management server, correction device, and program
CN115862047A (en) OCR-based (optical character recognition-based) manifest identification and calibration method
CN115761745A (en) Bill data identification method and device, electronic equipment and storage medium
JP2023020842A (en) Data processing device, data processing method, and program
JP4893232B2 (en) Information processing apparatus having information input support function
CN118193596A (en) Form recognition result processing method, device, equipment, medium and product
CN115860686A (en) Data entry method, device, equipment and medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240304