JP5207810B2 - Term input support apparatus and method, and program - Google Patents
Term input support apparatus and method, and program Download PDFInfo
- Publication number
- JP5207810B2 JP5207810B2 JP2008111615A JP2008111615A JP5207810B2 JP 5207810 B2 JP5207810 B2 JP 5207810B2 JP 2008111615 A JP2008111615 A JP 2008111615A JP 2008111615 A JP2008111615 A JP 2008111615A JP 5207810 B2 JP5207810 B2 JP 5207810B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- character string
- input
- dictionary
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
本発明は、難読漢字や判別困難な文字を含む用語(文字列)の入力支援技術に関する。 The present invention relates to an input support technology for terms (character strings) including difficult-to-read Chinese characters and characters that are difficult to distinguish.
生・損保、簡保などの保険会社では、契約者から提出された診断書を基に、審査や支払査定を行う。このとき、傷病名欄、手術名欄だけではなく、経過欄に記載されている過去の病歴なども査定の判断材料となる。通常診断書は、専門家である医者が記載するが、入力作業は保険会社もしくは外注、アルバイトなどの素人が担当する。そのため、難解な専門用語や、読めない字が出てくると入力効率が大きく低下するという問題がある。 Insurance companies such as life / non-life insurance and insurance provide screening and assessment of payment based on the medical certificate submitted by the contractor. At this time, not only the injury and illness name column and the operation name column, but also the past medical history described in the progress column are used as judgment materials. Usually, a doctor who is a specialist writes the medical certificate, but an insurance company or an outsourcer or a part-time worker is in charge of the input work. For this reason, there is a problem in that input efficiency is greatly reduced when difficult technical terms or unreadable characters appear.
また近年、これら診断書の入力間違いや入力漏れによる査定ミスが表面化し、社会問題化している。そのため、診断書作成段階、オペレータの入力段階のそれぞれで、入力漏れ・間違いを防ぐ手段が求められている。中でも入力段階で、オペレータが読めない漢字を含む病名・手術名の入力間違い・効率低下を避けることが課題となってくる。 In recent years, mistakes in the input of these medical certificates and assessment errors due to omissions have surfaced and have become a social problem. Therefore, there is a need for means for preventing omissions and mistakes in each of the medical certificate preparation stage and the operator input stage. In particular, at the input stage, it becomes a problem to avoid mistakes in input and reduction in efficiency of disease names and surgery names including kanji that the operator cannot read.
現在、難読漢字を含む用語を入力する手段として、手書き文字入力インタフェースを備えた手段が提案されている(特許文献1又は2参照)。
Currently, as a means for inputting terms including difficult-to-read Chinese characters, a means having a handwritten character input interface has been proposed (see
しかしながら、特許文献1及び2のどちらも、フロントエンドプロセッサ等で入力している途中で、入力インタフェースを起動して手書き入力する手間が必要となり、入力効率の低下は避けられない。また、指定した部首の並びに厳密に合致するものを検索するため、入力文字列と専門用語辞書の表記がゆらいだ場合などに対応できない。
However, both
また、漢字構成要素(偏・旁)を用いた検索が知られているが、この検索方法だけでは、候補となる単語が多く出力するため、選択効率の低下が避けられない。このため、入力文字に対して最も妥当と思われる文字列を評価し、候補として提示する必要がある。 In addition, a search using kanji constituent elements (bias / 旁) is known. However, this search method alone outputs a large number of candidate words, and a reduction in selection efficiency is inevitable. For this reason, it is necessary to evaluate a character string that seems to be most appropriate for the input character and present it as a candidate.
本発明はこのような状況に鑑みてなされたものであり、専門的過ぎて難解な文字列や、かすれていたりつぶれたりして(或いは下手な手書きで)読めない文字列を正確に、かつ効率的に入力することができるようにする手法を提供するものである。 The present invention has been made in view of such a situation, and is accurate and efficient for a character string that is too technical and difficult to understand, or a character string that is blurred or crushed (or poorly handwritten). It is a technique that allows a user to input automatically.
上記課題を解決するために、本発明は、読めない文字(難解な文字や判別不能な文字)を含む文字列に対して判る部分のみを指定して専門用語に変換するものである。 In order to solve the above-mentioned problems, the present invention designates only a recognized part for a character string including an unreadable character (a difficult character or an indistinguishable character) and converts it into a technical term.
より具体的には、本発明は用語(専門用語や判読不能語)の入力支援に関し、部分文字列辞書の作成と、入力指定と、候補用語の重み付けの処理を含んでいる。部分文字列辞書の処理では、専門用語辞書と、読みに変換したパターンと、構成要素に展開したパターンについて、全ての部分文字列の頻度を計算した部分文字列辞書が作成される。また、入力指定の処理では、通常の文字(カタカナひらがな漢字、アルファベット、数字)に加えて、判別できない文字が任意文字として指定され、或いは、漢字を構成する偏・旁の並びを指定される。候補用語の重み付けの処理では、変換対象となる入力文章に含まれる全ての部分文字列を特徴素とし、各部分文字列の頻度の逆数を基に計算される値を特徴量とする特徴ベクトルを生成し、入力と専門用語間の距離を計算して、予め定められた上限数だけ類似度の高い順に候補を返す。また、既に入力済みの他の項目の内容と変換候補との同時出現確率と、前記類似度の掛け算の値を優先度として、優先度の高い順に候補を返す。 More specifically, the present invention relates to input support of terms (technical terms and unintelligible words), and includes processing for creating a partial character string dictionary, input designation, and weighting of candidate terms. In the processing of the partial character string dictionary, a partial character string dictionary in which the frequencies of all the partial character strings are calculated for the technical term dictionary, the pattern converted into the reading, and the pattern developed into the constituent elements is created. In addition, in the input designation process, in addition to normal characters (Katakana Hiragana and Kanji characters, alphabets and numbers), characters that cannot be identified are designated as arbitrary characters, or a sequence of biases and tiles that constitute Kanji characters is designated. In the weighting process of candidate terms, all the partial character strings included in the input sentence to be converted are feature elements, and a feature vector having a feature value as a value calculated based on the reciprocal of the frequency of each partial character string is obtained. And the distance between the input and the technical term is calculated, and the candidates are returned in descending order of similarity by a predetermined upper limit number. Also, candidates are returned in descending order of priority, with the probability of simultaneous appearance of the contents of other items already input and conversion candidates and the value of the similarity as a priority.
即ち、本発明による用語入力支援装置は、複数の文字で構成される用語の手入力作業を支援する用語入力支援装置であって、用語は少なくとも第1の文字列と第2の文字列を有し、第1の文字列を入力された情報から確定する確定手段(かな漢字変換)と、入力された、第2の文字列を構成する一部の情報である一部構成情報(部首:偏や旁)と確定された第1の文字列とから、第2の文字列の候補を提示する候補提示手段と、第2の文字列の候補を確定し、用語を決定する用語決定手段と、を備えている。 That is, the term input support device according to the present invention is a term input support device that supports a manual input operation of a term composed of a plurality of characters, and the term has at least a first character string and a second character string. And confirming means (kana-kanji conversion) for confirming the first character string from the input information, and partial configuration information (radical: partial) that is a part of the input information constituting the second character string. A candidate presenting means for presenting a second character string candidate from the confirmed first character string; a term determining means for confirming a second character string candidate and determining a term; It has.
第1の文字列と第2の文字列とは、オペレータが読むことができるか否かを判断基準として入力した指示によって区別されるようになっている。 The first character string and the second character string are distinguished from each other by an instruction input based on whether or not the operator can read the character string.
また、候補提示手段は、第1の文字列(漢字に確定した部分)と一部構成情報(部首や分からない漢字等の部分)との組み合せにおいて連続する複数の文字で構成される部分文字列(例えば、「糖尿病性壊疽」なる難解用語における「糖尿病」)と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示する。 In addition, the candidate presenting means is a partial character composed of a plurality of consecutive characters in a combination of the first character string (a portion determined to be a Chinese character) and partial configuration information (a portion such as a radical or an unknown Chinese character) Calculate the similarity between a string (for example, "diabetes" in the difficult term "diabetic gangrene") and each term in the term dictionary that stores multiple terms, and present a predetermined number of candidates in descending order of similarity To do.
さらに、複数の用語の構成文字及びそれらの組み合せのそれぞれについて、用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備えており、候補提示手段が、部分文字列の出現頻度を部分文字列辞書から取得し、出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と用語辞書に含まれる各用語の特徴量とを比較して類似度を計算する。なお、部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列(例えば、「とうにょうびょう」と「とう」)に関し、包含関係にある文字数の少ない部分文字列(当該例では、「とう」)を特徴量の計算対象から除外するようにしてもよい。 In addition, for each of the constituent characters of a plurality of terms and their combinations, a partial character string dictionary for storing the appearance frequency in the term dictionary and the corresponding original term information in association with each other is provided, and the candidate presentation The means obtains the appearance frequency of the partial character string from the partial character string dictionary, calculates the feature value using the appearance frequency, and compares the feature value of each partial character string with the feature value of each term included in the term dictionary And calculate the similarity. In addition, when calculating the feature quantity of a partial character string, a partial character string with a small number of characters in an inclusive relationship with respect to a plurality of partial character strings derived from the same term (for example, “Tonobiyo” and “Tou”) (“To” in this example) may be excluded from the feature amount calculation target.
また、用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を用意し、既に入力して確定済の用語と前記候補との前記同時出現確率(例えば、「糖尿病2型」と「足褥蒼」が組み合せとして同時に出現する確率がP1)を考慮して類似度の高さを計算するようにしてもよい。
Also, a context dictionary for storing a co-occurrence probability, which means a probability that terms included in the term dictionary are combined, is prepared, and the co-occurrence probability (for example, “diabetes mellitus”) of the already entered term and the candidate is prepared. The degree of similarity may be calculated in consideration of the probability of the simultaneous appearance of “
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。 Further features of the present invention will become apparent from the best mode for carrying out the present invention and the accompanying drawings.
本発明によれば、専門家でないと読めない専門用語や、活字の潰れ・かすれのほか、手書き文字が汚いため読取れない部分を含む用語について、正確かつ効率的な入力が可能となる。 According to the present invention, it is possible to accurately and efficiently input a technical term that can only be read by an expert, a term that includes a portion that cannot be read due to dirty handwritten characters, as well as crushing or fading of type.
本発明は、専門的過ぎて専門家でないと難解な文字列や、かすれやつぶれ、或いは下手な手書きで難読な文字列を正確かつ効率よくコンピュータ等に入力することのできる文字列入力支援装置に関する。 The present invention relates to a character string input support device capable of accurately and efficiently inputting a character string that is too professional and difficult to understand unless it is an expert, or a character string that is difficult to read with faint handwriting or poor handwriting. .
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. However, it should be noted that this embodiment is merely an example for realizing the present invention, and does not limit the technical scope of the present invention. In each drawing, the same reference numerals are assigned to common components.
<入力サンプル>
図2は、本発明において対象とする入力サンプル例を示している。即ち、オペレータがその入力サンプルを見てサンプルの記載内容をコンピュータに入力する。図2は、契約(予定)者から保険会社に提出される診断書の一例200である。
<Input sample>
FIG. 2 shows an example of an input sample targeted in the present invention. That is, the operator sees the input sample and inputs the description content of the sample to the computer. FIG. 2 is an example 200 of a medical certificate submitted from a contract (planned) person to an insurance company.
通常、医師がその内容を書き、保険会社側で入力を行う。図2において、例えば、項目201は、主病名“嚥下性肺炎”であるが、”嚥”の字がわかりにくい。項目202は、“陳旧性肺結核”であるが、”陳”の文字が読みにくい。項目203は、”糖尿病性壊疽”と書かれているが、”壊疽”の字は判別困難である。また、”糖”の字も、パッと見ただけでは読取れない。
Usually, a doctor writes the contents and inputs it on the insurance company side. In FIG. 2, for example, the
また、図3に、難読漢字を含む専門用語の例を幾つか取り挙げる。いずれも病名の例であるが、専門家でないとなかなか読み方がわからない。通常保険契約や査定で用いられるこのような診断書は、専門家である医者が記載し、入力作業は保険会社もしくは外注、アルバイトなどの素人が担当する。そのため、難解な専門用語や、読めない字が出てくると入力効率が大きく低下するだけでなく、よく似た間違った傷病名や手術名を入力したために、査定間違いに繋がることがある。 FIG. 3 shows some examples of technical terms including difficult-to-read Chinese characters. Both are examples of disease names, but it is difficult to understand how to read them unless you are an expert. Such a medical certificate, which is usually used in insurance contracts and assessments, is written by a doctor who is an expert, and the input work is handled by an insurance company or an amateur such as a subcontractor or part-time worker. For this reason, if unfamiliar technical terms or unreadable characters appear, not only will the input efficiency be greatly reduced, but it may lead to misassessment due to the fact that a similar injury / surgical name or operation name was entered.
以上のように、字がきたない、擦れている、潰れている、漢字が難しいことが、専門用語を含む文書を入力する際の妨げとなる。オンライン手書き認識ソフトを立ち上げて、漢字入力する手段も存在するが、仮名漢字変換システムから一旦離れてことになり、大量の文書を入力する場合の効率低下が避けられない。 As described above, the fact that characters are messy, rubbed, crushed, and difficult to use kanji is a hindrance when inputting documents containing technical terms. Although there is a means for launching online handwriting recognition software and inputting kanji, it is necessary to leave the kana-kanji conversion system, and a reduction in efficiency is unavoidable when inputting a large amount of documents.
<文字入力支援装置の構成>
図1は、本発明の実施形態による文字列入力支援装置(診断書入力システム)の概略構成を示す図である。診断書入力システムは、入力装置110と、画像入力装置111と、表示装置12と、CPU13と、印刷手段14と、ワークエリア15と、情報保持手段16と、を備えている。
<Configuration of character input support device>
FIG. 1 is a diagram showing a schematic configuration of a character string input support device (medical certificate input system) according to an embodiment of the present invention. The medical certificate input system includes an
ワークエリア15は、OS151のほか、変換プログラム153、通信プログラム152を既に備えているか、若しくは、それらを必要に応じて情報保持手段16からロードする。なお、情報保持手段16は、変換プログラム153が必要とする各種辞書を備えている。
The work area 15 already includes the conversion program 153 and the communication program 152 in addition to the
入力装置11としては、例えば、変換プログラム153に入力対象のデータやコマンド等を入力するためのキーボード、マウス、タブレット等が挙げられる。
Examples of the
画像入力装置111としては、例えば、紙文書を処理対象とする場合に、文書を画像データとして、取り込むためのスキャナ等の装置が挙げられる。
Examples of the
OS151は、入力装置11、表示装置12、CPU13、印刷手段14、通信プログラム152、変換プログラム153、その他図示しないメモリ、記憶装置の動作を制御する機能を備える。
The
通信プログラム152は、処置対象の文書をネットワーク経由で取得するための通信機能を備える。 The communication program 152 has a communication function for acquiring a document to be treated via a network.
変換プログラム153は、入力装置110によって入力される文字列と、既に入力されたデータに基づき、入力文字列に対応する専門用語に変換する機能を備える。
The conversion program 153 has a function of converting into a technical term corresponding to the input character string based on the character string input by the
情報保持手段16は、用語別部分文字列構成辞書161と、部分文字列頻度辞書162と、入力文脈辞書163と、用語使用頻度辞書164と、用語使用日時辞書165と、を備えている。これらの辞書は、変換プログラム153が入力文字列を変換する際に参照する辞書データベースとして機能している。 The information holding unit 16 includes a term-specific partial character string configuration dictionary 161, a partial character string frequency dictionary 162, an input context dictionary 163, a term usage frequency dictionary 164, and a term usage date / time dictionary 165. These dictionaries function as a dictionary database that is referenced when the conversion program 153 converts the input character string.
用語別部分文字列構成辞書161は、専門用語ごとに、構成部分文字列のリストを保持する。部分文字列頻度辞書162は、専門用語辞書から抽出した部分文字列とその頻度(専門用語辞書内に当該部分文字列が使われている完全文字列がいくつ存在するかを示す指標)を格納する。入力文脈辞書163は、専門用語の入力を行う際に、主病名欄、手術名欄など、既に入力済みの欄の情報と、現在入力中の欄に現われる専門用語(傷病名、手術名、処置・処方名)との同時出現確率を格納する。用語使用頻度辞書164は、各専門用語が入力された頻度情報を格納する。用語使用日時辞書165は、各専門用語が入力された日時情報を格納する。 The term-specific partial character string configuration dictionary 161 holds a list of component partial character strings for each technical term. The partial character string frequency dictionary 162 stores a partial character string extracted from the technical term dictionary and its frequency (an index indicating how many complete character strings using the partial character string are present in the technical term dictionary). . When inputting a technical term, the input context dictionary 163 includes information on fields already input such as a main disease name field and an operation name field, and technical terms (injuries and disease names, operation names, treatments) appearing in a currently input field. Stores the simultaneous appearance probability with the prescription name). The term usage frequency dictionary 164 stores frequency information in which each technical term is input. The term use date / time dictionary 165 stores date / time information when each technical term is input.
表示装置12は、変換プログラム153によって入力文字列が変換されていく様子を表示するディスプレイ等の装置である。
The
CPU13は、ワークエリア15内の各種プログラムをロードし、OS151と協働してプログラムの内容を実行する。
The
印刷装置14は、変換プログラム153による入力文字列の変換結果を出力するための装置である。
The
通信ネットワーク19は、ネットワークでつながった別の装置上のデータやワークエリア、情報保持手段にアクセスするための装置である。 The communication network 19 is a device for accessing data, a work area, and information holding means on another device connected via the network.
<専門用語入力の支援処理:IMEと連携する場合≫
図4は、IME(input method editor)と連携して、専門用語の入力を支援する場合の処理概略を説明するためのフローチャートである。当該フローチャートの動作主体は、特に断らない限り、CPU13である。
<Technical term input support processing: When linking with IME>
FIG. 4 is a flowchart for explaining an outline of processing in the case of supporting input of technical terms in cooperation with IME (input method editor). The operating subject of the flowchart is the
まず、オペレータにより既存の仮名漢字変換システムの仮名漢字入力モードをONにされ、かな漢字変換システムが起動される(ステップS401)。次に、かな入力モードで、ローマ字変換入力もしくは仮名漢字変換入力によりかな文字の入力がオペレータにより行われ、その入力された文字の受付処理が行われる(ステップS402)。 First, the operator turns on the kana-kanji input mode of the existing kana-kanji conversion system, and starts the kana-kanji conversion system (step S401). Next, in the kana input mode, input of kana characters is performed by the operator by romaji conversion input or kana-kanji conversion input, and reception processing of the input characters is performed (step S402).
続いて、かな入力中に、オペレータが入力モードの切り替えを指示した場合、予め設定したキーバインドに基づき、部首入力に切替えるか、専門用語変換を実行するか指定する(ステップS403)。それ以外には、入力作業を終了する。なにも指定しなければ、かな入力が継続されて通常のかな漢字変換が継続される。 Subsequently, when the operator instructs to switch the input mode during kana input, it is specified whether to switch to radical input or to execute technical term conversion based on a preset key binding (step S403). Otherwise, the input operation is terminated. If nothing is specified, Kana input will continue and normal Kana-Kanji conversion will continue.
ステップS403において部首入力が選択された場合、カーソル位置にあるかな文字に基づいて適切な部首コードの候補が表示される(ステップS404)。この場合、可能性の高い候補に先に変換しておき、間違っていた場合に、ユーザが特定キーを押すことで候補を表示するようにしてもよい。そして、部首候補選択405では、部首候補の中から適切な部首がオペレータによって選択され、それが受け付けられる(ステップS405)。
If radical input is selected in step S403, appropriate radical code candidates are displayed based on the kana character at the cursor position (step S404). In this case, the candidate may be converted into a highly likely candidate first, and if it is wrong, the candidate may be displayed by pressing a specific key. In the
ステップS403において専門用語変換が指定された場合、入力済みのかな+部首情報が専門用語に変換される(ステップS406)。変換結果が間違えていた場合、予め設定済みのキーを押すことにより、その他の変換候補が表示され、オペレータ(ユーザ)が選択できるようにする。この時、入力と辞書との類似度計算を行って、予め指定した上限数だけ類似度の高い候補を抽出する。なお、当該専門用語変換のための処理(ステップS406)の詳細は、図5を用いて説明する。 When technical term conversion is designated in step S403, the input Kana + radical information is converted into technical terms (step S406). If the conversion result is wrong, other conversion candidates are displayed by pressing a preset key so that the operator (user) can select. At this time, similarity calculation between the input and the dictionary is performed, and candidates having high similarity by the upper limit number designated in advance are extracted. Details of the technical term conversion processing (step S406) will be described with reference to FIG.
<専門用語変換処理の詳細>
図5は、IME(input method editor)等により入力されたかな部首混在文字列を入力として受け取り、専門用語候補を出力として返す処理の詳細を説明するためのフローチャートである。ここでも各ステップの処理の動作主体は、特に断らない限り、CPU13である。
<Details of technical term conversion processing>
FIG. 5 is a flowchart for explaining the details of a process of receiving a kana radical mixed character string input by IME (input method editor) or the like as an input and returning a technical term candidate as an output. Here again, the subject of the processing of each step is the
まず、入力された、あるかな部首混在文字列について、部分文字列頻度辞書514のエントリーが枚挙される(ステップS501)。ここで、部分文字列頻度辞書514は、部分文字列と頻度と対応専門用語へのリンクを格納したものである(図11のテーブル1130参照)。これは、図6の処理に従って、あらかじめ専門用語から作成されるものである。
First, the entry of the partial character
次に、有効部分文字列選択処理が実行される(ステップS502)。つまり、辞書引きされた部分文字列間の位置的重なり具合により、無効な部分文字列が枝刈りされる。続いて、部分文字列の重み計算処理が実行される(ステップS503)。つまり、使用頻度データ511、使用日時データ512、入力文脈辞書513、及び入力結果一時記憶521と、部分文字列頻度辞書514の内容を組み合せて、部分文字列の重みが計算され、ステップS502の枝刈り処理で残った部分文字列の重みを特徴空間の重みとして、入力に類似する文字列が出力される。計算方法の詳細については、図13以降を用いて説明する。
Next, an effective partial character string selection process is executed (step S502). That is, an invalid partial character string is pruned due to the positional overlap between the partial character strings looked up in the dictionary. Next, a partial character string weight calculation process is executed (step S503). That is, the weight of the partial character string is calculated by combining the contents of the
<専門用語辞書の前処理>
図6は、専門用語変換で用いる部分文字列辞書を生成するための処理(図5の用語辞書の前処理)を説明するためのフローチャートである。上述同様、各ステップの処理の動作主体は、特に断らない限り、CPU13である。
<Pre-processing of technical term dictionary>
FIG. 6 is a flowchart for explaining processing for generating a partial character string dictionary used in technical term conversion (preprocessing of the term dictionary in FIG. 5). As described above, the operation subject of the processing of each step is the
専門用語辞書611は、変換対象となる専門用語を格納するオリジナル辞書である。最初に、辞書エントリーの部首付与処理が実行される(ステップS601)。ここでは、専門用語の漢字の一部を、部首に置き換えものが生成される。例えば、“糖尿病壊疽”→“つちへんやまいだれ”、“陳旧性肺結核”→“ちん旧性肺結核”といった具合である。部首を表すために、JIS90等のJIS標準規格で定められたコードを用いてもよい。
The
次に、辞書エントリーの読み付与処理が実行される(ステップS602)。ここでは、専門用語の漢字を読みに置き換えたものが生成される。一部のみ置き換えることで、入力文字列が漢字であってもかなであっても、対応する専門用語候補を抽出することができる。 Next, a dictionary entry reading process is executed (step S602). Here, the technical term kanji is replaced by reading. By replacing only a part, it is possible to extract a corresponding technical term candidate regardless of whether the input character string is kanji or kana.
最後に、部分文字列頻度計算が実行される(ステップS603)。ここでは、各専門用語辞書エントリーの全ての部分文字列が生成され、その文字列を持つ専門用語の頻度がカウントされる。そして、その頻度情報が部分文字列頻度辞書614に格納される。
以上のようにして、図11のテーブル1130に示されるような部分文字列頻度辞書(図1における162)が生成される。
Finally, partial character string frequency calculation is executed (step S603). Here, all partial character strings of each technical term dictionary entry are generated, and the frequency of technical terms having the character string is counted. Then, the frequency information is stored in the partial character
As described above, a partial character string frequency dictionary (162 in FIG. 1) as shown in the table 1130 of FIG. 11 is generated.
<診断書の入力手順に従った処理例>
図7は診断書の入力を行う場合のGUIの一例を示す図である。図7のGUI例は、入力対象の診断書を表示する表示部701と、診断書を見ながらオペレータが対応する項目を入力する入力部702と、を含んでいる。例示した診断書703には、氏名、生年月日、主病名、主病名の原因、合併症、診療期間、入院期間、傷病発生年月日、所見、実施した手術といった項目が含まれている。
<Example of processing according to the procedure for entering a medical certificate>
FIG. 7 is a diagram showing an example of a GUI when inputting a medical certificate. The GUI example in FIG. 7 includes a
入力作業は、例えば、“氏名”→“傷病名”→“入院期間”→“所見”のように、ある順序をもって行われる。従って、所見欄を入力する際に、文脈情報として、傷病名欄や合併症欄の情報を利用することが考えられる。実際の入力事例の中にも、読めない文字を入力する際に、診断書全体を見て判断するケースがある。 The input operation is performed in a certain order, for example, “name” → “patient name” → “inpatient period” → “findings”. Therefore, when inputting the finding column, it is conceivable to use information on the injury / symptom column or complication column as the context information. Among actual input cases, there are cases where judgment is made by looking at the entire medical certificate when inputting unreadable characters.
また、この例では、所見入力欄704は、診断書の所見欄に書かれている“昨日25日糖尿病性”まで入力された状態となっている。所見欄の“糖尿病性”の文字はかなりきたないため読めない人もいると考えられるが、合併症欄にたまたまきれいな字で“糖尿病”と書いてあり、字形も似ているので、入力者の方で“糖尿病”だと判断し、入力を行うことは容易である。本実施形態においても、“入力文脈辞書”513と“入力結果一時記憶”521を用いることで、既に入力済みの欄の情報から、候補の絞込みを行うことができる。
Further, in this example, the finding
吹き出し705に示されているのは、所見入力欄704部分を拡大表示したものである。”糖尿病性“の文字の隣に、“壊疽”の文字が汚くて読取れないが、かろうじて、“つちへん”らしきものと“やまいだれ”らしきものが読取れるので、かな入力モードで“つち”と入力したあと、部首変換キーを押す。提示された候補の中から“つちへん”を選択し、入力モードに戻る。部首を指定したあとは、専門用語変換のためのキーを押し、“つちへん”と“やまいだれ”が隣接している専門用語の“壊疽”を候補として提示している。
A
一般に、部首の形がわかっても、正確な名前がわからないケースも多いと考えられる。その場合、最低限部首の名前だけは覚えてもらうか、部首と名前の対応表を画面横に表示するなどの工夫が必要と考えられる。 In general, even if you know the shape of the radical, you may not know the exact name. In that case, it may be necessary to devise a method such that at least the name of the radical is remembered or a correspondence table of radicals and names is displayed on the side of the screen.
なお、部首分類情報を用いることによっても部首の名前がわからない場合に対処できると考えられる。図15は、部首分類情報を格納したテーブルの一例である。項目1501は、部首の大分類をあらわし、項目1502は、部首の細分類もしくは部首そのものを表す。例えば、レコード1511は、部首分類“たれ”の要素として“やまいだれ”が含まれることを示している。このテーブルを用いることにより、文字が汚く“垂れ”であることまでは判別できるが、“やまいだれ”なのか“まだれ”なのか“がんだれ”なのかわからない場合でも、条件指定することができる。
It should be noted that it is possible to cope with the case where the name of the radical is not known by using the radical classification information. FIG. 15 is an example of a table storing radical classification information. An
<時系列で示した場合の変換処理>
図8は、以上説明した処理を時系列順に並べて示した図である。系列811は、かな入力モードにおける時系列処理ステップを表す。また、系列812は、部首入力モードにおける時系列処理ステップを表す。さらに、系列813は、専門用語変換モードにおける時系列処理ステップを表す。
<Conversion process when shown in time series>
FIG. 8 is a diagram showing the processes described above arranged in chronological order. A
まず、オペレータによって、入力対象書類を見ながら、かな入力が実行される(ステップS801)。次に、文字が難しい、もしくは擦れやつぶれにより読みとりが困難な場合、オペレータの指示により、入力モードが部首入力モードに切替えられる(ステップS802)。 First, the operator performs kana input while looking at the input target document (step S801). Next, when the character is difficult or difficult to read due to rubbing or crushing, the input mode is switched to the radical input mode according to the operator's instruction (step S802).
部首入力モードでは、カーソル位置のかな文字を基に、部首候補の仮確定がなされ、部首候補が出力される(ステップS803)。次に、提示された部首候補の中から候補となる部首がオペレータによって選択され(ステップS804)、かな入力モードに戻る(ステップS805)。そして、必要なかな、ないしは部首を入力した後、予め設定しておいた専門用語変換用のキーが押される(ステップS807)と、入力モードは専門用語変換モードに移行し、専門用語候補が提示され(ステップS808)。最後に、提示された専門用語の中から、適当な候補がオペレータによって選択されて変換が確定される(ステップS809)。 In the radical input mode, the radical candidate is temporarily determined based on the kana character at the cursor position, and the radical candidate is output (step S803). Next, a candidate radical is selected from the presented radical candidates by the operator (step S804), and the screen returns to the kana input mode (step S805). Then, after inputting the necessary or radical, if the preset terminology conversion key is pressed (step S807), the input mode shifts to the terminology conversion mode, and the terminology candidate is selected. Presented (step S808). Finally, an appropriate candidate is selected from the presented technical terms by the operator, and the conversion is confirmed (step S809).
図9は、図8で示された以上の時系列変換処理を、画面遷移により例示したものである。 FIG. 9 illustrates the above time series conversion processing shown in FIG. 8 by screen transition.
画面901は、かな入力モードで“とうにょうびょうせいつち”まで文字が入力され、カーソル範囲を“つち”に合わせて、部首入力モードに入った状態を示している。“つち”に対応する部首として、“つちへん”が表示される。
A
画面902は、“つちへん”が選択された後かな入力モードに戻り、“たれ”と入力されて部首入力モードに入った状態を示している。部首の候補として、“やまいだれ”、“がんだれ”及び“まだれ”が提示されている。この例では、オペレータは“やまいだれ”を選択する。画面903は、入力されたかなと部首を基に、専門用語変換を実行したときの状態が示されている。文字列911が”糖尿病“として仮確定し、部首文字列912の変換候補として、“壊疽”が提示されている。オペレータは、これが正しいと判断すればこれを選択することになる。
A
図10は、入力対象のサンプルと、オペレータの入力、専門用語変換結果の一事例を示している。画像1001は、診断書中に書かれている手書き文字のサンプルである。先頭の文字が、“陳”であるが、専門家以外の人にはそれが“陳”であるとは想像しづらい。オペレータの入力指定1010は3種類の指定パターンを示している。パターン1)1011では、不明な部分をワイルドカード“?”で指定している。パターン2)1012とパターン3)1013では、不明な部分をその構成要素のみ指定する。例えば、パターン2)1012では、“こざとへん”を指定している。パターン3)1013では、旁部分を“ひがし”と指定している。各入力に対して、尤もらしい候補として専門用語1021を返す。
FIG. 10 shows an example of an input target sample, operator input, and technical term conversion results. An
以上のような入力パターンの指定を用意することで、文字が難しい、もしくは擦れやつぶれで読み取りが困難な場合にも、指定条件を緩めて、専門用語の変換を実現することができる。 By preparing the input pattern specification as described above, even when characters are difficult or when reading is difficult due to rubbing or crushing, it is possible to relax the specification conditions and realize conversion of technical terms.
<部首指定の別の形態>
図16は、部首指定を、かな入力モードの中で実施する場合の処理を説明するためのフローチャートである。ここでは、あらかじめ決められた記号が頭にあるかないかで、部首用のかなと、通常のかなを区別するようにしている。
<Another form of radical designation>
FIG. 16 is a flowchart for explaining the processing when the radical specification is performed in the kana input mode. Here, the kana for the radical is distinguished from the normal kana depending on whether a predetermined symbol is present in the head.
まず、かな漢字変換が起動される(ステップS1601)。次に、オペレータによってかな文字が入力される(ステップS1602)。あるいは、あらかじめ決められた記号が入力され、部首指定の開始点がマークされる。 First, kana-kanji conversion is activated (step S1601). Next, a kana character is input by the operator (step S1602). Alternatively, a predetermined symbol is input, and the start point designated for radicals is marked.
かなおよび部首名が入力された後、部首指定記号を含むかな文字列を入力として、専門用語変換処理が実行される(ステップS1603)。ステップS1603の処理は、図5の専門用語変換フローと同じであるが、部分文字列辞書引き処理(ステップS501)を実施する前に、入力のうち部首指定範囲が内部IDに変換される。例えば、部首を表す入力が“@たれ”であった場合、一度内部IDに変換された後辞書引き処理が行われる。これにより、“た”、“たれ”などの無駄な部分文字列の使用を避けることができる。 After the kana and the radical name are input, the technical term conversion process is executed using the kana character string including the radical designation symbol as an input (step S1603). The processing in step S1603 is the same as the technical term conversion flow of FIG. 5, but before the partial character string dictionary lookup processing (step S501) is performed, the radical specification range in the input is converted into an internal ID. For example, if the input representing the radical is “@tare”, the dictionary lookup process is performed after it is once converted to the internal ID. Thereby, use of useless partial character strings such as “ta” and “sag” can be avoided.
図17は、図16の処理に従って専門用語変換を行う場合の画面遷移例を示す図である。まず、かな入力モードで、通常のかなと部首を指定する記号が入力される(画面1701)。この例では、土偏を“@つち”と指定している。 FIG. 17 is a diagram showing an example of screen transition when technical term conversion is performed in accordance with the processing of FIG. First, in the kana input mode, a symbol specifying a normal kana and radical is input (screen 1701). In this example, the earth bias is designated as “@tsuchi”.
次に、続けて別の部首が入力される(画面1702)。ここでは、垂れを、“@たれ”と指定されている。 Next, another radical is input continuously (screen 1702). Here, the sagging is designated as “@tare”.
最後に、画面1703で専門用語変換処理が実行され、専門用語“糖尿病壊疽”が取得される。
Finally, the technical term conversion process is executed on the
以上の処理により、難読漢字を含む文字列についても、パーツとの組合せ列を入力することにより、効率的な入力が可能となる。 Through the above processing, even for a character string including an obfuscated kanji character, an efficient input can be performed by inputting a combination string with parts.
<専門用語変換候補の計算方法>
図11は、本発明における、専門用語変換を実現するための各辞書の構成を示す図である。テーブル1100(専門用語辞書)は、専門用語と使用頻度を格納したテーブルであり、用語ID1101、用語名1102、読み1103、使用頻度1104から構成される。テーブル1110(用語使用日時辞書)は、用語変換確定日時を格納したテーブルであり、用語ID1111、使用日時1112から構成される。テーブル1110(用語使用日時辞書)は、用語ID1111によってテーブル1100(専門用語辞書)と結び付けられている。
<Calculation method of technical term conversion candidates>
FIG. 11 is a diagram showing a configuration of each dictionary for realizing technical term conversion in the present invention. A table 1100 (technical term dictionary) stores technical terms and usage frequencies, and includes a
テーブル1120(用語別部分文字列構成辞書)は、元々の専門用語と部分文字列の対応情報を格納するテーブルである。テーブル1120は、文字列ID1121と、用語ID1122から構成される。これにより、各部分文字列を特徴素とする特徴ベクトルを構成することができる。
The table 1120 (term-specific partial character string configuration dictionary) stores correspondence information between original technical terms and partial character strings. The table 1120 includes a
テーブル1130(部分文字列頻度辞書)は、部分文字列の用語頻度を格納する。このテーブルは、文字列ID1131、部分文字列1132、用語頻度1133から構成される。ここで、用語頻度とは、当該部分文字列を持つ用語が、テーブル1100中に何個存在するか(文字列の固有性)を表すものである。この値が少ないほど、用語を絞り込むことができるため、有効度は高い。このテーブルは、用語辞書の前処理(図6参照)のステップS603において作成される。また、テーブル1140(部分文字列頻度辞書(つづき))は、専門用語の一部を部首で置き換えた文字列や、読みで置き換えた文字列に対して、図6のステップS603の処理を適用して作成される。
The table 1130 (partial character string frequency dictionary) stores the term frequency of the partial character string. This table includes a
<候補重みの計算処理>
図12は、本発明の実施形態において専門用語変換を実現するための入力文脈辞書の内容を示す図である。テーブル1200(入力文脈辞書)は、既に入力済みの項目がある時に、現在入力中の項目の確信度を制御するための同時出現確率を格納している。
<Candidate weight calculation processing>
FIG. 12 is a diagram showing the contents of an input context dictionary for realizing technical term conversion in the embodiment of the present invention. The table 1200 (input context dictionary) stores a co-occurrence probability for controlling the certainty factor of the currently input item when there is an already input item.
テーブル1200は、1つ目の項目名1201と、1つ目の用語ID1202と、2つ目の項目名1203と、2つ目の用語ID1204と、同時出現確率1205と、を有している。例えば、エントリー1211では、傷病名欄にIDが22222である用語が記載されていた場合に、所見欄にID33333の項目が現われる確率を格納する。
The table 1200 includes a
テーブル1100(専門用語辞書)を参照すると、ID22222は“糖尿病2型”であり、ID33333は“足褥瘡”であることが分かる。これらの用語間の依存関係は、入力対象とする専門分野の傾向が反映される。例えば、傷病名と合併症、傷病名と手術名などの関係は、医療分野の教科書を参照したり、医療機関の電子カルテデータから抽出することも可能である。また、診断書の例のように、傷病名や手術名、所見を入力する場合には、既に入力確定済みの項目との同時出現確率を反映させることで、候補用語の提示順位を制御することが可能である。
Referring to the table 1100 (technical term dictionary), it can be seen that
以下に示す式1に、候補用語の優先度を計算する例が示されている。まず、式1において。候補用語term、入力文字列inputとし、termおよびinputから生成される部分文字列をsとする。また、sに対するテーブル1130の用語頻度1133の値をdf(s)とする。この時、入力文字列inputに対する候補用語termの優先度L(term|input)は、式1を用いて算出できる。なお、式1におけるPcol(term,termF)は、確定済み文字列termFの用語IDが用語ID1202であり、候補用語termの用語IDが用語ID1204であるエントリーに関して、両用語が同時に出現する場合の確率1205(同時出現確率)である。
An example of calculating the priority of candidate terms is shown in
式1は、各部分文字列を特徴素とするベクトルを考え、その出現用語頻度の逆数の対数を重みとする特徴空間での、正規化距離に、入力文脈情報辞書1200による重み付けを行ったものになる。
以上の方法により、各部分文字列の重みと入力履歴を反映させた候補用語の優先付けを行うことができる。 By the above method, it is possible to prioritize candidate terms reflecting the weight of each partial character string and the input history.
<部分文字列の有効性の判定>
本発明の実施形態では、テーブル1100(専門用語辞書)およびデーブル1130(部分文字列頻度辞書)を参照して、入力文字列から、部分文字列を特徴素とする特徴ベクトルを構成する(図5参照)。但し、全ての部分文字列をそのまま用いる場合は、ベクトルの次元数が爆発するため、計算量が増大する。また部分文字列同士は厳密には独立ではなく、依存関係があるため、間違った候補の部分文字列の重みを重複してカウントすることがある。
<Determining the validity of the substring>
In the embodiment of the present invention, referring to the table 1100 (technical term dictionary) and the table 1130 (partial string frequency dictionary), a feature vector having a partial character string as a feature element is constructed from an input character string (FIG. 5). reference). However, when all of the partial character strings are used as they are, the number of dimensions of the vector explodes, and the amount of calculation increases. In addition, the partial character strings are not strictly independent of each other and have a dependency relationship, so that the weights of the wrong candidate partial character strings may be counted repeatedly.
そこで、以上の2点の問題を避けるため、使用する部分文字列の次元削減を行うとよい。次元圧縮をする方法としては、学習データを基に事前に行う場合と、変換処理の実行時に行う場合がありうる。ここでは、変換処理実行時に次元削減を行うオンライン特徴選択について説明する。なお、事前に行う場合も基本的には同様の処理がなされる。 Therefore, in order to avoid the above two problems, it is preferable to reduce the dimension of the partial character string to be used. As a method of dimensional compression, there are a case where it is performed in advance on the basis of learning data and a case where it is performed at the time of executing the conversion process. Here, online feature selection for performing dimension reduction when executing conversion processing will be described. Note that the same processing is basically performed even when it is performed in advance.
図13は、入力文字列1300“とうにょうびょうせい[つちへん][やまいだれ]”に対し、図5の部分文字列辞書引き処理S501を実行施したときの状態を示している。ここでは、部分文字列1311は用語ID1357945から生成された文字列であることを表し、部分文字列1312は用語ID1002345から生成された文字列であることを表す。これらの各部分文字列に対し、IDが一致する部分文字列間の包含関係を調べる。そして、他方に完全に包含される部分文字列を枝刈りする。
FIG. 13 shows a state in which the partial character string dictionary lookup processing S501 of FIG. 5 is executed for the
図13の例では、部分文字列1311、部分文字列1321、部分文字列1323は、部分文字列1316に包含される。また、部分文字列1317は部分文字列1313に包含される。また、部分文字列1314は部分文字列1318に包含され、部分文字列1319は部分文字列1315に包含される。
In the example of FIG. 13, the
そして、以上の包含関係の判定により、不要なものを取り除いた語の文字列一覧を示すと図14のようになる。最後に、残った部分文字列を用いて、上記式1の値を計算して変換候補リストを順序づけて提示する。
FIG. 14 shows a list of character strings of words from which unnecessary items are removed by the above determination of the inclusion relationship. Finally, the remaining partial character strings are used to calculate the value of
このように入力文字列に応じて有効な部分文字列特徴のみを選択することで、全ての部分文字列を特徴素とするベクトル演算の速度を向上させることができる。 In this way, by selecting only effective partial character string features according to the input character string, it is possible to improve the speed of vector operations using all partial character strings as feature elements.
<候補優先度演算の省略>
本発明の別の態様として、候補優先度演算を省略する場合について説明する。
<Omission of candidate priority calculation>
As another aspect of the present invention, a case where the candidate priority calculation is omitted will be described.
一般に、IME(input method editor)を用いて候補を表示する場合、上限nを決めて、結果を表示することが多い。 Generally, when candidates are displayed using IME (input method editor), an upper limit n is determined and the result is often displayed.
従って、図5のステップS501の処理を実行し、部分文字列辞書1130を参照した段階で、用語頻度1133の値がn以下のものが存在すれば、当該n個の候補をそのまま表示すればよい。
Therefore, when the process of step S501 of FIG. 5 is executed and the partial
よって、式1を計算する代わりに、用語頻度1133の値が最小のものを見つけ、テーブル1120から対応する用語IDを抽出すればよい。
Therefore, instead of calculating
これにより、入力文字列に対応する専門用語候補の提示速度を向上することができる。 Thereby, the presentation speed of the technical term candidate corresponding to an input character string can be improved.
<使用頻度と入力履歴を組み合せた候補優先度の演算>
本発明のさらに別の態様として、使用頻度と入力履歴を組み合わせた優先度計算方法について説明する。本演算は、テーブル1100および1110を参照する。まず、図5の部分文字列辞書引き処理(ステップS501)を実行した後、候補にあがった各専門用語用語について、テーブル1110の使用日時1112の新しい順にソートする。その順位をOrdertime(term)とする。次に、専門用語辞書1100の使用頻度1104の値の大きい順にソートする。その順位をOrderfreq(term)とする。以上を用いて、候補優先度を以下の式2を用いて演算する。
<Candidate priority calculation combining usage frequency and input history>
As still another aspect of the present invention, a priority calculation method combining a use frequency and an input history will be described. This calculation refers to the tables 1100 and 1110. First, after executing the partial character string dictionary lookup process (step S501) of FIG. The order is Order time (term). Next, the
<その他>
本発明は、金融機関、生・損保等において、契約者が持ち込む文書データの入力を行う場面などで有効に適用することができる。
<Others>
The present invention can be effectively applied to a scene where the document data brought in by the contractor is input in a financial institution, life / non-life insurance, or the like.
また、本発明により、利用頻度、日時を反映させて、入力文字列に該当すると思われる専門用語リストを順位づけて提示することができる。また、本発明により、 素人にとって難解な漢字や、擦れ、つぶれ等によって読取りにくい文字を含む文章に対しても、効率的にデータ入力を行うことができる。 In addition, according to the present invention, it is possible to rank and present a technical term list that seems to correspond to the input character string, reflecting the usage frequency and date and time. In addition, according to the present invention, it is possible to efficiently input data even for sentences containing characters that are difficult to read by amateurs or characters that are difficult to read due to rubbing, crushing, or the like.
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 The present invention can also be realized by a program code of software that realizes the functions of the embodiments. In this case, a storage medium in which the program code is recorded is provided to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention. As a storage medium for supplying such program code, for example, a flexible disk, CD-ROM, DVD-ROM, hard disk, optical disk, magneto-optical disk, CD-R, magnetic tape, nonvolatile memory card, ROM Etc. are used.
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。 Also, based on the instruction of the program code, an OS (operating system) running on the computer performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing. May be. Further, after the program code read from the storage medium is written in the memory on the computer, the computer CPU or the like performs part or all of the actual processing based on the instruction of the program code. Thus, the functions of the above-described embodiments may be realized.
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。 Also, by distributing the program code of the software that realizes the functions of the embodiment via a network, the program code is stored in a storage means such as a hard disk or memory of a system or apparatus, or a storage medium such as a CD-RW or CD-R And the computer of the system or apparatus (or CPU or MPU) may read and execute the program code stored in the storage means or the storage medium when used.
本発明の実施形態は、日本語のかな漢字変換を例に説明されているが、本発明は日本語に限らず、ハングル語やタイ語等にも適用可能である。 Although the embodiment of the present invention has been described by taking Japanese kana-kanji conversion as an example, the present invention is not limited to Japanese, and can also be applied to Korean, Thai, and the like.
10・・・入力支援装置、11・・・入力装置、12・・・表示装置、13・・・CPU、14・・・印刷装置、15・・・ワークエリア、16・・・情報保持手段、19・・・通信ネットワーク
DESCRIPTION OF
Claims (18)
入力用フォーマットにおける複数の項目のうちの1つに入力される対象用語であって、少なくとも第1の文字列が示す用語と第2の文字列に対応する用語とを有し、全てかな文字で入力される前記対象用語に対応する文字列を受け付ける用語受付手段と、
前記第1の文字列を入力されたかな情報から漢字変換して確定する確定手段と、
複数の用語を格納する用語辞書と、
前記用語辞書における前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、
前記入力用フォーマットにおける所定の2つの項目において入力される用語の組み合わせと、その組み合わせが出現する確率である同時出現確率と、を管理する文脈辞書と、
入力された前記第2の文字列が示す部首名と、前記確定された第1の文字列との組み合せから、前記第2の文字列に対応する用語の候補を特定し、前記対象用語の候補を提示する候補提示手段と、
入力された指示に従って前記候補の中から前記対象用語を決定する用語決定手段と、を備え、
前記候補提示手段は、
(i)前記部分文字列辞書を参照し、前記対象用語の候補から生成される部分文字列の前記出現頻度を取得し、
(ii)前記文脈辞書を参照し、前記入力用フォーマットにおける別の項目の用語であって、既に入力して確定済の用語と、前記対象用語の候補との前記同時出現確率を取得し、
(iii)前記出現頻度と前記同時出現確率の両方を考慮して前記対象用語の候補の優先度を算出し、前記対象用語の候補の優先付けを行うことを特徴とする用語入力支援装置。 A term input support device that supports manual input work of target terms including characters that are difficult to read or difficult to distinguish,
A target term input to one of a plurality of items in the input format, having at least a term indicated by the first character string and a term corresponding to the second character string, all in kana characters Term accepting means for accepting a character string corresponding to the input target term;
Confirming means for confirming the first character string by converting the kana information from the input kana information;
A term dictionary to store multiple terms;
For each of the constituent characters of the plurality of terms in the term dictionary and combinations thereof, a partial character string dictionary that stores the appearance frequency in the term dictionary and the corresponding original term information in association with each other,
A context dictionary for managing a combination of terms input in predetermined two items in the input format, and a co-occurrence probability that is a probability that the combination appears;
A candidate for a term corresponding to the second character string is identified from a combination of the radical name indicated by the input second character string and the confirmed first character string, and Candidate presentation means for presenting candidates;
Term determining means for determining the target term from the candidates in accordance with an inputted instruction ,
The candidate presenting means is:
(I) Referencing the partial character string dictionary, obtaining the appearance frequency of the partial character string generated from the candidate target word,
(Ii) referring to the context dictionary, and obtaining the co-occurrence probability of a term of another item in the input format that has been input and confirmed and a candidate for the target term;
(Iii) A term input support device that calculates the priority of the target term candidates in consideration of both the appearance frequency and the co-occurrence probability, and prioritizes the target term candidates .
入力用フォーマットにおける複数の項目のうちの1つに入力される対象用語であって、全てかな文字で入力される第1の文字列と、かな文字列と記号で入力される第2の文字列と、を有する前記対象用語に対応する文字列を受け付ける用語受付手段と、
前記第1の文字列を入力されたかな文字の情報から確定する確定手段と、
複数の用語を格納する用語辞書と、
前記用語辞書における前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、
前記入力用フォーマットにおける所定の2つの項目において入力される用語の組み合わせと、その組み合わせが出現する確率である同時出現確率と、を管理する文脈辞書と、
前記第2の文字列に対応する用語の構成を記述する文字列である前記かな文字列と、前記確定された第1の文字列とから、前記第2の文字列に対応する用語の候補を特定し、前記対象用語の候補を提示する候補提示手段と、
前記第2の文字列に対応する用語の候補を確定し、前記対象用語を決定する用語決定手段と、を備え、
前記候補提示手段は、
(i)前記部分文字列辞書を参照し、前記対象用語の候補から生成される部分文字列の前記出現頻度を取得し、
(ii)前記文脈辞書を参照し、前記入力用フォーマットにおける別の項目の用語であって、既に入力して確定済の用語と、前記対象用語の候補との前記同時出現確率を取得し、
(iii)前記出現頻度と前記同時出現確率の両方を考慮して前記対象用語の候補の優先度を算出し、前記対象用語の候補の優先付けを行うことを特徴とする用語入力支援装置。 A term input support device that supports manual input work of a target term composed of a plurality of characters,
A target term that is input to one of a plurality of items in the input format, and is a first character string that is input in all kana characters, and a second character string that is input in kana character strings and symbols And term accepting means for accepting a character string corresponding to the target term having:
And determining means for determining from the information of the previous SL kana characters entered the first character string,
A term dictionary to store multiple terms;
For each of the constituent characters of the plurality of terms in the term dictionary and combinations thereof, a partial character string dictionary that stores the appearance frequency in the term dictionary and the corresponding original term information in association with each other,
A context dictionary for managing a combination of terms input in predetermined two items in the input format, and a co-occurrence probability that is a probability that the combination appears;
From the kana character string, which is a character string describing the structure of the term corresponding to the second character string, and the determined first character string, candidate words corresponding to the second character string are obtained. A candidate presenting means for identifying and presenting a candidate for the target term ;
Term determining means for determining candidate terms corresponding to the second character string and determining the target term ;
The candidate presenting means is:
(I) Referencing the partial character string dictionary, obtaining the appearance frequency of the partial character string generated from the candidate target word,
(Ii) referring to the context dictionary, and obtaining the co-occurrence probability of a term of another item in the input format that has been input and confirmed and a candidate for the target term;
(Iii) A term input support device that calculates the priority of the target term candidates in consideration of both the appearance frequency and the co-occurrence probability, and prioritizes the target term candidates .
前記コンピュータが、
入力用フォーマットにおける複数の項目のうちの1つに入力される対象用語であって、全てかな文字で入力される第1の文字列と、かな文字列と記号で入力される第2の文字列と、を有する前記用語に対応する文字列を受け付ける工程と、
前記第1の文字列を入力されたかな文字の情報から確定する工程と、
前記第2の文字列に対応する用語部分の構成を記述する文字列である前記かな文字列と、前記確定された第1の文字列とから、前記第2の文字列の候補を提示する工程と、
前記第2の文字列の候補を確定し、前記対象用語を決定する工程と、を実行し、
前記候補を提示する工程は、
(i)複数の用語を格納する用語辞書における前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書を参照し、前記用語の候補から生成される部分文字列の前記出現頻度を取得する工程と、
(ii)前記入力用フォーマットにおける所定の2つの項目において入力される用語の組み合わせと、その組み合わせが出現する確率である同時出現確率と、を管理する文脈辞書を参照し、前記入力用フォーマットにおける別の項目の用語であって、既に入力して確定済の用語と、前記用語の候補との前記同時出現確率を取得する工程と、
(iii)前記出現頻度と前記同時出現確率の両方を考慮して前記対象用語の候補の優先度を算出し、前記対象用語の候補の優先付けを行う工程と、を含む、
ことを特徴とする用語入力支援方法。 A term input support method for supporting a manual input operation of a term composed of a plurality of characters using a computer,
The computer is
A target term that is input to one of a plurality of items in the input format, and is a first character string that is input in all kana characters, and a second character string that is input in kana character strings and symbols And receiving a character string corresponding to the term having:
A step of determining from the previous SL information of the first character string kana characters entered and
Presenting a candidate for the second character string from the kana character string, which is a character string describing the configuration of the term part corresponding to the second character string, and the determined first character string When,
Determining a candidate for the second character string and determining the target term ;
The step of presenting the candidate includes
(I) A portion that stores the appearance frequency in the term dictionary and the information of the corresponding original term in association with each of the constituent characters of the plurality of terms and the combination thereof in the term dictionary storing a plurality of terms Referring to a character string dictionary, obtaining the appearance frequency of the partial character string generated from the term candidates; and
(Ii) Refer to a context dictionary that manages a combination of terms input in two predetermined items in the input format and a co-occurrence probability that is a probability that the combination appears; Obtaining the co-occurrence probability of a term that has already been input and confirmed and a candidate for the term;
(Iii) calculating the priority of the candidate for the target term in consideration of both the appearance frequency and the co-occurrence probability, and prioritizing the candidate for the target term.
A term input support method characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008111615A JP5207810B2 (en) | 2008-04-22 | 2008-04-22 | Term input support apparatus and method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008111615A JP5207810B2 (en) | 2008-04-22 | 2008-04-22 | Term input support apparatus and method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009265758A JP2009265758A (en) | 2009-11-12 |
JP5207810B2 true JP5207810B2 (en) | 2013-06-12 |
Family
ID=41391569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008111615A Expired - Fee Related JP5207810B2 (en) | 2008-04-22 | 2008-04-22 | Term input support apparatus and method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5207810B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6913308B2 (en) * | 2018-07-04 | 2021-08-04 | 株式会社医療情報技術研究所 | Medical document management system |
JP6964378B1 (en) * | 2020-03-31 | 2021-11-10 | 株式会社Peco | Veterinary medical term input support system |
JP7008939B2 (en) * | 2020-10-22 | 2022-01-25 | 株式会社医療情報技術研究所 | Medical document management system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62245365A (en) * | 1986-04-16 | 1987-10-26 | Nec Corp | Kanji input system |
JPH01259448A (en) * | 1988-04-08 | 1989-10-17 | Matsushita Graphic Commun Syst Inc | Kanji input system |
JPH0512257A (en) * | 1991-02-25 | 1993-01-22 | Toshiba Corp | Document preparation device |
JPH08297664A (en) * | 1995-04-27 | 1996-11-12 | Sharp Corp | Character string processor |
JPH1011431A (en) * | 1996-06-19 | 1998-01-16 | Okinawa Nippon Denki Software Kk | Kanji retrieval device and method |
JP2007034871A (en) * | 2005-07-29 | 2007-02-08 | Sanyo Electric Co Ltd | Character input apparatus and character input apparatus program |
-
2008
- 2008-04-22 JP JP2008111615A patent/JP5207810B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009265758A (en) | 2009-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176164B2 (en) | Segmenting and interpreting a document, and relocating document fragments to corresponding sections | |
US10176890B2 (en) | Segmenting and interpreting a document, and relocating document fragments to corresponding sections | |
JP2006276911A (en) | Electronic equipment and program | |
JP2011513810A (en) | Term identification method and apparatus | |
JP2014229091A (en) | Program for character input | |
JP6529254B2 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM | |
JP5207810B2 (en) | Term input support apparatus and method, and program | |
CN113168527A (en) | System and method for extracting information from entity documents | |
JPH1153394A (en) | Device and method for document processing and storage medium storing document processing program | |
JPH1145289A (en) | Document processor, storage medium storing document processing program and document processing method | |
JPH1145290A (en) | Document processor, storage medium storing document processing program and document processing method | |
US8335680B2 (en) | Electronic apparatus with dictionary function background | |
US11508139B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20200301952A1 (en) | Document search assist apparatus and non-transitory computer readable medium, and document search assist system | |
JP2009026007A (en) | Electronic equipment with dictionary function and control program | |
JP7315420B2 (en) | How to adapt and modify text | |
JP5348964B2 (en) | Information processing apparatus, information processing method, information processing system, and program | |
WO2015004787A1 (en) | Input assistance device | |
JP7491022B2 (en) | Document identification device, document identification method, and computer program | |
US20140111438A1 (en) | System, method and apparatus for the transcription of data using human optical character matching (hocm) | |
US11163785B2 (en) | Document search result presentation apparatus and non-transitory computer readable medium | |
JP5233424B2 (en) | Search device and program | |
JP2003323441A (en) | Image medical chart management system | |
JP2005208687A (en) | Multi-lingual document processor and program | |
JP2003132080A (en) | Image document management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5207810 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |