JP5581861B2 - Retrieval device, method and program, and data parsing device having retrieval function - Google Patents

Retrieval device, method and program, and data parsing device having retrieval function Download PDF

Info

Publication number
JP5581861B2
JP5581861B2 JP2010157401A JP2010157401A JP5581861B2 JP 5581861 B2 JP5581861 B2 JP 5581861B2 JP 2010157401 A JP2010157401 A JP 2010157401A JP 2010157401 A JP2010157401 A JP 2010157401A JP 5581861 B2 JP5581861 B2 JP 5581861B2
Authority
JP
Japan
Prior art keywords
name
character string
search
registered
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010157401A
Other languages
Japanese (ja)
Other versions
JP2012022354A5 (en
JP2012022354A (en
Inventor
信一郎 西澤
昭次 岩本
孝 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010157401A priority Critical patent/JP5581861B2/en
Publication of JP2012022354A publication Critical patent/JP2012022354A/en
Publication of JP2012022354A5 publication Critical patent/JP2012022354A5/ja
Application granted granted Critical
Publication of JP5581861B2 publication Critical patent/JP5581861B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は,検索処理技術に関する。また,本発明は,前記の検索処理技術を用いてテキストデータの分かち書き処理技術に関する。   The present invention relates to search processing technology. The present invention also relates to text data segmentation processing technology using the search processing technology.

マスターデータの統合,収集データの活用等を行う情報統合分野において,入力されたテキストデータ(文字列)を扱いやすくするために,パース処理やクレンジングを行うことが一般的である。   In the information integration field where master data is integrated, collected data is used, etc., parsing and cleansing are generally performed in order to make it easy to handle input text data (character strings).

パース処理とは,入力されたテキストデータ(文字列)を,要素の並びを定めた所定の規則に合致するように個々の要素に分割(分かち書き)し,分割した各要素の属性を特定する処理である。   Parsing is a process that divides the input text data (character string) into individual elements so as to match a predetermined rule that defines the arrangement of elements, and specifies the attributes of each divided element. It is.

クレンジングは,入力されたテキストデータを,データベースの格納形式に整える処理であり,全角/半角の統一,表記の統一等を行う処理である。日本語のように「べた書き」されるテキストデータをデータベース用データとして扱う場合にパース処理が重要な位置を占める。   Cleansing is a process of arranging input text data into a database storage format, and is a process of unifying full-width / half-width, notation, and the like. Parsing processing occupies an important position when text data that is “solid” like Japanese is handled as database data.

パース処理が必要なテキストデータ例として,データベースのマスターデータがあるが,これらのテキストデータの多くは顧客データであり,特に,企業名や団体名等の固有の名称を含むようなデータが多い。このような固有の名称を含むテキストデータを法人データとする。法人データは,例えば,企業や団体等の法人名称を含むようなテキストデータ,法人名称と共に関連する名称,例えば,法人格を示す法人格名称,法人の内部組織を示す部署名称等の名称を含むテキストデータ等である。   As an example of text data that needs to be parsed, there is database master data. Most of these text data are customer data, and in particular, there are many data including unique names such as company names and organization names. Text data including such a unique name is corporate data. The corporate data is, for example, text data including a corporate name such as a company or organization, a text data including a name associated with the corporate name, for example, a corporate personality name indicating a corporate personality, a department name indicating a corporate internal organization, etc. Etc.

法人データをマスターデータとして活用するためには,法人データに含まれる1または複数の名称の各々を特定して,各名称の属性を識別するパース処理が必須となる。   In order to use corporate data as master data, a parsing process that identifies each of one or more names included in the corporate data and identifies the attribute of each name is essential.

パース処理として,固有の名称を予め辞書へ登録しておき,解析対象の法人データ中に出現する辞書の登録語を検索して,最も確からしい並び順となる要素の並びを選択して,各要素(名称)に分割するという手法が一般的である。   As a parsing process, a unique name is registered in the dictionary in advance, the registered words in the dictionary appearing in the corporate data to be analyzed are searched, the element sequence that is most likely to be arranged is selected, The technique of dividing into elements (names) is common.

その代表的なものとして,形態素解析処理が存在する。他にも,解析対象の法人データ中での項目のならびに着目し,辞書登録語との前方一致または後方一致を組み合わせて,要素ごとに分割するという手法が知られている。   A typical example is morphological analysis processing. In addition, there is known a method of focusing on the items in the corporate data to be analyzed and dividing each element by combining forward matching or backward matching with dictionary registered words.

また,法人データを分かち書きした要素を略称とみなした場合に,その略称に対応する正式名称が何かを判別する手法が知られている。   In addition, when an element obtained by sharing corporate data is regarded as an abbreviation, there is known a method for determining what the official name corresponding to the abbreviation is.

特許第4076900号公報Japanese Patent No. 4076900 特許第2792147号公報Japanese Patent No. 2792147 特開平4−130578号公報JP-A-4-130578 特開平11−353316号公報JP-A-11-353316

一般的に,パース処理用の辞書に登録される名称は正式名称である。しかし,処理対象となる入力データは,人手で入力されたり書かれたりするために,作業省力化により,正式名称ではなく略称で表現されていることが多い。そのため,入力データ中に出現する略称から正式名称を識別することが求められる。   Generally, the name registered in the parse processing dictionary is the official name. However, since input data to be processed is manually input and written, it is often expressed by an abbreviated name rather than an official name due to labor saving. Therefore, it is required to identify the official name from the abbreviations that appear in the input data.

そのため,出現が予測される略称,略称と正式名称との対応を,できる限り辞書に登録しておくことが考えられる。しかし,略称が膨大数となることが予想され,略称を網羅することは困難であり現実的手法ではない。   Therefore, it is conceivable that the abbreviations that are expected to appear and the correspondence between the abbreviations and the official names are registered in the dictionary as much as possible. However, the abbreviations are expected to be enormous, and it is difficult to cover the abbreviations, which is not a practical method.

具体的には,パース処理用辞書として,企業,団体等の固有名称の正式名称を登録した辞書を用意し,辞書の登録語(正式名称)を入力データ中から検索するという従来手法の場合に,検索対象の入力データと完全に一致する登録語のみが検索可能であるため,次のような課題が存在する。   Specifically, in the case of the conventional method of preparing a dictionary for registering the proper names of companies, organizations, etc. as parsing processing dictionaries, and searching the registered words (official names) of the dictionary from the input data. Because only registered words that completely match the input data to be searched can be searched, the following problems exist.

課題1:辞書に正式名称が登録されていても,入力データ内の略称で表現された正式名称を判別することができない。   Problem 1: Even if the official name is registered in the dictionary, the official name expressed by the abbreviation in the input data cannot be determined.

課題1への対応方法は,「入力データで使用される可能性がある略称を全て辞書に登録しておく」ことである。しかし,略称を網羅するようなデータを,数を揃えて準備することは現実的に困難である。   A method for dealing with the problem 1 is to “register all abbreviations that may be used in the input data in the dictionary”. However, it is practically difficult to prepare data that covers abbreviations in a uniform number.

課題2:関連する名称として,親名称から派生的に名付けた名称(以下,派生名称という)が使用されることも多い。例えば,新しく創設される子会社の法人名称として,「親会社の名称+α」のような形式の派生名称が名付けられることも多い。この場合に,親会社の正式名称のみが辞書に登録されていると,入力データに含まれる子会社の名称(派生名称)は,「親会社の名称」と「α」とに分割されてしまい,子会社の名称として識別されないという問題がある。   Problem 2: As a related name, a name derived from a parent name (hereinafter referred to as a derived name) is often used. For example, as a corporate name of a newly established subsidiary, a derivative name of the form “parent company name + α” is often named. In this case, if only the official name of the parent company is registered in the dictionary, the name of the subsidiary (derived name) included in the input data will be divided into “name of the parent company” and “α”. There is a problem that it is not identified as a name.

課題2への対処方法は,略称の場合と同様に,「関連する名称も全て辞書に登録しておく」ことである。しかし,関連する名称は数が多いだけでなく,頻繁に更新される可能性があるため,網羅する辞書を用意することは現実的に困難である。   As with the abbreviation, the coping method for the problem 2 is “Register all related names in the dictionary”. However, since there are not only a large number of related names but also frequent updates, it is practically difficult to prepare a comprehensive dictionary.

さらに,従来手法として,辞書の登録語(正式名称)と,入力データ内の略称とを関連づける手法として,「辞書に,略称とみなせる文字列に登場する文字が,全てその順序で出現する登録語があれば,その登録語を,略称に対する正式名称と判断する」処理を行うものがある。   Furthermore, as a method of associating the registered words (official names) in the dictionary with the abbreviations in the input data as a conventional method, “Registered words in which all characters appearing in a string that can be regarded as abbreviations in the dictionary appear in that order.” If there is, there is a process of “determining the registered word as an official name for the abbreviation”.

この従来手法は,略称と正式名称との関連付けを行える。しかし,前提として,入力データから「略称とみなせる文字列」を何らかの方法で切り出しておく必要があるが,入力データから略称の範囲を自動的に切り出せる手法は知られていない。   This conventional method can associate an abbreviation with a formal name. However, as a premise, it is necessary to cut out “a character string that can be regarded as an abbreviation” from the input data by some method, but a method for automatically cutting out the range of the abbreviation from the input data is not known.

また,別の従来手法として,名称そのものではなくパターンを登録したパターン辞書を用意しておき,パターン辞書と入力データとを突き合わせて,入力データを各名称に分割するという手法がある。例えば,「“部”で終わる文字列は,“部署名称”である」と判断して,部署名称の範囲を特定して分割する。   As another conventional method, there is a method in which a pattern dictionary in which a pattern is registered instead of the name itself is prepared, and the input data is divided into each name by matching the pattern dictionary with the input data. For example, it is determined that “a character string ending with“ part ”is“ department name ””, and the range of the department name is specified and divided.

しかし,パターンマッチング処理では,名称そのものではなく,該当する可能性があるパターンを示す辞書を用意する作業が必要であり,一定ルールに則って要素のパターンを記述することが困難であるだけでなく,識別したい要素の並びに対応できる正確なパターンを記述することが困難であり,利用者に大きな負担を強いるという課題がある。   However, in pattern matching processing, it is necessary to prepare a dictionary that indicates a pattern that may be applicable, not the name itself, and it is difficult not only to describe element patterns according to certain rules. , It is difficult to describe an accurate pattern that can correspond to the elements to be identified, and there is a problem of imposing a heavy burden on the user.

本発明の目的は,正式名称のみを登録した辞書を用いて,処理対象の入力データに含まれる略称や派生名称を特定処理,それらの正式名称を検索する処理をより高い精度で行える装置を提供することである。   An object of the present invention is to provide an apparatus capable of performing a process of specifying abbreviations and derived names included in input data to be processed and a process of searching for the formal names with higher accuracy using a dictionary in which only formal names are registered. It is to be.

また,本発明の別の目的は,前記の検索処理機能を備えて,入力データ内の略称や派生名称とみなす部分を他の部分と分割して,識別した略称や派生名称に対応する正式名称を対応付けるパース処理を実行できる装置を提供することである。   Another object of the present invention is to provide the above-described search processing function, divide a portion regarded as an abbreviation or a derived name in input data from other portions, and form an official name corresponding to the identified abbreviation or derived name. It is an object of the present invention to provide a device capable of executing a parsing process for associating a.

さらに,本発明の前記および他の目的ならびに新規な特徴は,明細書の記述および添付図面から明らかにされるものである。   Furthermore, the above and other objects and novel features of the present invention will become apparent from the description of the specification and the accompanying drawings.

本発明の一実施態様として開示される検索装置は,1)複数の登録された正式名称を記憶する記憶部と,2)入力文字列を受け付けるデータ入力部と,3)処理部とを備え,前記処理部は,入力文字列が複数の登録された正式名称のいずれとも一致しない場合に,記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を複数の登録された正式名称から検索し,検索の結果抽出された正式名称のうち,入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,部分的に一致する文字列を,特定した正式名称に対応する略称を示す文字列と判定するものである。 A search device disclosed as one embodiment of the present invention includes 1) a storage unit that stores a plurality of registered formal names , 2) a data input unit that receives an input character string, and 3) a processing unit. When the input character string does not match any of a plurality of registered formal names , the processing unit stores a plurality of character strings including character strings partially matching the input character string from the storage unit . retrieved from official name, among the search results extracted official name, a length of the input string and partially string that matches the maximum and partial match to the length of the official name A formal name that maximizes the ratio of the length of the character string to be identified is identified, and a partially matching character string is determined as a character string indicating an abbreviation corresponding to the identified formal name .

また,本発明の別の一実施態様として開示される検索方法は,記憶部を備えるコンピュータが実行する処理方法であって,1)入力文字列を受け付ける処理ステップと,2)複数の登録された正式名称を記憶する記憶部を参照して,入力文字列が複数の登録された正式名称のいずれとも一致しない場合に,記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を複数の登録された正式名称から検索する処理ステップと,3)検索の結果抽出された正式名称のうち,入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,部分的に一致する文字列を,特定した正式名称に対応する略称を示す文字列と判定する処理ステップとを備えるものである。 The search method disclosed as another embodiment of the present invention is a processing method executed by a computer having a storage unit, which includes 1) a processing step for receiving an input character string, and 2) a plurality of registered methods . A character including a character string partially matching the input character string from the storage unit when the input character string does not match any of a plurality of registered formal names with reference to the storage unit storing the official name A processing step for retrieving a column from a plurality of registered formal names , and 3) of the formal names extracted as a result of the retrieval, the character string partially matching the input character string has a maximum length, and , letters indicating the abbreviations length ratio of the character string that partially matches to the length of the official name identifies a formal name of maximum, the string that partially matches, corresponding to the identified official name Processing step for determining a row It is those with a door.

さらに,本発明の別の一実施態様として開示される検索プログラムは,記憶部を備えるコンピュータに,上記の各処理ステップで実現される処理を実行させるためのものである。 Furthermore, another search programs which are to be disclosed as one embodiment of the present invention, the computer having a serial憶部is intended for executing a process implemented by the processing steps described above.

さらに,本発明の別の一実施態様として開示される,検索機能を備えるデータパース装置は,複数の名称を構成要素とする文字列を,文字列の構成として複数の名称の正しい並び順序を示す組合せ規則にもとづいて,構成要素である各名称に分割するパース処理を実行するパース処理部を備えるデータパース装置であって,1)正式名称を登録語とする名称辞書を記憶する記憶部と,2)入力文字列受け付けるデータ入力部と,3)入力文字列が名称辞書の登録語と一致しない部分を含む場合に,名称辞書の登録語と入力文字列とを比較し登録語と該登録語と部分的に一致する部分文字列とを対応付けて抽出し抽出した登録語のうち,対応付けられた部分文字列の長さが最大かつ入力文字列に対する割合が最大となる登録語を1つ特定し,入力文字列の特定した登録語に対応付けられた部分文字列を略称と判定し,該特定した登録語を略称の正式名称とする検索処理部とを備えて前記パース処理部は,パース処理において入力文字列の略称と決定された部分を1名称として分割し,特定された正式名称を該略称に対応づける処理を行うものである。 Further, disclosed as another embodiment of the present invention, the data parsing apparatus comprising a search function, a character string as a component a plurality of names, the proper arrangement order of a plurality of names as a string based on the combination rule shown, a data parsing apparatus comprising a parsing unit for executing parsing process of dividing each name that is a component, 1) you store name dictionary to register words the official name Symbol憶And 2) a data input unit that accepts an input character string , and 3) if the input character string includes a part that does not match the registered word in the name dictionary , the registered word in the name dictionary is compared with the input character string and registered A word and a partial character string that partially matches the registered word are extracted in association with each other, and among the extracted registered words, the length of the associated partial character string is the largest and the ratio to the input character string is the largest. Identify one registered word And, determining that abbreviation a substring associated with the identified registered words of the input string, and a search processing unit to the full name of abbreviated registered word and the particular, the parsing unit, A part determined as an abbreviation of the input character string in the parsing process is divided as one name, and a process of associating the specified formal name with the abbreviation is performed.

開示した検索装置によれば,正式名称のみを登録した辞書を用いて,処理対象である入力データ中に含まれる略称を識別して,その略称に対応する正式名称を検索することができる。 According to the disclosed search device, using the dictionary registered only formal name identifies the abbreviations contained in the input data to be processed, it is possible to search the full name that corresponds to the abbreviation .

さらに,開示した検索機能を備えるデータパース装置によれば,処理対象である入力データ中に略称が含まれている場合に,正式名称のみを登録した辞書を用いて,略称とみなす部分を1要素として識別して分割し,その略称に対応する正式名称を対応づけたパース結果を出力することができる。 Further, according to the data parsing apparatus having the disclosed search function, if it contains abbreviations in the input data to be processed, by using the dictionary registered only official name, a portion regarded as abbreviation A parsing result can be output by identifying and dividing as one element and associating a formal name corresponding to the abbreviated name.

本発明の一実施の形態例におけるデータパース装置のブロック構成例を示す図である。It is a figure which shows the block structural example of the data parsing apparatus in one embodiment of this invention. 本実施形態における辞書記憶部に記憶される辞書の構成例を示す図である。It is a figure which shows the structural example of the dictionary memorize | stored in the dictionary memory | storage part in this embodiment. 本実施形態における組合せ規則記憶部に記憶される組合せ規則の構成例を示す図である。It is a figure which shows the structural example of the combination rule memorize | stored in the combination rule memory | storage part in this embodiment. 本実施形態におけるデータパース装置のデータ入力部が入力を受け付ける法人データの例を示す図である。It is a figure which shows the example of the corporate data which the data input part of the data parsing apparatus in this embodiment receives an input. 本実施形態におけるデータパース装置の結果出力部から出力されるパース結果の例を示す図である。It is a figure which shows the example of the parse result output from the result output part of the data parsing apparatus in this embodiment. 本実施形態におけるデータパース装置の処理の概要フローを示す図である。It is a figure which shows the outline | summary flow of a process of the data parsing apparatus in this embodiment. 略称検索処理(ステップS5)の概要フローを示す図である。It is a figure which shows the outline | summary flow of an abbreviation search process (step S5). 検索対象と登録語の部分一致検索を説明するための図である。It is a figure for demonstrating the partial matching search of a search object and a registration word. 略称検索処理での判定処理(ステップS17およびS18)の具体例(その1)を示す図である。It is a figure which shows the specific example (the 1) of the determination process (step S17 and S18) in an abbreviation search process. 略称検索処理での判定処理(ステップS17およびS18)の具体例(その2)を示す図である。It is a figure which shows the specific example (the 2) of the determination process (step S17 and S18) in an abbreviation search process. 略称検索処理での判定処理(ステップS17およびS18)の具体例(その3)を示す図である。It is a figure which shows the specific example (the 3) of the determination process (step S17 and S18) in an abbreviation search process. 部分一致の検索処理(ステップS10)の詳細フローを示す図であるIt is a figure which shows the detailed flow of a search process (step S10) of partial matching. 後方部分一致の検索処理(ステップS101)の詳細処理フローを示す図である。It is a figure which shows the detailed process flow of the search process (step S101) of back partial matching. 後方部分一致の検索処理を説明するための図である。It is a figure for demonstrating the search process of a back partial match. 前方部分一致の検索処理(ステップS103)の詳細処理フローを示す図である。It is a figure which shows the detailed processing flow of a search process (step S103) of a front partial match. 完全包含の検索処理(ステップS11)の詳細フローを示す図である。It is a figure which shows the detailed flow of a complete inclusion search process (step S11). 完全包含の検索処理(ステップS11)の詳細フローを示す図である。It is a figure which shows the detailed flow of a complete inclusion search process (step S11). 本実施形態におけるデータパース装置に入力された法人データのパース処理例(その1)を示す図である。It is a figure which shows the parsing process example (the 1) of the corporate data input into the data parsing apparatus in this embodiment. 本実施形態におけるデータパース装置に入力された法人データのパース処理例(その2)を示す図である。It is a figure which shows the parsing process example (the 2) of the corporate data input into the data parsing apparatus in this embodiment. 部署名称辞書の登録語を分解して用いる略称検索処理を説明するための図である。It is a figure for demonstrating the abbreviation search process which decomposes | disassembles and uses the registration word of a department name dictionary. 本実施形態におけるデータパース装置を実施するためのハードウェア構成例を示す図である。It is a figure which shows the hardware structural example for implementing the data parsing apparatus in this embodiment.

図1は,本発明の一実施の形態例におけるデータパース装置のブロック構成例を示す図である。   FIG. 1 is a diagram showing a block configuration example of a data parsing apparatus according to an embodiment of the present invention.

データパース装置1は,法人データの入力を受けて,入力した法人データ中に含まれる略称や派生名称に対応する正式名称を検索し,この検索結果を用いて法人データをパース処理する装置である。   The data parsing apparatus 1 is an apparatus that receives an input of corporate data, searches for a formal name corresponding to an abbreviation or derivative name included in the input corporate data, and parses the corporate data using the search result. .

法人データは,固有の名称を含む文字列であり,本実施の形態では,企業名,団体名等の法人名称,法人格名称,法人の内部組織の名称である部署名称等が含まれてもよいものとする。   The corporate data is a character string including a unique name, and in this embodiment, a corporate name such as a company name or an organization name, a corporate case name, or a department name that is the name of an internal organization of the corporation may be included. Shall.

略称は,正式名称の一部を省略して表された名称である。例えば,正式名称が「富○通abcdef」である場合に「富○通ab」と表された名称である。   The abbreviation is a name expressed by omitting a part of the official name. For example, in the case where the official name is “Fuji ○ abcdef”, the name is represented as “Fuji ○ ab ab”.

派生名称は,正式名称に文字列を追加して派生的に作られた名称である。例えば,正式名称が「富○通」である場合に「富○通xyz」と表された名称である。   A derived name is a name that is derived by adding a character string to the official name. For example, when the official name is “wet ○ dori”, it is a name represented as “wet bw xyz”.

データパース装置1は,パース制御部10,辞書記憶部11,組合せ規則記憶部12,データ入力部13,辞書引き部14,略称検索部15,パース部16,および結果出力部17を備える。   The data parsing device 1 includes a parsing control unit 10, a dictionary storage unit 11, a combination rule storage unit 12, a data input unit 13, a dictionary lookup unit 14, an abbreviation search unit 15, a parsing unit 16, and a result output unit 17.

パース制御部10は,データ入力部13,辞書引き部14,略称検索部15,パース部16,および結果出力部17の処理を制御する。パース制御部10は,データ入力部13から受け取った法人データ(以下入力データという)について,辞書引き部14,略称検索部15,パース部16の各処理部を呼び出して処理を行い,処理結果を結果出力部17へ渡す。   The parse control unit 10 controls processing of the data input unit 13, dictionary lookup unit 14, abbreviation search unit 15, parse unit 16, and result output unit 17. The parse control unit 10 processes the corporate data (hereinafter referred to as input data) received from the data input unit 13 by calling each processing unit of the dictionary lookup unit 14, the abbreviation search unit 15, and the parse unit 16, and obtains the processing result. It passes to the result output unit 17.

辞書記憶部11は,辞書引き部14,略称検索部15で使用される辞書であって,法人名称,法人格名称,部署名称等の正式名称(以下,登録語という)それぞれを登録した辞書を記憶する。登録語は,基本的には正式名称であるが,正式名称とみなされる名称を含んでもよい。   The dictionary storage unit 11 is a dictionary used by the dictionary lookup unit 14 and the abbreviation search unit 15 and stores a dictionary in which formal names (hereinafter referred to as registered words) such as corporate names, corporate case names, and department names are registered. To do. Registered words are basically formal names, but may include names that are considered formal names.

辞書記憶部11に記憶される辞書には,登録語として,「富○通」「富○通プロダクション」等の法人名称が,「株式会社」「有限会社」「合資会社」等の法人格名称が登録される。辞書記憶部11には,「総務部」「営業部」「事業部」「管理部」等の部署名称が登録されてもよい。   In the dictionary stored in the dictionary storage unit 11, as registered words, corporate names such as “Fuji * tsu” and “Fuji * tsu Production” and corporate names such as “corporation”, “limited company”, and “joint company” are registered. be registered. Department names such as “General Affairs Department”, “Sales Department”, “Business Department”, and “Management Department” may be registered in the dictionary storage unit 11.

図2は,辞書記憶部11に記憶される辞書の構成例を示す図である。   FIG. 2 is a diagram illustrating a configuration example of a dictionary stored in the dictionary storage unit 11.

辞書記憶部11は,図2(A)に示すように,登録される名称ごとに,「法人名称辞書」,「法人格名称辞書」等のように別々に構成される。または,図2(B)に示すように,「名称+名称種別」のような形式で登録語を記述して,各名称全てを1つの辞書に登録するように構成されてもよい。さらに,辞書記憶部11は,「部署名称辞書」を備えていてもよい。   As shown in FIG. 2A, the dictionary storage unit 11 is configured separately for each registered name, such as “corporate name dictionary”, “corporate case name dictionary”, and the like. Alternatively, as shown in FIG. 2B, a registered word may be described in a format such as “name + name type”, and all the names may be registered in one dictionary. Furthermore, the dictionary storage unit 11 may include a “department name dictionary”.

組合せ規則記憶部12は,パース部16で使用される,各名称の正しい並び順序を記述した組合せ規則を記憶する。   The combination rule storage unit 12 stores combination rules used in the parsing unit 16 that describe the correct order of the names.

図3は,組合せ規則記憶部12に記憶される組合せ規則の構成例を示す図である。   FIG. 3 is a diagram illustrating a configuration example of combination rules stored in the combination rule storage unit 12.

組合せ規則として,「法人格名称+法人名称+部署名称」,「法人名称+法人格名称+部署名称」等が登録される。「法人格名称+法人名称+部署名称」は,入力データが,「法人格名称」,「法人名称」,「部署名称」の並びで構成されることを示す。   As combination rules, “corporate case name + corporate name + department name”, “corporate name + corporate case name + department name”, and the like are registered. “Corporate name + corporate name + department name” indicates that the input data is composed of a sequence of “corporate case name”, “corporate name”, and “department name”.

データ入力部13は,ユーザの操作または他のコンピュータからの要求によって,データパース装置1へ処理対象となる法人データの入力を受け付ける。   The data input unit 13 receives input of corporate data to be processed into the data parsing device 1 by a user operation or a request from another computer.

図4は,入力される法人データの例を示す図である。   FIG. 4 is a diagram illustrating an example of input corporate data.

法人データは,例えば,「富○通株式会社デー○○ネジメント・ミ○ルウェア事業部」,「株式会社富○通プロ」,「富○通ミ○ルウェア」等である。   The corporate data includes, for example, “Fujitsu Day Co., Ltd. Day XX Management / Moldware Division”, “Fukumi Ltd. Professional”, “Fumitsu ○ Muware”, etc.

辞書引き部14は,パース制御部10から入力データを受け取り,辞書記憶部11から,入力データの文字列と完全に一致する登録語を検索して,その検索結果をパース制御部10に返す。   The dictionary lookup unit 14 receives the input data from the parse control unit 10, searches the dictionary storage unit 11 for a registered word that completely matches the character string of the input data, and returns the search result to the parse control unit 10.

略称検索部15は,パース制御部10から入力データを受け取り,入力データ内に辞書記憶部11の登録語と完全に一致しない部分が残っている場合に,入力データの検索対象とされた文字列について,部分的に一致する範囲を有する登録語,または,完全一致はしないが完全に包含される登録語を検索して,検索結果をパース制御部10に返す。   The abbreviation search unit 15 receives the input data from the parse control unit 10, and when a portion that does not completely match the registered word in the dictionary storage unit 11 remains in the input data, the character string that is the search target of the input data Is searched for a partially registered word having a partially matching range, or a registered word that is not completely matched but completely included, and returns the search result to the parse control unit 10.

パース部16は,パース制御部10から,辞書引き部14または略称検索部15の処理結果を受け取り,組合せ規則記憶部12に記憶された組合せ規則に定められた名称の並びとなるように入力データの各名称を分割し,各名称の属性を特定するパース処理を行い,その結果をパース制御部10に返す。   The parsing unit 16 receives the processing result of the dictionary lookup unit 14 or the abbreviation search unit 15 from the parsing control unit 10, and receives input data so as to form an array of names defined in the combination rules stored in the combination rule storage unit 12. Are parsed, a parsing process for specifying the attribute of each name is performed, and the result is returned to the parse control unit 10.

結果出力部17は,入力データのパース処理の結果を出力する。   The result output unit 17 outputs the result of the parsing process of the input data.

図5は,結果出力部17から出力されるパース結果の例を示す図である。   FIG. 5 is a diagram illustrating an example of a parsing result output from the result output unit 17.

パース結果では,入力データの文字列が1または複数の名称に分割され,分割された名称の属性(法人名称,法人格名称,部署名称等)が特定される。さらに,分割された名称が略称であれば略称の正式名称,または,分割された名称が派生名称であれば関連する正式名称がそれぞれ付加される。   In the parsing result, the character string of the input data is divided into one or more names, and attributes of the divided names (corporate name, legal case name, department name, etc.) are specified. Further, if the divided name is an abbreviation, an abbreviated formal name is added, or if the divided name is a derived name, a related formal name is added.

例えば,入力データが,法人データ「富○通株式会社デー○○ネジメント・ミ○ルウェア事業部」である場合に,「法人名称=富○通,法人格名称=株式会社,部署名称=デー○○ネジメント・ミ○ルウェア事業部,法人名称_正式名称=富○通」のようなパース結果が出力される。   For example, if the input data is corporate data “Tofu ○ Toshi Co., Ltd. Day XX Management and Software Division”, “Corporate name = Tofu ○ Toshi, Corporate case name = Incorporated, Department name = D A parsing result such as “Nementment / Mileware Division, Corporate Name_Official Name = Wealth ○ Tong” is output.

また,入力データが,法人データ「株式会社富○通プロ」である場合に,「法人名称=富○通プロ<略称>,法人格名称=株式会社,部署名称=なし(−),法人名称_正式名称=富○通プロダクション」のようなパース結果が出力される。   In addition, when the input data is corporate data “Fujitsutsu Co., Ltd.”, “Corporate name = Fujitsutsu Pro <abbreviation>”, Corporate name = corporation, Department name = None (−), Corporate name_ A parsing result such as “official name = wealth ○ through production” is output.

さらに,入力データが,法人データ「富○通ミ○ルウェア」である場合に,「法人名称=富○通ミ○ルウェア<派>,法人格名称=なし(−),部署名称=なし(−),法人名称_正式名称=富○通」のようなパース結果が出力される。   Furthermore, when the input data is corporate data “Tomi * tsu Miruware”, “Corporate name = Tomi * tsumi * ware <group>, Corporate name = None (−), Department name = None (−) , Such as “corporation name_official name = wealth ○ communication” is output.

次に,データパース装置1の処理の流れを説明する。   Next, the processing flow of the data parsing apparatus 1 will be described.

データパース装置1のパース制御部10は,データ入力部13が,略称を含む法人データの入力を受け付けると,入力された法人データに対するパース処理を制御する。   When the data input unit 13 receives input of corporate data including an abbreviation, the parsing control unit 10 of the data parsing apparatus 1 controls the parsing process for the input corporate data.

図6は,データパース装置1の処理の概要フローを示す図である。   FIG. 6 is a diagram showing an outline flow of processing of the data parsing apparatus 1.

ステップS1: パース制御部10は,データ入力部13が入力を受け付けた法人データ(以下,「入力データ」という)を辞書引き部14へ渡す。辞書引き部14は,辞書記憶部11を参照して,入力データの文字列に含まれる登録語(法人名称,法人格名称,部署名称)を全て検索して,検索結果をパース制御部10へ返却する。   Step S1: The parse control unit 10 passes the corporate data (hereinafter referred to as “input data”) accepted by the data input unit 13 to the dictionary lookup unit 14. The dictionary lookup unit 14 refers to the dictionary storage unit 11, searches all registered words (corporate name, corporate case name, department name) included in the character string of the input data, and returns the search result to the parse control unit 10. To do.

ステップS2: パース制御部10は,辞書引き部14の検索結果から,入力データに登録語と一致しない部分が残っているかを調べる。   Step S2: The parse control unit 10 checks whether or not a portion that does not match the registered word remains in the input data from the search result of the dictionary lookup unit 14.

入力データに登録語と一致しない部分が残っていない(入力データの文字列が全て登録語と一致する)場合には(ステップS2のN),入力データは,登録された正式名称のみで構成されている文字列であるので,パース制御部10は,一般的なパース処理を実行するため,ステップS3の処理へ進む。一方,入力データに登録語と一致しない部分が残っている場合には(ステップS2のY),入力データ中に略称や派生名称の一部が含まれている可能性があるので,パース制御部10は,ステップS4の処理へ進む。   If there is no remaining part of the input data that does not match the registered word (all the character strings of the input data match the registered word) (N in step S2), the input data is composed only of the registered official name. Therefore, the parse control unit 10 proceeds to the process of step S3 in order to execute a general parse process. On the other hand, if a portion that does not match the registered word remains in the input data (Y in step S2), there is a possibility that the input data includes a part of the abbreviation or derived name. In step 10, the process proceeds to step S4.

ステップS3: パース制御部10は,入力データと辞書引き部14の処理結果とをパース部16へ渡す。パース部16は,組合せ規則記憶部12の組合せ規則に合致するように入力データを各名称に分割するパース処理を行う。なお,パース部16が実行するパース処理は既知のものであるので詳細な説明は省略する。   Step S3: The parse control unit 10 passes the input data and the processing result of the dictionary lookup unit 14 to the parse unit 16. The parsing unit 16 performs a parsing process that divides input data into each name so as to match the combination rules of the combination rule storage unit 12. Note that the parsing process executed by the parsing unit 16 is known and will not be described in detail.

ステップS4: パース制御部10は,入力データ中の法人格名称の部分を特定し,入力データの法人格名称以外の部分を,略称検索部15の処理対象の文字列(検索対象)とし,検索対象を略称検索部15へ渡す。   Step S4: The parsing control unit 10 identifies the part of the legal case name in the input data, sets the part other than the legal case name in the input data as a character string (search target) to be processed by the abbreviation search unit 15, and selects the search target. Pass to the abbreviation search unit 15.

パース制御部10は,入力データ中に法人格名称がなければ,入力データの全体を検索対象とする。また,パース制御部10は,入力データの先頭からの文字列が法人格名称であれば,入力データ内の法人格名称の直後の文字から最後の文字までの範囲を検索対象とする。   If there is no legal name in the input data, the parse control unit 10 searches the entire input data. Further, if the character string from the beginning of the input data is the legal name, the parse control unit 10 searches the range from the character immediately after the legal name in the input data to the last character.

また,パース制御部10は,入力データ中で法人格名称が先頭からの文字列以外の部分にある場合には,入力データの先頭から法人格名称の直前の文字までの範囲を,法人名称の検索対象とし,法人格名称の直後の文字から最後の文字までの範囲を,部署名称の検索対象とする。この場合に,略称検索部15は,2つの検索対象について,それぞれ,法人名称と部署名称の略称検索を行う。   In addition, when the legal case name is in a portion other than the character string from the beginning in the input data, the parse control unit 10 searches the range from the beginning of the input data to the character immediately before the legal case name as a search target for the legal name. The range from the character immediately after the legal name to the last character is searched for the department name. In this case, the abbreviation search unit 15 searches for the abbreviations of the corporate name and the department name for the two search targets, respectively.

なお,辞書引き部14で入力データから部署名称辞書の登録語が検索されている場合には,パース制御部10は,入力データから法人格名称と部署名称以外の範囲を検索対象として略称検索部15に渡してもよい。   When the registered word in the department name dictionary is searched from the input data in the dictionary lookup section 14, the parse control section 10 searches the range other than the legal case name and the department name from the input data as an abbreviation search section 15 for searching. May be passed to

ステップS5: 略称検索部15は,検索対象について略称検索処理を行う。略称検索処理の詳細は後述する。   Step S5: The abbreviation search unit 15 performs abbreviation search processing for the search target. Details of the abbreviation search process will be described later.

ステップS6: 略称検索処理で検索結果が得られた場合に(ステップS6のY),パース制御部10は,ステップS7の処理へ進ませ,検索結果が得られなかった場合に(ステップS6のN),ステップS8の処理へ進ませる。   Step S6: When a search result is obtained by the abbreviation search process (Y of Step S6), the parse control unit 10 proceeds to the process of Step S7, and when the search result is not obtained (N of Step S6) ), The process proceeds to step S8.

ステップS7: パース制御部10は,入力データと,辞書引き部14の処理結果と,略称検索部15の処理結果とをパース部16へ渡す。   Step S <b> 7: The parse control unit 10 passes the input data, the processing result of the dictionary lookup unit 14, and the processing result of the abbreviation search unit 15 to the parse unit 16.

パース部16は,組合せ規則記憶部12の組合せ規則に従って,入力データを,辞書引き部14の処理結果と略称検索部15の検索結果をもとに,検索対象の文字列を各名称(文字列)に分割する。   In accordance with the combination rule of the combination rule storage unit 12, the parsing unit 16 assigns the input data to each name (character string) based on the processing result of the dictionary lookup unit 14 and the search result of the abbreviation search unit 15. ).

パース部16は,入力データ内に法人格名称が特定されていなければ,「法人名称」,「法人名称+部署名称」等の組合せ規則により,入力データを分割した要素それぞれを,組合せ規則で定められた各名称とし,法人格名称=なし(−)としたパース結果を生成する。また,パース部16は,略称検索の結果で,入力データの法人名称が「略称」であると判定されていれば,略称に対応する正式名称を追加し,「派生名称」と判定されていれば,派生名称に関連する正式名称を追加する。   If the legal name is not specified in the input data, the parsing unit 16 determines each element obtained by dividing the input data by a combination rule such as “corporate name” and “corporate name + department name”. Each parsing name is generated, and a parsing result with a legal name = none (−) is generated. Further, the parsing unit 16 adds the official name corresponding to the abbreviation if it is determined that the corporate name of the input data is “abbreviation” as a result of the abbreviation search, and is determined to be “derived name”. For example, add the official name related to the derived name.

ステップS8: パース制御部10は,入力データと,略称検索部15の処理結果(なし)をパース部16へ渡す。パース部16は,組合せ規則記憶部12の組合せ規則と処理結果をもとに,入力データのうち特定できた名称のみを分割する。   Step S8: The parse control unit 10 passes the input data and the processing result (none) of the abbreviation search unit 15 to the parse unit 16. The parsing unit 16 divides only the names that can be identified from the input data based on the combination rules and processing results of the combination rule storage unit 12.

ステップS9: パース制御部10は,パース部16から得た処理結果を結果出力部17へ渡す。結果出力部17は,渡された結果を所定の形式で出力する。   Step S <b> 9: The parse control unit 10 passes the processing result obtained from the parse unit 16 to the result output unit 17. The result output unit 17 outputs the passed result in a predetermined format.

図7は,略称検索処理(ステップS5)の概要フローを示す図である。   FIG. 7 is a diagram showing an outline flow of the abbreviation search process (step S5).

ステップS10: 略称検索部15は,検索対象のうち登録語と部分一致する部分を検索し,その結果をR1とする。具体的には,略称検索部15は,辞書記憶部11の法人名称の各登録語と,検索対象とを比較して,一致する文字列の部分(一致範囲)とその登録語との対応を結果リストに格納する。   Step S10: The abbreviation search unit 15 searches a part of the search target that partially matches the registered word, and sets the result as R1. Specifically, the abbreviation search unit 15 compares each registered word of the corporate name in the dictionary storage unit 11 with the search target, and determines the correspondence between the matching character string portion (matching range) and the registered word. Store in result list.

図8は,検索対象と登録語の部分一致検索を説明するための図である。   FIG. 8 is a diagram for explaining a partial match search between a search target and a registered word.

略称検索部15は,図8(A)に示すように,辞書記憶部11に記憶された法人名称の各登録語の末尾からの文字列と,検索対象の先頭からの文字列とを比較する。例えば,検索対象「富○通プロ企画制作部」について,その先頭からの文字列を,登録語「富山富○通」の末尾からの文字列と比較した場合に,「富○通」が一致する。略称検索部15は,文字列の一致した部分(一致範囲)「富○通」とその登録語「富山富○通」との対応を結果R1のリストに格納する。   As shown in FIG. 8A, the abbreviation search unit 15 compares the character string from the end of each registered word of the corporate name stored in the dictionary storage unit 11 with the character string from the start of the search target. . For example, if the character string from the beginning of the search target “Tomi * tsu Pro Planning and Production Department” is compared with the character string from the end of the registered word “Toyama Tomi * tsu”, “Tomi * tsu” matches. To do. The abbreviation search unit 15 stores the correspondence between the character string matching part (matching range) “Tomi * tsu” and the registered word “Toyama Tomi * tsu” in the list of the result R1.

さらに,略称検索部15は,図8(B)に示すように,辞書記憶部11に記憶された法人名称の各登録語の先頭からの文字列と,検索対象の先頭からの文字列とを比較する。例えば,検索対象「富○通プロ企画制作部」の先頭からの文字列を,登録語「富○通プロダクション」の先頭からの文字列と比較した場合に,「富○通プロ」が一致する。略称検索部15は,文字列の一致した部分(一致範囲)「富○通プロ」とその登録語「富○通プロダクション」との対応を結果リストに格納する。略称検索部15は,辞書記憶部11に記憶された法人名称の全ての登録語と検索対象との処理結果を結果リストに格納し,最も一致範囲が長い結果を「R1」とする。   Further, as shown in FIG. 8B, the abbreviation search unit 15 obtains a character string from the beginning of each registered word of the corporate name stored in the dictionary storage unit 11 and a character string from the beginning of the search target. Compare. For example, if the character string from the beginning of the search target “Tomi * tsu Pro Planning and Production Department” is compared with the character string from the beginning of the registered word “Tomi * tsu Production,” “Tomi * tsu Pro” matches. . The abbreviation search unit 15 stores in the result list the correspondence between the character string matching portion (matching range) “Fujitsutsu Pro” and the registered word “Fuji ○ tsu Production”. The abbreviation search unit 15 stores the processing result of all registered words of the corporate name stored in the dictionary storage unit 11 and the search target in the result list, and sets the result with the longest matching range as “R1”.

ステップS11: 略称検索部15は,検索対象のうち登録語を完全に包含する部分を検索し,その結果をR2とする。   Step S11: The abbreviation search unit 15 searches for a part that completely includes the registered word in the search target, and sets the result as R2.

略称検索部15は,辞書記憶部11に記憶された法人名称の各登録語の先頭からの文字列と,検索対象の先頭からの文字列とを比較する。例えば,検索対象「富○通プロ企画制作部」の先頭からの文字列を,登録語「富○通」の先頭からの文字列と比較した場合に,登録語「富○通」が完全に検索対象に包含される。略称検索部15は,完全包含された登録語「富○通」を結果リストに格納する。略称検索部15は,辞書記憶部11に記憶された法人名称の全ての登録語と検索対象とを比較し,その処理結果を結果リストに格納し,最も一致範囲が長い結果(最長の登録語)を「R2」とする。   The abbreviation search unit 15 compares the character string from the top of each registered word of the corporate name stored in the dictionary storage unit 11 with the character string from the top of the search target. For example, if the character string from the beginning of the search target “Fujitsu Tsutsu Pro Planning and Production Department” is compared with the character string from the beginning of the registered word “Fujitsutsu”, Included in the search target. The abbreviation search unit 15 stores the completely included registered word “wealth *” in the result list. The abbreviation search unit 15 compares all registered words of the corporate name stored in the dictionary storage unit 11 with the search target, stores the processing result in the result list, and obtains the result with the longest matching range (the longest registered word). ) Is “R2”.

ステップS12: 略称検索部15は,ステップS10およびステップS11の処理結果としてR1のみ得られたかを判定する。処理結果としてR1のみが得られた場合は(ステップS12のY),ステップS13の処理へ進み,R1のみが得られた場合ではなければ(ステップS12のN),ステップS14の処理へ進む。   Step S12: The abbreviation search unit 15 determines whether only R1 has been obtained as the processing result of Step S10 and Step S11. If only R1 is obtained as a processing result (Y in step S12), the process proceeds to step S13. If only R1 is not obtained (N in step S12), the process proceeds to step S14.

ステップS13: 略称検索部15は,検索対象内の部分一致した文字列を「略称」と判定し,R1の登録語を略称の「正式名称」とする。   Step S13: The abbreviation search unit 15 determines the partially matched character string in the search target as “abbreviation”, and sets the registered word of R1 as the abbreviated “official name”.

ステップS14: 略称検索部15は,ステップS10およびステップS11の処理結果として,R2のみ得られたかを判定する。R2のみ得られた場合は(ステップS14のY),ステップS15の処理へ進み,R2のみが得られた場合ではなければ(ステップS14のN),ステップS16の処理へ進む。   Step S14: The abbreviation search unit 15 determines whether only R2 has been obtained as the processing results of steps S10 and S11. If only R2 is obtained (Y in step S14), the process proceeds to step S15. If only R2 is obtained (N in step S14), the process proceeds to step S16.

ステップS15: 略称検索部15は,検索対象の文字列を「派生名称」と判定し,R2の登録語を「正式名称」とする。   Step S15: The abbreviation search unit 15 determines that the character string to be searched is “derived name”, and sets the registered word of R2 as “official name”.

ステップS16: 略称検索部15は,ステップS10およびステップS11の処理結果として,R1とR2の両方が得られたかを判定する。R1とR2の両方が得られた場合は(ステップS16のY),ステップS17の処理へ進み,R1とR2の両方が得られていない場合は(ステップS16のN),ステップS19の処理へ進む。   Step S16: The abbreviation search unit 15 determines whether both R1 and R2 are obtained as the processing results of Step S10 and Step S11. If both R1 and R2 are obtained (Y in step S16), the process proceeds to step S17. If both R1 and R2 are not obtained (N in step S16), the process proceeds to step S19. .

ステップS17: 略称検索部15は,R1の一致範囲(部分一致した範囲)とR2の一致範囲(完全包含された登録語)との文字列長を比較し,一致範囲がより長い結果を選択する,もしくは,一致範囲が同じ長さならば,一致した登録語の長さがより短い結果を選択する。   Step S17: The abbreviation search unit 15 compares the character string lengths of the matching range of R1 (partial matching range) and the matching range of R2 (completely included registered word), and selects a result with a longer matching range. Or, if the matching range is the same length, select a result that has a shorter registered word length.

ステップS18: 略称検索部15は,選択した結果がR1であれば,検索対象を「略称」と,R2であれば「派生名称」と判定して,選択した結果の登録語を,検索対象の正式名称とする。   Step S18: The abbreviation search unit 15 determines that the search target is “abbreviation” if the selected result is R1, and “derived name” if it is R2, and selects the registered word of the selected result as the search target. The official name.

ステップS19: 略称検索部15は,結果として「なし」を出力する。   Step S19: The abbreviation search unit 15 outputs “none” as a result.

図9〜図11は,部分一致検索処理における判定処理(ステップS17およびS18)の具体例を示す図である。   9 to 11 are diagrams illustrating specific examples of the determination process (steps S17 and S18) in the partial match search process.

図9に示すように,検索対象が「富○通プロ制作部」である場合に,部分一致検索の結果R1が,「略称=富○通プロ,正式名称=富○通プロダクション」であって,完全包含検索の結果R2が,「派生名称=富○通プロ制作部,正式名称=富○通」であるとする。   As shown in FIG. 9, when the search target is “Fujitsu Production Department”, the result R1 of the partial match search is “abbreviation = wealth ○ production professional, official name = wealth ○ production production”. , Suppose that the result R2 of the complete inclusion search is “derivative name = wealth ○ communication production department, formal name = wealth ○ traffic”.

この場合に,R1での検索対象と登録語との一致範囲の長さ=5(富○通プロ),R2での一致範囲の長さ=3(富○通)であるので,R1の結果が選択される。そして,R1の選択により,結果「略称=富○通プロ,正式名称=富○通プロダクション」がパース制御部10へ返される。   In this case, since the length of the matching range between the search target in R1 and the registered word = 5 (Fuji * tsu Pro) and the length of the matching range at R2 = 3 (Fuku * tsu), the result of R1 Is selected. Then, as a result of the selection of R1, the result “abbreviation = wealth ○ communication, formal name = wealth ○ communication production” is returned to the parse control unit 10.

その後,パース部16は,この結果をもとに,入力データ「富○通プロ制作部」をパースし,結果出力部17は,図5に示すパース結果(No.2)を出力する。   After that, the parsing unit 16 parses the input data “Fujitsu Production Production Department” based on this result, and the result output unit 17 outputs the parsing result (No. 2) shown in FIG.

別の例として,図10に示すように,検索対象が「富○通ミ○ルウェア」である場合に,部分一致検索の結果R1が,「略称=富○通,正式名称=富○通プロダクション」であって,完全包含検索の結果R2が,「派生名称=富○通ミ○ルウェア,正式名称=富○通」であるとする。   As another example, as shown in FIG. 10, when the search target is “wealth * communication”, the result R1 of the partial match search is “abbreviation = wealth * communication, formal name = wealth * communication production”. And the result R2 of the complete inclusion search is “derivative name = wealth * communication, official name = wealth * trait”.

この場合に,R1での検索対象と登録語との一致範囲の長さ=3(富○通)が同じであるので,一致した登録語の長さが比較される。言い換えると,一致した登録語の中での一致部分の割合が計算される。R1の場合に,登録語の文字列数=10であり,R2の場合に,登録語の文字列数=3であるので,R2の結果が選択される。そして,R2の選択により,結果「派生名称=富○通ミ○ルウェア,正式名称=富○通が,パース制御部10へ返される。図9の場合と同様に,図5に示すパース結果(No.3)が出力される。   In this case, since the length of the matching range between the search target in R1 and the registered word = 3 (wealth circle) is the same, the lengths of the matched registered words are compared. In other words, the proportion of matching parts among the matching registered words is calculated. In the case of R1, the number of registered character strings = 10, and in the case of R2, the number of registered character strings = 3, so the result of R2 is selected. As a result of the selection of R2, the result “Derived Name = Wide ○ Mulware, Formal Name = Wide ○ Way is returned to the parse control unit 10. As in FIG. 9, the parse result ( No. 3) is output.

さらに別の例として,図11に示すように,検索対象が「フ○ツウ第2ビル」である場合に,部分一致検索の結果R1が,「略称=フ○ツウ,正式名称=スタジオフ○ツウ」であって,完全包含検索の結果R2が,「なし」であるとする。   As another example, as shown in FIG. 11, when the search object is “Foo second building”, the result R1 of the partial match search is “abbreviation = Foo, official name = Studio F It is assumed that the result R2 of the complete inclusion search is “none”.

この場合に,R2の結果がないので,R1の結果が選択されて,結果「略称=フ○ツウ,正式名称=スタジオフ○ツウ」が,パース制御部10へ返され,図9の場合と同様に,図5に示すパース結果(No.5)が出力される。   In this case, since there is no result of R2, the result of R1 is selected, and the result “abbreviation = Foot, official name = StudioFoot” is returned to the parse control unit 10, as shown in FIG. Similarly, the parse result (No. 5) shown in FIG. 5 is output.

以上のようにして,入力データに,未登録の略称や派生名称が含まれていても,登録語を用いて,より適切なパース結果を出力することができる。   As described above, even if unregistered abbreviations and derived names are included in the input data, a more appropriate parsing result can be output using registered words.

例えば,図9に示す例では,従来手法であれば,「法人名称=富○通,部署名称=プロ制作部」とパースされ,「富○通プロ」を,正式名称(富○通プロダクション)の略称の法人名称として特定することができなかった。また,図10に示す例では,従来手法であれば,「法人名称=富○通,部署名称=ミ○ルウェア」とパースされ,「富○通ミ○ルウェア」を,親法人の正式名称(富○通)からの派生名称として特定することができなかった。   For example, in the example shown in FIG. 9, in the case of the conventional method, it is parsed as “corporate name = wealth ○ communication, department name = professional production department”, and “we wealth ○ communication professional” is the official name (we wealth ○ communication production). Could not be identified as the corporate name of the abbreviation. Further, in the example shown in FIG. 10, in the case of the conventional method, “corporate name = wealth * communication, department name = milware” is parsed, and “fortune * communication” is changed to the official name of the parent corporation ( It was not possible to specify the name as a derivative name from Tomi * tsu).

また,図11に示す例では,従来手法であれば,法人名称を検索することができず,検索結果=「なし」となり,「フ○ツウ」を正式名称(スタジオフ○ツウ)の略称の法人名称として特定することができなかった。データパース装置1では,入力データの「フ○ツウ」を略称の法人名称として識別することができることがわかる。   In the example shown in FIG. 11, if the conventional method is used, the corporate name cannot be searched, the search result = “none”, and “Footsu” is an abbreviation for the official name (Studio Footsu). It could not be specified as a corporate name. It can be seen that the data parsing apparatus 1 can identify the input data “Foot” as an abbreviated corporate name.

次に,図7に示す処理フローの各処理ステップを,より詳細に説明する。   Next, each processing step in the processing flow shown in FIG. 7 will be described in more detail.

図12は,部分一致の検索処理(ステップS10)の詳細フローを示す図である。   FIG. 12 is a diagram showing a detailed flow of the partial match search process (step S10).

略称検索部15は,パース制御部10から得た検索対象と辞書記憶部11の法人名称の登録語とを比較して,検索対象の後方から登録語と部分的に一致する範囲の検索(後方部分一致検索)を行う(ステップS101)。   The abbreviation search unit 15 compares the search target obtained from the parse control unit 10 with the registered word of the corporate name in the dictionary storage unit 11 and searches for a range that partially matches the registered word from the back of the search target (backward Partial match search) is performed (step S101).

略称検索部15は,検索対象で後方部分一致する登録語が得られなかった場合に(ステップS102のN),ステップS103の処理へ進み,検索対象と後方部分一致する登録語が得られた場合に(ステップS102のY),ステップS105の処理へ進む。   The abbreviation search unit 15 proceeds to the process of step S103 when the registered word that matches the search target is not obtained (N in step S102) and obtains the registered word that partially matches the search target. (Y in step S102), the process proceeds to step S105.

略称検索部15は,検索対象の前方から登録語と部分的に一致する範囲の検索(前方部分一致検索)を行う(ステップS103)。略称検索部15は,検索対象と前方部分一致する登録語が得られた場合に(ステップS104のY),ステップS105の処理へ進み,前方部分一致する登録語が得られなかった場合に(ステップS104のN),結果を「なし」とする(ステップS106)。   The abbreviation search unit 15 searches for a range that partially matches the registered word from the front of the search target (forward partial match search) (step S103). The abbreviation search unit 15 proceeds to the process of step S105 when a registered word that partially matches the search target (Y in step S104) and proceeds to the process of step S105 and does not obtain a registered word that matches the front part (step S104). N in S104), the result is “none” (step S106).

略称検索部15は,得られた結果から,「一致範囲が最長」または「一致範囲が同じならば登録語の長さが最短」である登録語を特定して,結果R1とする(ステップS105)。   The abbreviation search unit 15 identifies a registered word having “the longest matching range” or “the shortest registered word length if the matching range is the same” from the obtained result, and sets it as a result R1 (step S105). ).

図13は,後方部分一致の検索処理(ステップS101)の詳細処理フローを示す図,図14は,後方部分一致の検索処理を説明するための図である。   FIG. 13 is a diagram showing a detailed processing flow of the backward partial match search process (step S101), and FIG. 14 is a diagram for explaining the backward partial match search process.

略称検索部15は,辞書記憶部11の法人名称の辞書中の参照位置Dspを先頭の登録語に設定して(ステップS1101),参照位置Dspの登録語Tを取り出す(ステップS1102)。略称検索部15は,登録語T(文字列)の長さが検索対象Kの長さより短い場合には(ステップS1103のY),図14の上部に示すように,登録語Tの文字列の2番目の文字に先頭位置Tspを設定する(ステップS1104)。さらに,略称検索部15は,登録語の先頭位置Tspから末尾までの文字列Tstrを取り出し(ステップS1105),図14の下部に示すように,検索対象Kの先頭から,文字列Tstrと同一長の部分文字列Kstrを取り出す(ステップS1106)。   The abbreviation search unit 15 sets the reference position Dsp in the dictionary of corporate names in the dictionary storage unit 11 as the first registered word (step S1101), and extracts the registered word T at the reference position Dsp (step S1102). When the length of the registered word T (character string) is shorter than the length of the search target K (Y in step S1103), the abbreviation search unit 15 determines the character string of the registered word T as shown in the upper part of FIG. A leading position Tsp is set for the second character (step S1104). Further, the abbreviation search unit 15 extracts the character string Tstr from the beginning position Tsp to the end of the registered word (step S1105), and has the same length as the character string Tstr from the beginning of the search target K as shown in the lower part of FIG. Is extracted (step S1106).

略称検索部15は,部分文字列Tstrと部分文字列Kstrとが同じであれば(ステップS1107のY),登録語Tを一致した登録語,Kstrを一致範囲として結果リストに加える(ステップS1108)。   If the partial character string Tstr and the partial character string Kstr are the same (Y in step S1107), the abbreviation search unit 15 adds the registered word that matches the registered word T and Kstr to the result list as the matching range (step S1108). .

略称検索部15は,部分文字列Tstrと部分文字列Kstrとが同じでなければ(ステップS1107のN),先頭位置Tspを設定した文字が登録語Tの末尾であるかを調べる(ステップS1109)。先頭位置Tspを設定した文字が登録語Tの末尾であれば(ステップS1109のY),ステップS1111の処理へ進み,先頭位置Tspを設定した文字が登録語Tの末尾でなければ(ステップS1109のN),略称検索部15は,先頭位置Tspを1文字分後ろにずらし(ステップS1110),ステップS1105の処理へ戻る。   If the partial character string Tstr and the partial character string Kstr are not the same (N in step S1107), the abbreviation search unit 15 checks whether the character for which the start position Tsp is set is the end of the registered word T (step S1109). . If the character for which the start position Tsp is set is the end of the registered word T (Y in step S1109), the process proceeds to step S1111. The character for which the start position Tsp is set is not the end of the registered word T (step S1109). N), the abbreviation search unit 15 shifts the head position Tsp backward by one character (step S1110), and returns to the process of step S1105.

略称検索部15は,参照位置Dspが法人名称辞書の最後の項目であるか調べて(ステップS1111),最後の項目でなければ(ステップS1111のN),参照位置Dspを辞書の次の項目に移動し(ステップS1112),最後の項目であれば(ステップS1111のY),結果リストを最終結果とする(ステップS1113)。   The abbreviation search unit 15 checks whether the reference position Dsp is the last item in the corporate name dictionary (step S1111), and if it is not the last item (N in step S1111), sets the reference position Dsp as the next item in the dictionary. If it is the last item (Y in step S1111), the result list is set as the final result (step S1113).

図15は,ステップS103の前方部分一致の検索の詳細処理フローを示す図である。   FIG. 15 is a diagram illustrating a detailed processing flow of the forward partial match search in step S103.

略称検索部15は,辞書記憶部11の法人名称辞書中の参照位置Dspを先頭の登録語に設定して(ステップS1301),参照位置Dspの登録語Tを取り出す(ステップS1302)。略称検索部15は,登録語Tの長さが検索対象Kの長さより短い場合には(ステップS1303のY),登録語Tの文字列の1番目の文字に照合位置Trpを設定し(ステップS1304),検索対象Kの文字列の1番目の文字に照合位置Krpを設定する(ステップS1305)。そして,略称検索部15は,照合位置Trpの文字と照合位置Krpの文字が同じであれば(ステップS1306のY),照合位置Trpの文字は,登録語Tの末尾の1文字手前の文字であるかを調べる(ステップS1307)。   The abbreviation search unit 15 sets the reference position Dsp in the corporate name dictionary of the dictionary storage unit 11 as the first registered word (step S1301), and extracts the registered word T at the reference position Dsp (step S1302). If the length of the registered word T is shorter than the length of the search target K (Y in step S1303), the abbreviation search unit 15 sets the collation position Trp as the first character in the character string of the registered word T (step S1303). S1304), the collation position Krp is set to the first character of the character string of the search target K (step S1305). If the character at the collation position Trp is the same as the character at the collation position Krp (Y in step S1306), the abbreviation search unit 15 uses the character one character before the end of the registered word T as the character at the collation position Trp. It is checked whether it exists (step S1307).

また,略称検索部15は,照合位置Trpの文字と照合位置Krpの文字が同じでなければ(ステップS1306のN),照合位置Trpの文字が登録語Tの先頭であるかを調べる(ステップS1308)。照合位置Trpの文字が登録語Tの先頭でなければ(ステップS1308のN),ステップS1309の処理へ進み,照合位置Trpの文字が登録語Tの先頭であれば(ステップS1308のY),ステップS1310の処理へ進む。   If the character at the collation position Trp and the character at the collation position Krp are not the same (N in step S1306), the abbreviation search unit 15 checks whether the character at the collation position Trp is the head of the registered word T (step S1308). ). If the character at the collation position Trp is not the head of the registered word T (N in step S1308), the process proceeds to step S1309. If the character at the collation position Trp is the head of the registered word T (Y in step S1308), step The process proceeds to S1310.

略称検索部15は,照合位置Trpの文字が登録語Tの末尾の1文字手前の文字であれば(ステップS1307のY),登録語Tを一致した登録語,検索対象の先頭から照合位置Krpまでの範囲を一致範囲として結果リストに加える(ステップS1309)。照合位置Trpの文字が登録語Tの末尾の1文字手前の文字でなければ(ステップS1307のN),略称検索部15は,照合位置Trpを1文字分後ろにずらし(ステップS1310),さらに,照合位置Krpを1文字分後ろにずらし(ステップS1311),ステップS1306の処理へ戻る。   If the character at the collation position Trp is one character before the end of the registered word T (Y in step S1307), the abbreviation search unit 15 searches the registered word that matches the registered word T, the collation position Krp from the beginning of the search target. The range up to is added as a matching range to the result list (step S1309). If the character at the collation position Trp is not the character one character before the end of the registered word T (N in step S1307), the abbreviation search unit 15 shifts the collation position Trp backward by one character (step S1310), and The collation position Krp is shifted backward by one character (step S1311), and the process returns to step S1306.

略称検索部15は,参照位置Dspが法人名称辞書の最後の項目であるか調べて(ステップS1312),最後の項目でなければ(ステップS1312のN),参照位置Dspを辞書の次の項目に移動し(ステップS1313),最後の項目であれば(ステップS1312のY),結果リストを最終結果とする(ステップS1314)。   The abbreviation search unit 15 checks whether the reference position Dsp is the last item in the corporate name dictionary (step S1312), and if it is not the last item (N in step S1312), sets the reference position Dsp as the next item in the dictionary. If it is moved (step S1313) and it is the last item (Y in step S1312), the result list is set as the final result (step S1314).

図16および図17は,完全包含の検索処理(ステップS11)の詳細フローを示す図である。   16 and 17 are diagrams illustrating a detailed flow of the complete inclusion search process (step S11).

略称検索部15は,略称検索部15は,辞書記憶部11の法人名称辞書中の参照位置Dspを先頭の登録語Tに設定して(ステップS1501),参照位置Dspの登録語Tを取り出す(ステップS1502)。略称検索部15は,登録語Tの長さが検索対象Kの長さより短い場合には(ステップS1503のY),登録語Tの文字列の1番目の文字に照合位置Trpを設定し(ステップS1504),検索対象Kの文字列の1番目の文字に照合位置Krpを設定する(ステップS1505)。   The abbreviation search unit 15 sets the reference position Dsp in the corporate name dictionary of the dictionary storage unit 11 as the first registered word T (step S1501), and takes out the registered word T at the reference position Dsp ( Step S1502). If the length of the registered word T is shorter than the length of the search target K (Y in step S1503), the abbreviation search unit 15 sets the collation position Trp as the first character in the character string of the registered word T (step S1503). S1504), the collation position Krp is set to the first character of the character string of the search target K (step S1505).

さらに,略称検索部15は,照合位置Trpの文字と照合位置Krpの文字が同じであるかを調べる(ステップS1506)。照合位置Trpの文字と照合位置Krpの文字が同じであれば(ステップS1506のY),ステップS1507の処理へ進み,照合位置Trpの文字と照合位置Krpの文字が同じでなければ(ステップS1506のN),ステップS1509の処理へ進む。   Furthermore, the abbreviation search unit 15 checks whether the character at the collation position Trp is the same as the character at the collation position Krp (step S1506). If the character at the collation position Trp and the character at the collation position Krp are the same (Y in step S1506), the process proceeds to step S1507, and if the character at the collation position Trp and the character at the collation position Krp are not the same (in step S1506). N), the process proceeds to step S1509.

略称検索部15は,照合位置Trpの文字は,登録語Tの末尾であるかを調べる(ステップS1507)。照合位置Trpの文字が登録語Tの末尾でなければ(ステップS1507のN),略称検索部15は,照合位置Trpを1文字後ろにずらし(ステップS1508),さらに,照合位置Krpの文字は,検索対象Kの末尾であるかを調べる(ステップS1509)。   The abbreviation search unit 15 checks whether the character at the collation position Trp is the end of the registered word T (step S1507). If the character at the collation position Trp is not the end of the registered word T (N in step S1507), the abbreviation search unit 15 shifts the collation position Trp backward by one character (step S1508), and the character at the collation position Krp is: It is checked whether it is the end of the search target K (step S1509).

照合位置Krpの文字が検索対象Kの末尾でなければ(ステップS1509のN),略称検索部15は,照合位置Krpを1文字後ろにずらし(ステップS1510),ステップS1506の処理へ戻り,照合位置Krpの文字が検索対象Kの末尾であれば(ステップS1509のY),ステップS1513の処理へ進む。   If the character at the collation position Krp is not the end of the search target K (N in step S1509), the abbreviation search unit 15 shifts the collation position Krp backward by one character (step S1510), returns to the processing in step S1506, and collates the position. If the character Krp is the end of the search target K (Y in step S1509), the process proceeds to step S1513.

また,照合位置Trpの文字が登録語Tの末尾であれば(ステップS1507のY),略称検索部15は,登録語Tを一致した登録語,検索対象Kの先頭から照合位置Krpまでの範囲を一致範囲として結果リストに加える(ステップS1511)。   If the character at the collation position Trp is the end of the registered word T (Y in step S1507), the abbreviation search unit 15 searches the registered word that matches the registered word T, the range from the head of the search target K to the collation position Krp. Is added to the result list as a matching range (step S1511).

略称検索部15は,参照位置Dspが辞書の最後の項目であるかを調べる(ステップS1512)。略称検索部15は,参照位置Dspが辞書の最後の項目でなければ(ステップS1512のN),ステップS1513の処理へ進み,最後の項目であれば(ステップS1512のY),ステップS1514の処理へ進む。略称検索部15は,参照位置Dspを辞書の次の項目に移動し(ステップS1513),または,結果リストから一致範囲が最長のものを選びを最終結果とする(ステップS1514)。   The abbreviation search unit 15 checks whether the reference position Dsp is the last item in the dictionary (step S1512). If the reference position Dsp is not the last item in the dictionary (N in step S1512), the abbreviation search unit 15 proceeds to the process in step S1513. If the reference position Dsp is the last item (Y in step S1512), the process proceeds to step S1514. move on. The abbreviation search unit 15 moves the reference position Dsp to the next item in the dictionary (step S1513) or selects the longest matching range from the result list as the final result (step S1514).

以上のように,データパース装置1の略称検索部15は,入力された法人データについて,検索対象から法人名称の略称と派生名称とを適切に切り分け,さらに対応する正式名称を特定することができる。   As described above, the abbreviation search unit 15 of the data parsing apparatus 1 can appropriately separate the abbreviation of the corporate name and the derived name from the search target for the input corporate data, and further specify the corresponding formal name. .

図18および図19は,データパース装置1に入力された法人データのパース処理例を示す図である。   FIG. 18 and FIG. 19 are diagrams illustrating an example of parsing processing of corporate data input to the data parsing apparatus 1.

図18に示す例では,入力データが「株式会社富○通プロ制作部」であるとする。辞書引き部14により,入力データのうち,法人格名称(株式会社),法人名称(富○通)に対する登録語を辞書記憶部11から見つけたが,部署名称(制作部)が見つからず,入力データの一部「プロ制作部」が不明な部分になった場合を示している。   In the example shown in FIG. 18, it is assumed that the input data is “Tomi Co., Ltd. ○ Dr. Pro Production Department”. Of the input data, the dictionary lookup unit 14 finds a registered word for the corporate case name (corporation) and the corporate name (Fujitsu) from the dictionary storage unit 11, but the department name (production unit) is not found, and the input data It shows the case where part of “Professional Production Department” becomes an unknown part.

略称検索部15により,上記に説明した処理により,入力データから取り出した検索対象「富○通プロ制作部」について,「富○通プロ」が法人名称の略称,正式名称=「富○通」であることを検索できるため,パース部16により,「制作部」が部署名称であると識別される。その結果,結果出力部17は,図18に示すパース結果を出力することができる。   With the abbreviation search unit 15, for the search target “Fuji ○ Tsu Production Pro”, which is extracted from the input data by the above-described processing, “Fuku ○ Production” is the abbreviation of the corporate name, and the official name = “Fuji ○” Therefore, the parsing unit 16 identifies the “production unit” as the department name. As a result, the result output unit 17 can output the parse result shown in FIG.

図19に示す例では,入力データが「株式会社富○通ミ○ルプロ制作部」であるとする。辞書引き部14により,入力データのうち,法人格名称(株式会社),法人名称(富○通),部署名称(制作部)に対する登録語を辞書記憶部11から見つけたが,それらに属さない部分「ミ○ルプロ」が入力データ中に存在し,それが不明な部分となった場合を示している。   In the example shown in FIG. 19, it is assumed that the input data is “Tomi Co., Ltd. ○ Mi Miru Pro Production Department”. The dictionary lookup unit 14 finds registered words for the corporate personality name (corporation), corporate name (wealth), department name (production department) from the dictionary storage unit 11 but does not belong to them. This shows the case where “Milpro” exists in the input data and it is an unknown part.

略称検索部15により,上記に説明した処理により,入力データから取り出した検索対象「富○通ミ○ルプロ制作部」について,「富○通ミ○ル」が法人名称の略称,正式名称=「富○通ミ○ルウェア」であることを検索できるため,パース部16により,「プロ制作部」が部署名称であると識別される。その結果,結果出力部17は,図19に示すパース結果を出力することができる。   With the abbreviation search unit 15, for the search target “Tomi * tsumi * pro production department” extracted from the input data by the above-described processing, “Tomi * tsumi * ru” is the abbreviation of the corporate name, the official name = “ Since it is possible to search for “wealth * communicationware”, the parsing unit 16 identifies “professional production department” as the department name. As a result, the result output unit 17 can output the parse result shown in FIG.

なお,図19では,入力データのうち,法人格名称以外の部分を検索対象としているが,辞書記憶部11に記憶されている部署名称(登録語)の検索結果の一部を利用してもよい。例えば,「制作部」を部署名称とする検索結果を利用して,検索範囲を「富○通ミ○ルプロ」として以降の手順を行ってもよい。この場合に,略称検索部15の処理結果は,「(法人格名称=株式会社),法人名称=富○通ミ○ル(略称),正式名称=富○通ミ○ルウェア,部署名称=プロ制作部」となる。パース部16により,「部署名称が複数連続して並んだ場合は,それらをまとめて1つの部署名称とする」という組合せ規則を適用して,「部署名称=プロ制作部」とすることができる。   In FIG. 19, a part other than the legal personality name in the input data is a search target. However, a part of the search result of the department name (registered word) stored in the dictionary storage unit 11 may be used. . For example, the following procedure may be performed by using a search result having the department name as “Production Department” and setting the search range to “Tomi * tsumi * rupro”. In this case, the processing result of the abbreviation search unit 15 is “(Corporate name = corporation), Corporate name = Tomi * tsumi * ru (abbreviation), Official name = Tomi * tsumi * ware, Department name = Professional production. Part ". The parsing unit 16 can apply a combination rule of “when a plurality of department names are lined up consecutively to be combined into one department name” to make “department name = professional production department”. .

また,図18および図19に示した入力データを,従来技術により処理した場合は,開示するデータパース装置1の処理とは異なる結果が得られるものと思われる。   Further, when the input data shown in FIG. 18 and FIG. 19 is processed by the conventional technique, it is considered that a result different from the processing of the disclosed data parsing apparatus 1 is obtained.

図18の入力データ例において,従来手法によれば,法人格名称「株式会社」,法人名称「富○通」については判別できるが,「プロ制作部」や「制作部」が辞書の登録語にないため,入力データ中の「プロ制作部」は不明な部分となる。さらに,不明な部分である「プロ制作部」を略称とみなしても,辞書に「プロ制作部」の各文字を全て含む登録語がないので,これ以上の解析ができず,法人名称は「富○通」のままで,入力データは「株式会社/富○通/プロ制作部」とパースされる。   In the input data example of FIG. 18, according to the conventional method, it is possible to discriminate the corporate name “corporation” and the corporate name “Tofu ○”, but “professional production department” and “production department” are registered words in the dictionary. Because there is no, “Professional Production Department” in the input data is an unknown part. Furthermore, even if the “Professional Production Department”, which is an unknown part, is considered an abbreviation, there is no registered word that contains all the characters of the “Professional Production Department” in the dictionary. The input data is parsed as “corporate / wealth ○ com / pro production department”.

図19の入力データ例において,従来手法によれば,「株式会社」「富○通」「制作部」が判別できるが,「ミ○ルプロ」は不明な部分となる。さらに,不明な部分について,「ミ○ルプロ」の各文字を全て含む登録語が辞書にないため,「ミ○ル」と「プロ」とに分割することができない。そのため,「ミ○ルプロ」は不明な部分として残り,その後の組合せ規則によって「富○通/ミ○ルプロ」または「ミ○ルプロ/制作部」と分割されるものと思われる。   In the example of input data in FIG. 19, according to the conventional method, “corporation”, “wealth ○ dori”, and “production department” can be discriminated, but “Milpro” is an unknown part. Furthermore, since there is no registered word in the dictionary that contains all the characters “Milpro” for the unknown part, it cannot be divided into “Mil” and “Pro”. For this reason, “Milpro” remains as an unknown part, and it is considered that it will be divided into “Mitsubishi / Mulpro” or “Milpro / Production Department” according to the subsequent combination rules.

このように,従来手法に比較して,図18,図19に示すデータパース装置1の処理結果が,より適切なパース結果となることがわかる。   Thus, it can be seen that the processing result of the data parsing apparatus 1 shown in FIGS. 18 and 19 is a more appropriate parsing result as compared with the conventional method.

以上のとおり,データパース装置1が法人名称の略称や派生名称を識別できることを説明したが,データパース装置1は,法人名称の以外の名称,例えば部署名称の検索処理において,部署名称の略称や派生名称を識別することができる。   As described above, it has been explained that the data parsing device 1 can identify the abbreviations and derived names of the corporate names. However, the data parsing device 1 can search for a name other than the corporate name, for example, a department name abbreviation or Derived names can be identified.

さらに,データパース装置1は,辞書記憶部11に記憶された登録語をそのまま使用して検索するだけではなく,登録語に含まれる区切り記号(例えば,中黒(・),空白等)や文字種の境界を用いて登録語を分解し,分解した要素それぞれを新たな登録語として検索に使用することもできる。   Further, the data parsing device 1 not only searches using the registered words stored in the dictionary storage unit 11 as they are, but also includes delimiters (for example, middle black (•), blanks, etc.) and character types included in the registered words. It is also possible to decompose the registered word using the boundary of and to use each decomposed element as a new registered word for the search.

図20は,部署名称辞書の登録語を分解して用いる略称検索処理を説明するための図である。   FIG. 20 is a diagram for explaining an abbreviation search process that uses a registered word in the department name dictionary after being decomposed.

辞書記憶部11に,部署名称辞書が記憶されて,部署名称辞書に「デー○○ネジメント・ミ○ルウェア事業部」という部署名称が登録されているとする。また,入力データから抽出された検索対象「データミ○ル事行程会議」があると仮定する。   It is assumed that a department name dictionary is stored in the dictionary storage unit 11 and a department name “Date Management and Firmware Division” is registered in the department name dictionary. Further, it is assumed that there is a search target “data mill process meeting” extracted from input data.

略称検索部15は,登録語に出現する中黒(・)と文字種の境界を認識して,登録語を「デー○○ネジメント」,「ミ○ルウェア」,「事業部」の3つの登録語に分割し,分割登録語とする。すなわち,図20に示す部署名称辞書の場合に,「ミ○ルウェア,事業本部,デー○○ネジメント,ミ○ルウェア,事業部,アプ○○○ション,事業計画統括部,開発企画統括部,ソフトウェア,管理部」の分割登録語があるものとして扱われる。   The abbreviation search unit 15 recognizes the boundary between the character “Nakuguro” (·) appearing in the registered word and the character type, and the registered words are “registered data”, “Mileware”, and “business department”. Into divided registration words. That is, in the case of the department name dictionary shown in FIG. , Management department "is treated as having a divided registered word.

略称検索部15は,法人名称の略称検索処理と同様に,検索対象「データミ○ル事行程会議」について,「データ」の分割登録語「デー○○ネジメント」を,「ミ○ル」に対して分割登録語「ミ○ルウェア」を,「事」に対して分割登録語「事業部」を,それぞれ最も一致する登録語として検索し,「データ」,「ミ○ル」,「事」を検索した登録語の略称と判定する。そして,パース部16は,検索対象を,「データ」「ミ○ル」「事」「行程会議」と分割することが可能となり,結果出力部17は,検索対象「データミ○ル事行程会議」について,例えば,第1の部署名称「デー○○ネジメント・ミ○ルウェア事業部」,第2の部署名称「行程会議」というパース結果を出力することができる。   Similar to the corporate name abbreviation search process, the abbreviation search unit 15 assigns the divided registration word “data XX management” of “data” to the search target “data mile event process meeting”. Search the divided registration word "Milware", search the divided registration word "Division" for "thing" as the most similar registered word, and search for "data", "mix", and "thing". It is determined as an abbreviation of the searched registered word. The parsing unit 16 can divide the search target into “data”, “mix”, “thing”, and “schedule meeting”, and the result output unit 17 can search the search target “data mix process meeting”. For example, it is possible to output a perspective result of a first department name “Day XX Management and Wareware Division” and a second department name “Process Meeting”.

従来手法では,部署名称辞書に完全一致する部署名称が登録されていないため,検索対象「データミ○ル事行程会議」は,分割されずにそのまま出力される。しかし,データパース装置1は,「データミ○ル事行程会議」を含む法人データについて,より適切と思われるパース結果を出力できることがわかる。   In the conventional method, since the department name that exactly matches the department name dictionary is not registered, the search target “data mill event meeting” is output without being divided. However, it can be seen that the data parsing apparatus 1 can output a parsing result that seems to be more appropriate for corporate data including the “data mill process meeting”.

図21は,データパース装置1を実施するためのハードウェア構成例を示す図である。   FIG. 21 is a diagram illustrating a hardware configuration example for implementing the data parsing device 1.

データパース装置1は,演算装置(CPU)101,一時記憶装置(DRAM,フラッシュメモリ等)102,永続性記憶装置(HDD,フラッシュメモリ等)103を有するコンピュータ100と,入力装置(キーボード,マウス等)120と出力装置(ディスプレイ,プリンタ等)130とによって実施することができる。   The data parsing device 1 includes a computer 100 having an arithmetic unit (CPU) 101, a temporary storage device (DRAM, flash memory, etc.) 102, a permanent storage device (HDD, flash memory, etc.) 103, and an input device (keyboard, mouse, etc.). ) 120 and an output device (display, printer, etc.) 130.

また,データパース装置1は,コンピュータ100が実行可能なプログラムによって実施することができる。この場合に,データパース装置1が有すべき機能の処理内容を記述したプログラムが提供され,提供されたプログラムをコンピュータ100が実行することによって,上記説明したデータパース装置1の処理部がコンピュータ100上で実現される。   The data parsing device 1 can be implemented by a program that can be executed by the computer 100. In this case, a program describing the processing contents of the functions that the data parsing apparatus 1 should have is provided, and the computer 100 executes the provided program, whereby the processing unit of the data parsing apparatus 1 described above is executed by the computer 100. Realized above.

すなわち,データパース装置1が備える各処理部として機能するためのプログラムが一時記憶装置102にロードされて演算装置(CPU)101で実行されることにより,各処理部が実現される。また,データパース装置1が用いる各種情報は,永続性記憶装置103に格納される。   That is, each processing unit is realized by a program for functioning as each processing unit included in the data parsing device 1 being loaded into the temporary storage device 102 and executed by the arithmetic unit (CPU) 101. Various information used by the data parsing device 1 is stored in the persistent storage device 103.

なお,コンピュータ100は,可搬型記録媒体から,上記のプログラムを直接読み取り,そのプログラムに従った処理を実行したり,他のコンピュータからプログラムが転送されるごとに,逐次,転送されたプログラムを受け取って実行したりすることもできる。   The computer 100 directly reads the above program from a portable recording medium and executes the processing according to the program or receives the transferred program sequentially each time the program is transferred from another computer. Can also be executed.

さらに,上記プログラムは,コンピュータ100で読み取り可能な記録媒体に記録しておくことができる。   Further, the program can be recorded on a recording medium readable by the computer 100.

以上のように,開示したデータパース装置1の略称検索部15によれば,法人データ内に,会社名や部署名などの名称が略称や派生名称の形で含まれている場合でも,正式名称のみを登録した辞書を用いて,略称,派生名称とみなす部分を識別することができ,さらに,識別した略称,派生名称に対応する正式名称を検索することができる。   As described above, according to the abbreviation search unit 15 of the disclosed data parsing device 1, even if the company data includes a name such as a company name or a department name in the form of an abbreviation or a derived name, the official name A part that is regarded as an abbreviated name and a derived name can be identified using a dictionary in which only the registered abbreviations are registered, and a formal name corresponding to the identified abbreviated name and derived name can be searched.

さらに,開示したデータパース装置1によれば,略称検索部15の処理結果を用いて,略称,派生名称とみなす部分と識別された文字列を1要素として扱って入力された法人データを分割することができ,さらに,識別した略称,派生名称に対応する正式名称を対応付けたパース結果を出力することができる。   Further, according to the disclosed data parsing device 1, the processing result of the abbreviation search unit 15 is used to divide the corporation data inputted by treating the character string identified as the abbreviation and the part regarded as the derived name as one element. In addition, a parsing result in which the identified abbreviation and the formal name corresponding to the derived name are associated can be output.

よって,略称や派生名称を含むような文字列である法人データのパース処理において,対応または関連する正式名称を特定することができ,以降の名寄せ処理やデータクレンジング処理での処理の精度を向上させ,チェック作業の負担軽減に寄与することができる。   Therefore, in the parsing processing of corporate data that is a character string including abbreviations and derived names, the corresponding or related official names can be specified, and the accuracy of subsequent name identification processing and data cleansing processing can be improved. , It can contribute to reducing the burden of checking work.

以上の説明では,主として本発明を,その背景となった技術分野である法人名称の略称や派生名称を含むデータを法人データと称して,法人データのパース処理に適用した場合について説明した。上記の説明において,法人データは,正式名称の略称または派生名称を示す表現を含むテキストデータを意味するものであり,本発明は,上記の説明に限定されるものではなく,その記述の主旨の範囲において種々の変形が可能であることは当然である。   In the above description, the case where the present invention is applied to the parsing process of corporate data by referring to the data including the abbreviation and the derived name of the corporate name, which is the technical field as the background, as corporate data. In the above description, corporate data means text data including an expression indicating an abbreviated name or a derived name of the official name, and the present invention is not limited to the above description, Naturally, various modifications are possible in the range.

本発明の実施態様における特徴を列記すると以下のとおりである。   The features in the embodiments of the present invention are listed as follows.

(付記1)
正式名称を登録語とする名称辞書を記憶する辞書記憶部と,
検索対象となる文字列の入力を受け付けるデータ入力部と,
前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象と部分的に一致する登録語を検索し,前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする検索処理部とを備える
ことを特徴とする略称検索装置。
(Appendix 1)
A dictionary storage unit for storing a name dictionary whose official name is a registered word;
A data input part that accepts input of a character string to be searched;
When the search target character string includes a portion that does not match a registered word in the name dictionary, a search is performed for a registered word that partially matches the search target from the name dictionary, and among the searched registered words, A registered word that has a maximum range that partially matches the search target and that has a maximum percentage of the range that matches the registered word is determined, and the search target portion is determined as an abbreviation, and the specified And a search processing unit that uses the registered word as a formal name of the abbreviation.

(付記2)
前記検索処理部は,前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象に完全に包含され,かつ,長さが最大である登録語を特定し,前記検索対象の部分を派生名称と判定し,該特定した登録語を前記派生名称に関連する正式名称とする
ことを特徴とする前記付記1に記載の略称検索装置。
(Appendix 2)
When the search target character string includes a portion that does not match a registered word in the name dictionary, the search processing unit is completely included in the search target from the name dictionary and has the maximum length. 2. The abbreviation search device according to appendix 1, wherein a registered word is specified, the portion to be searched is determined as a derived name, and the specified registered word is an official name related to the derived name.

(付記3)
前記検索処理部は,前記辞書記憶部に記憶された正式名称が,法人の正式名称である
ことを特徴とする前記付記1または前記付記2に記載の略称検索装置。
(Appendix 3)
The abbreviation search device according to Supplementary Note 1 or Supplementary Note 2, wherein the official name stored in the dictionary storage unit is a legal name of a corporation.

(付記4)
前記検索処理部は,前記辞書記憶部に,法人格名称を登録語とする法人格名称辞書が記憶されている場合に,前記入力された文字列から前記法人格名称辞書に登録された法人格名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記3に記載の略称検索装置。
(Appendix 4)
In the case where a corporate case name dictionary having a corporate case name as a registered word is stored in the dictionary storage unit, the search processing unit removes the corporate case name registered in the corporate case name dictionary from the input character string. The abbreviation search device according to Supplementary Note 3, wherein a character string is the search target.

(付記5)
前記検索処理部は,前記辞書記憶部に,部署名称を登録語とする部署名辞書が記憶されている場合に,前記入力された文字列から前記部署名辞書に登録された部署名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記3または前記付記4に記載の略称検索装置。
(Appendix 5)
The search processing unit, when a department name dictionary having a department name as a registered word is stored in the dictionary storage part, excludes the department name registered in the department name dictionary from the input character string. The abbreviation search device according to Supplementary Note 3 or Supplementary Note 4, wherein a character string is the search target.

(付記6)
辞書記憶部を備えるコンピュータが実行する処理方法であって,
検索対象となる文字列の入力を受け付ける処理ステップと,
正式名称を登録語とする名称辞書を記憶する前記辞書記憶部を参照して,前記検索対象の文字列が該名称辞書の登録語と一致しない部分を含む場合に,該名称辞書から前記検索対象と部分的に一致する登録語を検索する処理ステップと,
前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする処理ステップとを
備えることを特徴とする略称検索方法。
(Appendix 6)
A processing method executed by a computer having a dictionary storage unit,
A processing step for accepting input of a character string to be searched;
Referring to the dictionary storage unit that stores a name dictionary with a formal name as a registered word, when the character string to be searched includes a portion that does not match a registered word in the name dictionary, the name to be searched from the name dictionary Processing steps to search for registered words that partially match
Among the registered words that have been searched, a registered word that has the largest range that partially matches the search target and that has the largest percentage of the range that matches the registered word is identified, and the search target portion And a processing step of determining the registered word as the formal name of the abbreviation.

(付記7)
辞書記憶部を備えるコンピュータに,
検索対象となる文字列の入力を受け付ける処理と,
正式名称を登録語とする名称辞書を記憶する前記辞書記憶部を参照して,前記検索対象の文字列が該名称辞書の登録語と一致しない部分を含む場合に,該名称辞書から前記検索対象と部分的に一致する登録語を検索する処理と,
前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする処理とを
実行させるための略称検索プログラム。
(Appendix 7)
In a computer with a dictionary storage,
A process for accepting input of a character string to be searched;
Referring to the dictionary storage unit that stores a name dictionary with a formal name as a registered word, when the character string to be searched includes a portion that does not match a registered word in the name dictionary, the name to be searched from the name dictionary Searching for registered words that partially match
Among the registered words that have been searched, a registered word that has the largest range that partially matches the search target and that has the largest percentage of the range that matches the registered word is identified, and the search target portion An abbreviation search program for executing a process for determining a registered abbreviation as a formal name of the abbreviation.

(付記8)
正式名称を登録語とする名称辞書を記憶する辞書記憶部と,
検索対象となる文字列の入力を受け付けるデータ入力部と,
前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象と部分的に一致する登録語を検索し,前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする検索処理部と,
名称ごとの並びを示す組合せ規則にもとづいて,前記検索対象の文字列を,該組合せ規則に従った並びとなる各名称に分割するパース処理部とを備えて,
前記パース処理部は,前記略称と決定された部分を1名称として分割し,前記特定された正式名称を該略称に対応づける処理を行う
ことを特徴とする略称検索機能を備えるデータパース装置。
(Appendix 8)
A dictionary storage unit for storing a name dictionary whose official name is a registered word;
A data input part that accepts input of a character string to be searched;
When the search target character string includes a portion that does not match a registered word in the name dictionary, a search is performed for a registered word that partially matches the search target from the name dictionary, and among the searched registered words, A registered word that has a maximum range that partially matches the search target and that has a maximum percentage of the range that matches the registered word is determined, and the search target portion is determined as an abbreviation, and the specified A search processing unit that uses the registered word as the formal name of the abbreviation,
A parsing processing unit that divides the search target character string into respective names that are arranged according to the combination rule based on a combination rule indicating the arrangement for each name;
The data parsing device having an abbreviation search function, wherein the parsing processing unit divides a portion determined as the abbreviation as one name and associates the specified formal name with the abbreviation.

(付記9)
前記検索処理部は,前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象に完全に包含され,かつ,長さが最大である登録語を特定し,前記検索対象の部分を派生名称と判定し,該特定した登録語を前記派生名称に関連する正式名称とする処理を行い,
前記パース処理部は,前記派生名称と決定された部分を1名称として分割し,前記特定された正式名称を該派生名称に対応づける処理を行う
ことを特徴とする前記付記8に記載の略称検索機能を備えるデータパース装置。
(Appendix 9)
When the search target character string includes a portion that does not match a registered word in the name dictionary, the search processing unit is completely included in the search target from the name dictionary and has the maximum length. Identifying a registered word, determining that the part to be searched is a derived name, and performing the process of making the identified registered word an official name related to the derived name;
9. The abbreviation search according to claim 8, wherein the parse processing unit divides the part determined as the derived name as one name, and performs processing for associating the specified formal name with the derived name. Data parsing device with functions.

(付記10)
前記検索処理部は,前記辞書記憶部に記憶された正式名称が,法人の正式名称である
ことを特徴とする前記付記8または前記付記9に記載の略称検索機能を備えるデータパース装置。
(Appendix 10)
The data parsing device having the abbreviation search function according to the supplementary note 8 or the supplementary note 9, wherein the search processing unit has a formal name stored in the dictionary storage unit as a legal name of a corporation.

(付記11)
前記検索処理部は,前記辞書記憶部に法人格名称を登録語とする法人格名称辞書が記憶されている場合に,前記入力された文字列から前記法人格名称辞書に登録された法人格名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記10に記載の略称検索機能を備えるデータパース装置。
(Appendix 11)
The search processing unit, when a corporate case name dictionary having a corporate case name as a registered word is stored in the dictionary storage unit, characters obtained by removing the corporate case name registered in the corporate case name dictionary from the input character string The data parsing apparatus having the abbreviation search function according to Supplementary Note 10, wherein a column is the search target.

(付記12)
前記検索処理部は,前記辞書記憶部に,部署名称を登録語とする部署名辞書が記憶されている場合に,前記入力された文字列から前記部署名辞書に登録された部署名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記10または前記付記11に記載の略称検索機能を備えるデータパース装置。
(Appendix 12)
The search processing unit, when a department name dictionary having a department name as a registered word is stored in the dictionary storage part, excludes the department name registered in the department name dictionary from the input character string. The data parsing device having the abbreviation search function according to the supplementary note 10 or the supplementary note 11, wherein a character string is the search target.

1 データパース装置
10 パース制御部
11 辞書記憶部
12 組合せ規則記憶部
13 データ入力部
14 辞書引き部
15 略称検索部
16 パース部
17 結果出力部
DESCRIPTION OF SYMBOLS 1 Data parsing apparatus 10 Parsing control part 11 Dictionary memory | storage part 12 Combination rule memory | storage part 13 Data input part 14 Dictionary lookup part 15 Abbreviation search part 16 Parsing part 17 Result output part

Claims (9)

複数の登録された正式名称を記憶する記憶部と,
入力文字列を受け付けるデータ入力部と,
処理部と,を備え,
前記処理部は,
前記入力文字列が前記複数の登録された正式名称のいずれとも一致しない場合に,前記記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を前記複数の登録された正式名称から検索し,
検索の結果抽出された正式名称のうち,前記入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する前記部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,
前記部分的に一致する文字列を,前記特定した正式名称に対応する略称を示す文字列と判定する,
ことを特徴とする検索装置。
A storage unit for storing a plurality of registered official names ;
A data input part that accepts an input string;
A processing unit,
The processor is
When the input string does not match any of the plurality of registered official name, from said storage unit, formally a string containing a character string that matches the input character string and partly are the plurality of registered Search by name ,
In the search results extracted official name, a maximum length of the string that matches the input character string and partly, and the string to the partial match to the length of the official name Identify the official name with the largest percentage of length,
The partially matching character string is determined as a character string indicating an abbreviation corresponding to the specified official name .
A search device characterized by that.
前記記憶部に記憶される前記複数の登録された正式名称は,少なくとも,法人名称,法人格名称,部署名称のいずれかを含むことを特徴とする,請求項1記載の検索装置。 The search device according to claim 1, wherein the plurality of registered formal names stored in the storage unit include at least one of a corporate name, a corporate case name, and a department name. 前記処理部は,前記入力文字列が前記記憶部に記憶された正式名称と完全一致しない場合に,前記記憶部から,前記入力文字列に完全に包含され,かつ,文字列の長さが最大である正式名称文字列を特定し,前記入力文字列を,特定した前記正式名称に対応する派生名称と判定し,該特定した正式名称を前記派生名称に関連する正式名称とする
ことを特徴とする請求項1または請求項2記載の検索装置。
When the input character string does not completely match the official name stored in the storage unit, the processing unit is completely included in the input character string from the storage unit, and the length of the character string is maximum. identify the official name string is, the input string, and characterized in that determines a derived name corresponding to the specified the official name, and full name associated a formal name that the particular to the derivation name The search device according to claim 1 or 2.
前記処理部は,前記記憶部に記憶された正式名称が,法人の正式名称である
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の検索装置。
The search device according to any one of claims 1 to 3, wherein the processing unit has a formal name stored in the storage unit as a legal name of a corporation.
記憶部を備えるコンピュータが実行する処理方法であって,
入力文字列を受け付ける処理ステップと,
複数の登録された正式名称を記憶する前記記憶部を参照して,前記入力文字列が前記複数の登録された正式名称のいずれとも一致しない場合に,前記記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を前記複数の登録された正式名称から検索する処理ステップと,
検索の結果抽出された正式名称のうち,前記入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する前記部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,前記部分的に一致する文字列を,前記特定した正式名称に対応する略称を示す文字列と判定する処理ステップとを
備えることを特徴とする検索方法。
A processing method executed by a computer having a storage unit,
Processing steps for accepting input strings;
Referring to the storage unit that stores a plurality of registered formal names , if the input character string does not match any of the plurality of registered formal names , the input character string and a part are stored from the storage unit. A processing step of searching the plurality of registered formal names for a character string that includes a character string that matches automatically,
In the search results extracted official name, a maximum length of the string that matches the input character string and partly, and the string to the partial match to the length of the official name And a processing step of identifying a formal name having a maximum length ratio and determining the partially matching character string as a character string indicating an abbreviation corresponding to the identified formal name. retrieval method.
記憶部を備えるコンピュータに,
入力文字列を受け付ける処理と,
複数の登録された正式名称を記憶する前記記憶部を参照して,前記入力文字列が前記複数の登録された正式名称のいずれとも一致しない場合に,前記記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を前記複数の登録された正式名称から検索する処理と,
検索の結果抽出された正式名称のうち,前記入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する前記部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,前記部分的に一致する文字列を,前記特定した正式名称に対応する略称を示す文字列と判定する処理とを
実行させるための検索プログラム。
To a computer with a storage unit,
Processing to accept an input string;
Referring to the storage unit that stores a plurality of registered formal names , if the input character string does not match any of the plurality of registered formal names , the input character string and a part are stored from the storage unit. A process of searching for a character string including a character string that matches automatically from the plurality of registered official names ;
In the search results extracted official name, a maximum length of the string that matches the input character string and partly, and the string to the partial match to the length of the official name A search program for identifying a formal name having a maximum length ratio and determining the partially matched character string as a character string indicating an abbreviation corresponding to the identified formal name .
複数の名称を構成要素とする文字列を,文字列の構成として複数の名称の正しい並び順序を示す組合せ規則にもとづいて,構成要素である各名称に分割するパース処理を実行するパース処理部を備えるデータパース装置であって,
正式名称を登録語とする名称辞書を記憶する記憶部と,
入力文字列を受け付けるデータ入力部と,
前記入力文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書の登録語と前記入力文字列とを比較し,前記登録語と該登録語と部分的に一致する部分文字列とを対応付けて抽出し,抽出した登録語のうち,対応付けられた部分文字列の長さが最大かつ前記入力文字列に対する割合が最大となる登録語を1つ特定し,前記入力文字列の前記特定した登録語に対応付けられた部分文字列を略称と判定し,該特定した登録語を前記略称の正式名称とする検索処理部とを備えて,
前記パース処理部は,前記パース処理において前記入力文字列の前記略称と決定された部分を1名称として分割し,前記特定された正式名称を該略称に対応づける処理を行う
ことを特徴とする検索機能を備えるデータパース装置。
A parsing processing unit for executing a parsing process for dividing a character string having a plurality of names into constituent elements according to a combination rule indicating a correct arrangement order of the plurality of names as a character string structure. A data parsing device comprising:
A storage unit for storing a name dictionary whose official name is a registered word;
A data input part that accepts an input string;
When the input character string includes a portion that does not match a registered word in the name dictionary, the registered word in the name dictionary is compared with the input character string, and the registered word and a portion that partially matches the registered word A character string is extracted in association with one another, and from the extracted registered words, one registered word having the maximum length of the associated partial character string and the maximum ratio to the input character string is identified, and the input A partial character string associated with the specified registered word of the character string is determined as an abbreviation, and a search processing unit that uses the specified registered word as the formal name of the abbreviation,
The parsing processing unit divides a part of the input character string determined as the abbreviation in the parsing process as one name, and performs a process of associating the specified formal name with the abbreviation. Data parsing device with functions.
前記検索処理部は,前記入力文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該入力文字列に完全に包含され,かつ,長さが最大である登録語を特定し,前記入力文字列の部分を派生名称と判定し,該特定した登録語を前記派生名称に関連する正式名称とする処理を行い,
前記パース処理部は,前記派生名称と決定された部分を1名称として分割し,前記特定された正式名称を該派生名称に対応づける処理を行う
ことを特徴とする請求項7記載の検索機能を備えるデータパース装置。
The search processing unit, when the input character string includes a portion that does not match a registered word of the name dictionary, is registered from the name dictionary completely in the input character string and has the maximum length. Identifying a word, determining that the portion of the input character string is a derived name, and performing a process of making the identified registered word a formal name related to the derived name;
The search function according to claim 7, wherein the parsing processing unit divides the portion determined as the derived name as one name, and performs processing for associating the specified formal name with the derived name. A data parsing device.
前記検索処理部は,前記記憶部に記憶された正式名称が,法人の正式名称である
ことを特徴とする請求項7または請求項8記載の検索機能を備えるデータパース装置。
The data parsing apparatus having a search function according to claim 7 or 8, wherein the search processing unit has a formal name stored in the storage unit as a legal name of a corporation.
JP2010157401A 2010-07-12 2010-07-12 Retrieval device, method and program, and data parsing device having retrieval function Expired - Fee Related JP5581861B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010157401A JP5581861B2 (en) 2010-07-12 2010-07-12 Retrieval device, method and program, and data parsing device having retrieval function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010157401A JP5581861B2 (en) 2010-07-12 2010-07-12 Retrieval device, method and program, and data parsing device having retrieval function

Publications (3)

Publication Number Publication Date
JP2012022354A JP2012022354A (en) 2012-02-02
JP2012022354A5 JP2012022354A5 (en) 2013-06-13
JP5581861B2 true JP5581861B2 (en) 2014-09-03

Family

ID=45776626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010157401A Expired - Fee Related JP5581861B2 (en) 2010-07-12 2010-07-12 Retrieval device, method and program, and data parsing device having retrieval function

Country Status (1)

Country Link
JP (1) JP5581861B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200055897A (en) 2018-11-14 2020-05-22 삼성전자주식회사 Electronic device for recognizing abbreviated content name and control method thereof
CN112036172B (en) * 2020-09-09 2022-04-15 平安科技(深圳)有限公司 Entity identification method and device based on abbreviated data of model and computer equipment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3331692B2 (en) * 1993-09-03 2002-10-07 富士通株式会社 Heterogeneous dictionary creation support system
JPH10162008A (en) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieval
JPH11272701A (en) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd Information extraction device
JPH11353316A (en) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd Abbreviated word supplementing device

Also Published As

Publication number Publication date
JP2012022354A (en) 2012-02-02

Similar Documents

Publication Publication Date Title
JP3573501B2 (en) Index creation device
JP2000181917A (en) Structured document managing method, executing device therefor and medium recording processing program therefor
EP3103002B1 (en) Batch generation of links to documents based on document name and page content matching
JP2009080525A (en) Image processor, document data management method, program, and storage medium
JP4237813B2 (en) Structured document management system
CN103646055B (en) The acquisition methods and device of a kind of programme setting
US7620893B2 (en) Aiding a user in using a software application
JP5581861B2 (en) Retrieval device, method and program, and data parsing device having retrieval function
US20050138028A1 (en) Processing, browsing and searching an electronic document
JP2009123114A (en) Information processor and information processing method
JP2000276338A (en) Method and system for visual programming, and recording medium for visual programming
JP5640700B2 (en) Information search device, search input method, and search input program
JP2009211599A (en) Mapping definition creation system and mapping definition creation program
JP2000090093A (en) Method and system for full-text retrieval and record medium recording full-text retrieval program
JP4091586B2 (en) Structured document management system, index construction method and program
JP2004086307A (en) Information retrieving device, information registering device, information retrieving method, and computer readable program
JP2009217741A (en) Metadata attachment method, device, and metadata attachment program
JPH08314974A (en) Automatic key work extracting device and document retrieving device
JP3666066B2 (en) Multilingual document registration and retrieval device
JP4160627B2 (en) Structured document management system and program
JP2007179505A (en) Retrieval device, system, method and program, and storage medium
JP2004295301A (en) Document retrieval device
JP4983397B2 (en) Document search apparatus, document search method, and computer program
JP5512817B2 (en) Information processing apparatus, information processing method, program, and medium
JP4628462B2 (en) Information processing system, server device, client device, information processing method, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130424

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140630

R150 Certificate of patent or registration of utility model

Ref document number: 5581861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees