JP5581861B2 - Retrieval device, method and program, and data parsing device having retrieval function - Google Patents
Retrieval device, method and program, and data parsing device having retrieval function Download PDFInfo
- Publication number
- JP5581861B2 JP5581861B2 JP2010157401A JP2010157401A JP5581861B2 JP 5581861 B2 JP5581861 B2 JP 5581861B2 JP 2010157401 A JP2010157401 A JP 2010157401A JP 2010157401 A JP2010157401 A JP 2010157401A JP 5581861 B2 JP5581861 B2 JP 5581861B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- character string
- search
- registered
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000012545 processing Methods 0.000 claims description 87
- 238000003860 storage Methods 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 12
- 238000003672 processing method Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims 1
- 238000009795 derivation Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 13
- 238000007796 conventional method Methods 0.000 description 12
- 235000010724 Wisteria floribunda Nutrition 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 5
- 235000013527 bean curd Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は,検索処理技術に関する。また,本発明は,前記の検索処理技術を用いてテキストデータの分かち書き処理技術に関する。 The present invention relates to search processing technology. The present invention also relates to text data segmentation processing technology using the search processing technology.
マスターデータの統合,収集データの活用等を行う情報統合分野において,入力されたテキストデータ(文字列)を扱いやすくするために,パース処理やクレンジングを行うことが一般的である。 In the information integration field where master data is integrated, collected data is used, etc., parsing and cleansing are generally performed in order to make it easy to handle input text data (character strings).
パース処理とは,入力されたテキストデータ(文字列)を,要素の並びを定めた所定の規則に合致するように個々の要素に分割(分かち書き)し,分割した各要素の属性を特定する処理である。 Parsing is a process that divides the input text data (character string) into individual elements so as to match a predetermined rule that defines the arrangement of elements, and specifies the attributes of each divided element. It is.
クレンジングは,入力されたテキストデータを,データベースの格納形式に整える処理であり,全角/半角の統一,表記の統一等を行う処理である。日本語のように「べた書き」されるテキストデータをデータベース用データとして扱う場合にパース処理が重要な位置を占める。 Cleansing is a process of arranging input text data into a database storage format, and is a process of unifying full-width / half-width, notation, and the like. Parsing processing occupies an important position when text data that is “solid” like Japanese is handled as database data.
パース処理が必要なテキストデータ例として,データベースのマスターデータがあるが,これらのテキストデータの多くは顧客データであり,特に,企業名や団体名等の固有の名称を含むようなデータが多い。このような固有の名称を含むテキストデータを法人データとする。法人データは,例えば,企業や団体等の法人名称を含むようなテキストデータ,法人名称と共に関連する名称,例えば,法人格を示す法人格名称,法人の内部組織を示す部署名称等の名称を含むテキストデータ等である。 As an example of text data that needs to be parsed, there is database master data. Most of these text data are customer data, and in particular, there are many data including unique names such as company names and organization names. Text data including such a unique name is corporate data. The corporate data is, for example, text data including a corporate name such as a company or organization, a text data including a name associated with the corporate name, for example, a corporate personality name indicating a corporate personality, a department name indicating a corporate internal organization, etc. Etc.
法人データをマスターデータとして活用するためには,法人データに含まれる1または複数の名称の各々を特定して,各名称の属性を識別するパース処理が必須となる。 In order to use corporate data as master data, a parsing process that identifies each of one or more names included in the corporate data and identifies the attribute of each name is essential.
パース処理として,固有の名称を予め辞書へ登録しておき,解析対象の法人データ中に出現する辞書の登録語を検索して,最も確からしい並び順となる要素の並びを選択して,各要素(名称)に分割するという手法が一般的である。 As a parsing process, a unique name is registered in the dictionary in advance, the registered words in the dictionary appearing in the corporate data to be analyzed are searched, the element sequence that is most likely to be arranged is selected, The technique of dividing into elements (names) is common.
その代表的なものとして,形態素解析処理が存在する。他にも,解析対象の法人データ中での項目のならびに着目し,辞書登録語との前方一致または後方一致を組み合わせて,要素ごとに分割するという手法が知られている。 A typical example is morphological analysis processing. In addition, there is known a method of focusing on the items in the corporate data to be analyzed and dividing each element by combining forward matching or backward matching with dictionary registered words.
また,法人データを分かち書きした要素を略称とみなした場合に,その略称に対応する正式名称が何かを判別する手法が知られている。 In addition, when an element obtained by sharing corporate data is regarded as an abbreviation, there is known a method for determining what the official name corresponding to the abbreviation is.
一般的に,パース処理用の辞書に登録される名称は正式名称である。しかし,処理対象となる入力データは,人手で入力されたり書かれたりするために,作業省力化により,正式名称ではなく略称で表現されていることが多い。そのため,入力データ中に出現する略称から正式名称を識別することが求められる。 Generally, the name registered in the parse processing dictionary is the official name. However, since input data to be processed is manually input and written, it is often expressed by an abbreviated name rather than an official name due to labor saving. Therefore, it is required to identify the official name from the abbreviations that appear in the input data.
そのため,出現が予測される略称,略称と正式名称との対応を,できる限り辞書に登録しておくことが考えられる。しかし,略称が膨大数となることが予想され,略称を網羅することは困難であり現実的手法ではない。 Therefore, it is conceivable that the abbreviations that are expected to appear and the correspondence between the abbreviations and the official names are registered in the dictionary as much as possible. However, the abbreviations are expected to be enormous, and it is difficult to cover the abbreviations, which is not a practical method.
具体的には,パース処理用辞書として,企業,団体等の固有名称の正式名称を登録した辞書を用意し,辞書の登録語(正式名称)を入力データ中から検索するという従来手法の場合に,検索対象の入力データと完全に一致する登録語のみが検索可能であるため,次のような課題が存在する。 Specifically, in the case of the conventional method of preparing a dictionary for registering the proper names of companies, organizations, etc. as parsing processing dictionaries, and searching the registered words (official names) of the dictionary from the input data. Because only registered words that completely match the input data to be searched can be searched, the following problems exist.
課題1:辞書に正式名称が登録されていても,入力データ内の略称で表現された正式名称を判別することができない。 Problem 1: Even if the official name is registered in the dictionary, the official name expressed by the abbreviation in the input data cannot be determined.
課題1への対応方法は,「入力データで使用される可能性がある略称を全て辞書に登録しておく」ことである。しかし,略称を網羅するようなデータを,数を揃えて準備することは現実的に困難である。
A method for dealing with the
課題2:関連する名称として,親名称から派生的に名付けた名称(以下,派生名称という)が使用されることも多い。例えば,新しく創設される子会社の法人名称として,「親会社の名称+α」のような形式の派生名称が名付けられることも多い。この場合に,親会社の正式名称のみが辞書に登録されていると,入力データに含まれる子会社の名称(派生名称)は,「親会社の名称」と「α」とに分割されてしまい,子会社の名称として識別されないという問題がある。 Problem 2: As a related name, a name derived from a parent name (hereinafter referred to as a derived name) is often used. For example, as a corporate name of a newly established subsidiary, a derivative name of the form “parent company name + α” is often named. In this case, if only the official name of the parent company is registered in the dictionary, the name of the subsidiary (derived name) included in the input data will be divided into “name of the parent company” and “α”. There is a problem that it is not identified as a name.
課題2への対処方法は,略称の場合と同様に,「関連する名称も全て辞書に登録しておく」ことである。しかし,関連する名称は数が多いだけでなく,頻繁に更新される可能性があるため,網羅する辞書を用意することは現実的に困難である。
As with the abbreviation, the coping method for the
さらに,従来手法として,辞書の登録語(正式名称)と,入力データ内の略称とを関連づける手法として,「辞書に,略称とみなせる文字列に登場する文字が,全てその順序で出現する登録語があれば,その登録語を,略称に対する正式名称と判断する」処理を行うものがある。 Furthermore, as a method of associating the registered words (official names) in the dictionary with the abbreviations in the input data as a conventional method, “Registered words in which all characters appearing in a string that can be regarded as abbreviations in the dictionary appear in that order.” If there is, there is a process of “determining the registered word as an official name for the abbreviation”.
この従来手法は,略称と正式名称との関連付けを行える。しかし,前提として,入力データから「略称とみなせる文字列」を何らかの方法で切り出しておく必要があるが,入力データから略称の範囲を自動的に切り出せる手法は知られていない。 This conventional method can associate an abbreviation with a formal name. However, as a premise, it is necessary to cut out “a character string that can be regarded as an abbreviation” from the input data by some method, but a method for automatically cutting out the range of the abbreviation from the input data is not known.
また,別の従来手法として,名称そのものではなくパターンを登録したパターン辞書を用意しておき,パターン辞書と入力データとを突き合わせて,入力データを各名称に分割するという手法がある。例えば,「“部”で終わる文字列は,“部署名称”である」と判断して,部署名称の範囲を特定して分割する。 As another conventional method, there is a method in which a pattern dictionary in which a pattern is registered instead of the name itself is prepared, and the input data is divided into each name by matching the pattern dictionary with the input data. For example, it is determined that “a character string ending with“ part ”is“ department name ””, and the range of the department name is specified and divided.
しかし,パターンマッチング処理では,名称そのものではなく,該当する可能性があるパターンを示す辞書を用意する作業が必要であり,一定ルールに則って要素のパターンを記述することが困難であるだけでなく,識別したい要素の並びに対応できる正確なパターンを記述することが困難であり,利用者に大きな負担を強いるという課題がある。 However, in pattern matching processing, it is necessary to prepare a dictionary that indicates a pattern that may be applicable, not the name itself, and it is difficult not only to describe element patterns according to certain rules. , It is difficult to describe an accurate pattern that can correspond to the elements to be identified, and there is a problem of imposing a heavy burden on the user.
本発明の目的は,正式名称のみを登録した辞書を用いて,処理対象の入力データに含まれる略称や派生名称を特定処理,それらの正式名称を検索する処理をより高い精度で行える装置を提供することである。 An object of the present invention is to provide an apparatus capable of performing a process of specifying abbreviations and derived names included in input data to be processed and a process of searching for the formal names with higher accuracy using a dictionary in which only formal names are registered. It is to be.
また,本発明の別の目的は,前記の検索処理機能を備えて,入力データ内の略称や派生名称とみなす部分を他の部分と分割して,識別した略称や派生名称に対応する正式名称を対応付けるパース処理を実行できる装置を提供することである。 Another object of the present invention is to provide the above-described search processing function, divide a portion regarded as an abbreviation or a derived name in input data from other portions, and form an official name corresponding to the identified abbreviation or derived name. It is an object of the present invention to provide a device capable of executing a parsing process for associating a.
さらに,本発明の前記および他の目的ならびに新規な特徴は,明細書の記述および添付図面から明らかにされるものである。 Furthermore, the above and other objects and novel features of the present invention will become apparent from the description of the specification and the accompanying drawings.
本発明の一実施態様として開示される検索装置は,1)複数の登録された正式名称を記憶する記憶部と,2)入力文字列を受け付けるデータ入力部と,3)処理部とを備え,前記処理部は,入力文字列が複数の登録された正式名称のいずれとも一致しない場合に,記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を複数の登録された正式名称から検索し,検索の結果抽出された正式名称のうち,入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,部分的に一致する文字列を,特定した正式名称に対応する略称を示す文字列と判定するものである。 A search device disclosed as one embodiment of the present invention includes 1) a storage unit that stores a plurality of registered formal names , 2) a data input unit that receives an input character string, and 3) a processing unit. When the input character string does not match any of a plurality of registered formal names , the processing unit stores a plurality of character strings including character strings partially matching the input character string from the storage unit . retrieved from official name, among the search results extracted official name, a length of the input string and partially string that matches the maximum and partial match to the length of the official name A formal name that maximizes the ratio of the length of the character string to be identified is identified, and a partially matching character string is determined as a character string indicating an abbreviation corresponding to the identified formal name .
また,本発明の別の一実施態様として開示される検索方法は,記憶部を備えるコンピュータが実行する処理方法であって,1)入力文字列を受け付ける処理ステップと,2)複数の登録された正式名称を記憶する記憶部を参照して,入力文字列が複数の登録された正式名称のいずれとも一致しない場合に,記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を複数の登録された正式名称から検索する処理ステップと,3)検索の結果抽出された正式名称のうち,入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,部分的に一致する文字列を,特定した正式名称に対応する略称を示す文字列と判定する処理ステップとを備えるものである。 The search method disclosed as another embodiment of the present invention is a processing method executed by a computer having a storage unit, which includes 1) a processing step for receiving an input character string, and 2) a plurality of registered methods . A character including a character string partially matching the input character string from the storage unit when the input character string does not match any of a plurality of registered formal names with reference to the storage unit storing the official name A processing step for retrieving a column from a plurality of registered formal names , and 3) of the formal names extracted as a result of the retrieval, the character string partially matching the input character string has a maximum length, and , letters indicating the abbreviations length ratio of the character string that partially matches to the length of the official name identifies a formal name of maximum, the string that partially matches, corresponding to the identified official name Processing step for determining a row It is those with a door.
さらに,本発明の別の一実施態様として開示される検索プログラムは,記憶部を備えるコンピュータに,上記の各処理ステップで実現される処理を実行させるためのものである。 Furthermore, another search programs which are to be disclosed as one embodiment of the present invention, the computer having a serial憶部is intended for executing a process implemented by the processing steps described above.
さらに,本発明の別の一実施態様として開示される,検索機能を備えるデータパース装置は,複数の名称を構成要素とする文字列を,文字列の構成として複数の名称の正しい並び順序を示す組合せ規則にもとづいて,構成要素である各名称に分割するパース処理を実行するパース処理部を備えるデータパース装置であって,1)正式名称を登録語とする名称辞書を記憶する記憶部と,2)入力文字列を受け付けるデータ入力部と,3)入力文字列が名称辞書の登録語と一致しない部分を含む場合に,名称辞書の登録語と入力文字列とを比較し,登録語と該登録語と部分的に一致する部分文字列とを対応付けて抽出し,抽出した登録語のうち,対応付けられた部分文字列の長さが最大かつ入力文字列に対する割合が最大となる登録語を1つ特定し,入力文字列の特定した登録語に対応付けられた部分文字列を略称と判定し,該特定した登録語を略称の正式名称とする検索処理部とを備えて,前記パース処理部は,パース処理において入力文字列の略称と決定された部分を1名称として分割し,特定された正式名称を該略称に対応づける処理を行うものである。 Further, disclosed as another embodiment of the present invention, the data parsing apparatus comprising a search function, a character string as a component a plurality of names, the proper arrangement order of a plurality of names as a string based on the combination rule shown, a data parsing apparatus comprising a parsing unit for executing parsing process of dividing each name that is a component, 1) you store name dictionary to register words the official name Symbol憶And 2) a data input unit that accepts an input character string , and 3) if the input character string includes a part that does not match the registered word in the name dictionary , the registered word in the name dictionary is compared with the input character string and registered A word and a partial character string that partially matches the registered word are extracted in association with each other, and among the extracted registered words, the length of the associated partial character string is the largest and the ratio to the input character string is the largest. Identify one registered word And, determining that abbreviation a substring associated with the identified registered words of the input string, and a search processing unit to the full name of abbreviated registered word and the particular, the parsing unit, A part determined as an abbreviation of the input character string in the parsing process is divided as one name, and a process of associating the specified formal name with the abbreviation is performed.
開示した検索装置によれば,正式名称のみを登録した辞書を用いて,処理対象である入力データ中に含まれる略称を識別して,その略称に対応する正式名称を検索することができる。 According to the disclosed search device, using the dictionary registered only formal name identifies the abbreviations contained in the input data to be processed, it is possible to search the full name that corresponds to the abbreviation .
さらに,開示した検索機能を備えるデータパース装置によれば,処理対象である入力データ中に略称が含まれている場合に,正式名称のみを登録した辞書を用いて,略称とみなす部分を1要素として識別して分割し,その略称に対応する正式名称を対応づけたパース結果を出力することができる。 Further, according to the data parsing apparatus having the disclosed search function, if it contains abbreviations in the input data to be processed, by using the dictionary registered only official name, a portion regarded as abbreviation A parsing result can be output by identifying and dividing as one element and associating a formal name corresponding to the abbreviated name.
図1は,本発明の一実施の形態例におけるデータパース装置のブロック構成例を示す図である。 FIG. 1 is a diagram showing a block configuration example of a data parsing apparatus according to an embodiment of the present invention.
データパース装置1は,法人データの入力を受けて,入力した法人データ中に含まれる略称や派生名称に対応する正式名称を検索し,この検索結果を用いて法人データをパース処理する装置である。
The
法人データは,固有の名称を含む文字列であり,本実施の形態では,企業名,団体名等の法人名称,法人格名称,法人の内部組織の名称である部署名称等が含まれてもよいものとする。 The corporate data is a character string including a unique name, and in this embodiment, a corporate name such as a company name or an organization name, a corporate case name, or a department name that is the name of an internal organization of the corporation may be included. Shall.
略称は,正式名称の一部を省略して表された名称である。例えば,正式名称が「富○通abcdef」である場合に「富○通ab」と表された名称である。 The abbreviation is a name expressed by omitting a part of the official name. For example, in the case where the official name is “Fuji ○ abcdef”, the name is represented as “Fuji ○ ab ab”.
派生名称は,正式名称に文字列を追加して派生的に作られた名称である。例えば,正式名称が「富○通」である場合に「富○通xyz」と表された名称である。 A derived name is a name that is derived by adding a character string to the official name. For example, when the official name is “wet ○ dori”, it is a name represented as “wet bw xyz”.
データパース装置1は,パース制御部10,辞書記憶部11,組合せ規則記憶部12,データ入力部13,辞書引き部14,略称検索部15,パース部16,および結果出力部17を備える。
The
パース制御部10は,データ入力部13,辞書引き部14,略称検索部15,パース部16,および結果出力部17の処理を制御する。パース制御部10は,データ入力部13から受け取った法人データ(以下入力データという)について,辞書引き部14,略称検索部15,パース部16の各処理部を呼び出して処理を行い,処理結果を結果出力部17へ渡す。
The parse
辞書記憶部11は,辞書引き部14,略称検索部15で使用される辞書であって,法人名称,法人格名称,部署名称等の正式名称(以下,登録語という)それぞれを登録した辞書を記憶する。登録語は,基本的には正式名称であるが,正式名称とみなされる名称を含んでもよい。
The
辞書記憶部11に記憶される辞書には,登録語として,「富○通」「富○通プロダクション」等の法人名称が,「株式会社」「有限会社」「合資会社」等の法人格名称が登録される。辞書記憶部11には,「総務部」「営業部」「事業部」「管理部」等の部署名称が登録されてもよい。
In the dictionary stored in the
図2は,辞書記憶部11に記憶される辞書の構成例を示す図である。
FIG. 2 is a diagram illustrating a configuration example of a dictionary stored in the
辞書記憶部11は,図2(A)に示すように,登録される名称ごとに,「法人名称辞書」,「法人格名称辞書」等のように別々に構成される。または,図2(B)に示すように,「名称+名称種別」のような形式で登録語を記述して,各名称全てを1つの辞書に登録するように構成されてもよい。さらに,辞書記憶部11は,「部署名称辞書」を備えていてもよい。
As shown in FIG. 2A, the
組合せ規則記憶部12は,パース部16で使用される,各名称の正しい並び順序を記述した組合せ規則を記憶する。
The combination
図3は,組合せ規則記憶部12に記憶される組合せ規則の構成例を示す図である。
FIG. 3 is a diagram illustrating a configuration example of combination rules stored in the combination
組合せ規則として,「法人格名称+法人名称+部署名称」,「法人名称+法人格名称+部署名称」等が登録される。「法人格名称+法人名称+部署名称」は,入力データが,「法人格名称」,「法人名称」,「部署名称」の並びで構成されることを示す。 As combination rules, “corporate case name + corporate name + department name”, “corporate name + corporate case name + department name”, and the like are registered. “Corporate name + corporate name + department name” indicates that the input data is composed of a sequence of “corporate case name”, “corporate name”, and “department name”.
データ入力部13は,ユーザの操作または他のコンピュータからの要求によって,データパース装置1へ処理対象となる法人データの入力を受け付ける。
The
図4は,入力される法人データの例を示す図である。 FIG. 4 is a diagram illustrating an example of input corporate data.
法人データは,例えば,「富○通株式会社デー○○ネジメント・ミ○ルウェア事業部」,「株式会社富○通プロ」,「富○通ミ○ルウェア」等である。 The corporate data includes, for example, “Fujitsu Day Co., Ltd. Day XX Management / Moldware Division”, “Fukumi Ltd. Professional”, “Fumitsu ○ Muware”, etc.
辞書引き部14は,パース制御部10から入力データを受け取り,辞書記憶部11から,入力データの文字列と完全に一致する登録語を検索して,その検索結果をパース制御部10に返す。
The
略称検索部15は,パース制御部10から入力データを受け取り,入力データ内に辞書記憶部11の登録語と完全に一致しない部分が残っている場合に,入力データの検索対象とされた文字列について,部分的に一致する範囲を有する登録語,または,完全一致はしないが完全に包含される登録語を検索して,検索結果をパース制御部10に返す。
The
パース部16は,パース制御部10から,辞書引き部14または略称検索部15の処理結果を受け取り,組合せ規則記憶部12に記憶された組合せ規則に定められた名称の並びとなるように入力データの各名称を分割し,各名称の属性を特定するパース処理を行い,その結果をパース制御部10に返す。
The parsing
結果出力部17は,入力データのパース処理の結果を出力する。
The
図5は,結果出力部17から出力されるパース結果の例を示す図である。
FIG. 5 is a diagram illustrating an example of a parsing result output from the
パース結果では,入力データの文字列が1または複数の名称に分割され,分割された名称の属性(法人名称,法人格名称,部署名称等)が特定される。さらに,分割された名称が略称であれば略称の正式名称,または,分割された名称が派生名称であれば関連する正式名称がそれぞれ付加される。 In the parsing result, the character string of the input data is divided into one or more names, and attributes of the divided names (corporate name, legal case name, department name, etc.) are specified. Further, if the divided name is an abbreviation, an abbreviated formal name is added, or if the divided name is a derived name, a related formal name is added.
例えば,入力データが,法人データ「富○通株式会社デー○○ネジメント・ミ○ルウェア事業部」である場合に,「法人名称=富○通,法人格名称=株式会社,部署名称=デー○○ネジメント・ミ○ルウェア事業部,法人名称_正式名称=富○通」のようなパース結果が出力される。 For example, if the input data is corporate data “Tofu ○ Toshi Co., Ltd. Day XX Management and Software Division”, “Corporate name = Tofu ○ Toshi, Corporate case name = Incorporated, Department name = D A parsing result such as “Nementment / Mileware Division, Corporate Name_Official Name = Wealth ○ Tong” is output.
また,入力データが,法人データ「株式会社富○通プロ」である場合に,「法人名称=富○通プロ<略称>,法人格名称=株式会社,部署名称=なし(−),法人名称_正式名称=富○通プロダクション」のようなパース結果が出力される。 In addition, when the input data is corporate data “Fujitsutsu Co., Ltd.”, “Corporate name = Fujitsutsu Pro <abbreviation>”, Corporate name = corporation, Department name = None (−), Corporate name_ A parsing result such as “official name = wealth ○ through production” is output.
さらに,入力データが,法人データ「富○通ミ○ルウェア」である場合に,「法人名称=富○通ミ○ルウェア<派>,法人格名称=なし(−),部署名称=なし(−),法人名称_正式名称=富○通」のようなパース結果が出力される。 Furthermore, when the input data is corporate data “Tomi * tsu Miruware”, “Corporate name = Tomi * tsumi * ware <group>, Corporate name = None (−), Department name = None (−) , Such as “corporation name_official name = wealth ○ communication” is output.
次に,データパース装置1の処理の流れを説明する。
Next, the processing flow of the
データパース装置1のパース制御部10は,データ入力部13が,略称を含む法人データの入力を受け付けると,入力された法人データに対するパース処理を制御する。
When the
図6は,データパース装置1の処理の概要フローを示す図である。
FIG. 6 is a diagram showing an outline flow of processing of the
ステップS1: パース制御部10は,データ入力部13が入力を受け付けた法人データ(以下,「入力データ」という)を辞書引き部14へ渡す。辞書引き部14は,辞書記憶部11を参照して,入力データの文字列に含まれる登録語(法人名称,法人格名称,部署名称)を全て検索して,検索結果をパース制御部10へ返却する。
Step S1: The parse
ステップS2: パース制御部10は,辞書引き部14の検索結果から,入力データに登録語と一致しない部分が残っているかを調べる。
Step S2: The parse
入力データに登録語と一致しない部分が残っていない(入力データの文字列が全て登録語と一致する)場合には(ステップS2のN),入力データは,登録された正式名称のみで構成されている文字列であるので,パース制御部10は,一般的なパース処理を実行するため,ステップS3の処理へ進む。一方,入力データに登録語と一致しない部分が残っている場合には(ステップS2のY),入力データ中に略称や派生名称の一部が含まれている可能性があるので,パース制御部10は,ステップS4の処理へ進む。
If there is no remaining part of the input data that does not match the registered word (all the character strings of the input data match the registered word) (N in step S2), the input data is composed only of the registered official name. Therefore, the parse
ステップS3: パース制御部10は,入力データと辞書引き部14の処理結果とをパース部16へ渡す。パース部16は,組合せ規則記憶部12の組合せ規則に合致するように入力データを各名称に分割するパース処理を行う。なお,パース部16が実行するパース処理は既知のものであるので詳細な説明は省略する。
Step S3: The parse
ステップS4: パース制御部10は,入力データ中の法人格名称の部分を特定し,入力データの法人格名称以外の部分を,略称検索部15の処理対象の文字列(検索対象)とし,検索対象を略称検索部15へ渡す。
Step S4: The parsing
パース制御部10は,入力データ中に法人格名称がなければ,入力データの全体を検索対象とする。また,パース制御部10は,入力データの先頭からの文字列が法人格名称であれば,入力データ内の法人格名称の直後の文字から最後の文字までの範囲を検索対象とする。
If there is no legal name in the input data, the parse
また,パース制御部10は,入力データ中で法人格名称が先頭からの文字列以外の部分にある場合には,入力データの先頭から法人格名称の直前の文字までの範囲を,法人名称の検索対象とし,法人格名称の直後の文字から最後の文字までの範囲を,部署名称の検索対象とする。この場合に,略称検索部15は,2つの検索対象について,それぞれ,法人名称と部署名称の略称検索を行う。
In addition, when the legal case name is in a portion other than the character string from the beginning in the input data, the parse
なお,辞書引き部14で入力データから部署名称辞書の登録語が検索されている場合には,パース制御部10は,入力データから法人格名称と部署名称以外の範囲を検索対象として略称検索部15に渡してもよい。
When the registered word in the department name dictionary is searched from the input data in the
ステップS5: 略称検索部15は,検索対象について略称検索処理を行う。略称検索処理の詳細は後述する。
Step S5: The
ステップS6: 略称検索処理で検索結果が得られた場合に(ステップS6のY),パース制御部10は,ステップS7の処理へ進ませ,検索結果が得られなかった場合に(ステップS6のN),ステップS8の処理へ進ませる。
Step S6: When a search result is obtained by the abbreviation search process (Y of Step S6), the parse
ステップS7: パース制御部10は,入力データと,辞書引き部14の処理結果と,略称検索部15の処理結果とをパース部16へ渡す。
Step S <b> 7: The parse
パース部16は,組合せ規則記憶部12の組合せ規則に従って,入力データを,辞書引き部14の処理結果と略称検索部15の検索結果をもとに,検索対象の文字列を各名称(文字列)に分割する。
In accordance with the combination rule of the combination
パース部16は,入力データ内に法人格名称が特定されていなければ,「法人名称」,「法人名称+部署名称」等の組合せ規則により,入力データを分割した要素それぞれを,組合せ規則で定められた各名称とし,法人格名称=なし(−)としたパース結果を生成する。また,パース部16は,略称検索の結果で,入力データの法人名称が「略称」であると判定されていれば,略称に対応する正式名称を追加し,「派生名称」と判定されていれば,派生名称に関連する正式名称を追加する。
If the legal name is not specified in the input data, the parsing
ステップS8: パース制御部10は,入力データと,略称検索部15の処理結果(なし)をパース部16へ渡す。パース部16は,組合せ規則記憶部12の組合せ規則と処理結果をもとに,入力データのうち特定できた名称のみを分割する。
Step S8: The parse
ステップS9: パース制御部10は,パース部16から得た処理結果を結果出力部17へ渡す。結果出力部17は,渡された結果を所定の形式で出力する。
Step S <b> 9: The parse
図7は,略称検索処理(ステップS5)の概要フローを示す図である。 FIG. 7 is a diagram showing an outline flow of the abbreviation search process (step S5).
ステップS10: 略称検索部15は,検索対象のうち登録語と部分一致する部分を検索し,その結果をR1とする。具体的には,略称検索部15は,辞書記憶部11の法人名称の各登録語と,検索対象とを比較して,一致する文字列の部分(一致範囲)とその登録語との対応を結果リストに格納する。
Step S10: The
図8は,検索対象と登録語の部分一致検索を説明するための図である。 FIG. 8 is a diagram for explaining a partial match search between a search target and a registered word.
略称検索部15は,図8(A)に示すように,辞書記憶部11に記憶された法人名称の各登録語の末尾からの文字列と,検索対象の先頭からの文字列とを比較する。例えば,検索対象「富○通プロ企画制作部」について,その先頭からの文字列を,登録語「富山富○通」の末尾からの文字列と比較した場合に,「富○通」が一致する。略称検索部15は,文字列の一致した部分(一致範囲)「富○通」とその登録語「富山富○通」との対応を結果R1のリストに格納する。
As shown in FIG. 8A, the
さらに,略称検索部15は,図8(B)に示すように,辞書記憶部11に記憶された法人名称の各登録語の先頭からの文字列と,検索対象の先頭からの文字列とを比較する。例えば,検索対象「富○通プロ企画制作部」の先頭からの文字列を,登録語「富○通プロダクション」の先頭からの文字列と比較した場合に,「富○通プロ」が一致する。略称検索部15は,文字列の一致した部分(一致範囲)「富○通プロ」とその登録語「富○通プロダクション」との対応を結果リストに格納する。略称検索部15は,辞書記憶部11に記憶された法人名称の全ての登録語と検索対象との処理結果を結果リストに格納し,最も一致範囲が長い結果を「R1」とする。
Further, as shown in FIG. 8B, the
ステップS11: 略称検索部15は,検索対象のうち登録語を完全に包含する部分を検索し,その結果をR2とする。
Step S11: The
略称検索部15は,辞書記憶部11に記憶された法人名称の各登録語の先頭からの文字列と,検索対象の先頭からの文字列とを比較する。例えば,検索対象「富○通プロ企画制作部」の先頭からの文字列を,登録語「富○通」の先頭からの文字列と比較した場合に,登録語「富○通」が完全に検索対象に包含される。略称検索部15は,完全包含された登録語「富○通」を結果リストに格納する。略称検索部15は,辞書記憶部11に記憶された法人名称の全ての登録語と検索対象とを比較し,その処理結果を結果リストに格納し,最も一致範囲が長い結果(最長の登録語)を「R2」とする。
The
ステップS12: 略称検索部15は,ステップS10およびステップS11の処理結果としてR1のみ得られたかを判定する。処理結果としてR1のみが得られた場合は(ステップS12のY),ステップS13の処理へ進み,R1のみが得られた場合ではなければ(ステップS12のN),ステップS14の処理へ進む。
Step S12: The
ステップS13: 略称検索部15は,検索対象内の部分一致した文字列を「略称」と判定し,R1の登録語を略称の「正式名称」とする。
Step S13: The
ステップS14: 略称検索部15は,ステップS10およびステップS11の処理結果として,R2のみ得られたかを判定する。R2のみ得られた場合は(ステップS14のY),ステップS15の処理へ進み,R2のみが得られた場合ではなければ(ステップS14のN),ステップS16の処理へ進む。
Step S14: The
ステップS15: 略称検索部15は,検索対象の文字列を「派生名称」と判定し,R2の登録語を「正式名称」とする。
Step S15: The
ステップS16: 略称検索部15は,ステップS10およびステップS11の処理結果として,R1とR2の両方が得られたかを判定する。R1とR2の両方が得られた場合は(ステップS16のY),ステップS17の処理へ進み,R1とR2の両方が得られていない場合は(ステップS16のN),ステップS19の処理へ進む。
Step S16: The
ステップS17: 略称検索部15は,R1の一致範囲(部分一致した範囲)とR2の一致範囲(完全包含された登録語)との文字列長を比較し,一致範囲がより長い結果を選択する,もしくは,一致範囲が同じ長さならば,一致した登録語の長さがより短い結果を選択する。
Step S17: The
ステップS18: 略称検索部15は,選択した結果がR1であれば,検索対象を「略称」と,R2であれば「派生名称」と判定して,選択した結果の登録語を,検索対象の正式名称とする。
Step S18: The
ステップS19: 略称検索部15は,結果として「なし」を出力する。
Step S19: The
図9〜図11は,部分一致検索処理における判定処理(ステップS17およびS18)の具体例を示す図である。 9 to 11 are diagrams illustrating specific examples of the determination process (steps S17 and S18) in the partial match search process.
図9に示すように,検索対象が「富○通プロ制作部」である場合に,部分一致検索の結果R1が,「略称=富○通プロ,正式名称=富○通プロダクション」であって,完全包含検索の結果R2が,「派生名称=富○通プロ制作部,正式名称=富○通」であるとする。 As shown in FIG. 9, when the search target is “Fujitsu Production Department”, the result R1 of the partial match search is “abbreviation = wealth ○ production professional, official name = wealth ○ production production”. , Suppose that the result R2 of the complete inclusion search is “derivative name = wealth ○ communication production department, formal name = wealth ○ traffic”.
この場合に,R1での検索対象と登録語との一致範囲の長さ=5(富○通プロ),R2での一致範囲の長さ=3(富○通)であるので,R1の結果が選択される。そして,R1の選択により,結果「略称=富○通プロ,正式名称=富○通プロダクション」がパース制御部10へ返される。
In this case, since the length of the matching range between the search target in R1 and the registered word = 5 (Fuji * tsu Pro) and the length of the matching range at R2 = 3 (Fuku * tsu), the result of R1 Is selected. Then, as a result of the selection of R1, the result “abbreviation = wealth ○ communication, formal name = wealth ○ communication production” is returned to the parse
その後,パース部16は,この結果をもとに,入力データ「富○通プロ制作部」をパースし,結果出力部17は,図5に示すパース結果(No.2)を出力する。
After that, the parsing
別の例として,図10に示すように,検索対象が「富○通ミ○ルウェア」である場合に,部分一致検索の結果R1が,「略称=富○通,正式名称=富○通プロダクション」であって,完全包含検索の結果R2が,「派生名称=富○通ミ○ルウェア,正式名称=富○通」であるとする。 As another example, as shown in FIG. 10, when the search target is “wealth * communication”, the result R1 of the partial match search is “abbreviation = wealth * communication, formal name = wealth * communication production”. And the result R2 of the complete inclusion search is “derivative name = wealth * communication, official name = wealth * trait”.
この場合に,R1での検索対象と登録語との一致範囲の長さ=3(富○通)が同じであるので,一致した登録語の長さが比較される。言い換えると,一致した登録語の中での一致部分の割合が計算される。R1の場合に,登録語の文字列数=10であり,R2の場合に,登録語の文字列数=3であるので,R2の結果が選択される。そして,R2の選択により,結果「派生名称=富○通ミ○ルウェア,正式名称=富○通が,パース制御部10へ返される。図9の場合と同様に,図5に示すパース結果(No.3)が出力される。
In this case, since the length of the matching range between the search target in R1 and the registered word = 3 (wealth circle) is the same, the lengths of the matched registered words are compared. In other words, the proportion of matching parts among the matching registered words is calculated. In the case of R1, the number of registered character strings = 10, and in the case of R2, the number of registered character strings = 3, so the result of R2 is selected. As a result of the selection of R2, the result “Derived Name = Wide ○ Mulware, Formal Name = Wide ○ Way is returned to the parse
さらに別の例として,図11に示すように,検索対象が「フ○ツウ第2ビル」である場合に,部分一致検索の結果R1が,「略称=フ○ツウ,正式名称=スタジオフ○ツウ」であって,完全包含検索の結果R2が,「なし」であるとする。 As another example, as shown in FIG. 11, when the search object is “Foo second building”, the result R1 of the partial match search is “abbreviation = Foo, official name = Studio F It is assumed that the result R2 of the complete inclusion search is “none”.
この場合に,R2の結果がないので,R1の結果が選択されて,結果「略称=フ○ツウ,正式名称=スタジオフ○ツウ」が,パース制御部10へ返され,図9の場合と同様に,図5に示すパース結果(No.5)が出力される。
In this case, since there is no result of R2, the result of R1 is selected, and the result “abbreviation = Foot, official name = StudioFoot” is returned to the parse
以上のようにして,入力データに,未登録の略称や派生名称が含まれていても,登録語を用いて,より適切なパース結果を出力することができる。 As described above, even if unregistered abbreviations and derived names are included in the input data, a more appropriate parsing result can be output using registered words.
例えば,図9に示す例では,従来手法であれば,「法人名称=富○通,部署名称=プロ制作部」とパースされ,「富○通プロ」を,正式名称(富○通プロダクション)の略称の法人名称として特定することができなかった。また,図10に示す例では,従来手法であれば,「法人名称=富○通,部署名称=ミ○ルウェア」とパースされ,「富○通ミ○ルウェア」を,親法人の正式名称(富○通)からの派生名称として特定することができなかった。 For example, in the example shown in FIG. 9, in the case of the conventional method, it is parsed as “corporate name = wealth ○ communication, department name = professional production department”, and “we wealth ○ communication professional” is the official name (we wealth ○ communication production). Could not be identified as the corporate name of the abbreviation. Further, in the example shown in FIG. 10, in the case of the conventional method, “corporate name = wealth * communication, department name = milware” is parsed, and “fortune * communication” is changed to the official name of the parent corporation ( It was not possible to specify the name as a derivative name from Tomi * tsu).
また,図11に示す例では,従来手法であれば,法人名称を検索することができず,検索結果=「なし」となり,「フ○ツウ」を正式名称(スタジオフ○ツウ)の略称の法人名称として特定することができなかった。データパース装置1では,入力データの「フ○ツウ」を略称の法人名称として識別することができることがわかる。
In the example shown in FIG. 11, if the conventional method is used, the corporate name cannot be searched, the search result = “none”, and “Footsu” is an abbreviation for the official name (Studio Footsu). It could not be specified as a corporate name. It can be seen that the
次に,図7に示す処理フローの各処理ステップを,より詳細に説明する。 Next, each processing step in the processing flow shown in FIG. 7 will be described in more detail.
図12は,部分一致の検索処理(ステップS10)の詳細フローを示す図である。 FIG. 12 is a diagram showing a detailed flow of the partial match search process (step S10).
略称検索部15は,パース制御部10から得た検索対象と辞書記憶部11の法人名称の登録語とを比較して,検索対象の後方から登録語と部分的に一致する範囲の検索(後方部分一致検索)を行う(ステップS101)。
The
略称検索部15は,検索対象で後方部分一致する登録語が得られなかった場合に(ステップS102のN),ステップS103の処理へ進み,検索対象と後方部分一致する登録語が得られた場合に(ステップS102のY),ステップS105の処理へ進む。
The
略称検索部15は,検索対象の前方から登録語と部分的に一致する範囲の検索(前方部分一致検索)を行う(ステップS103)。略称検索部15は,検索対象と前方部分一致する登録語が得られた場合に(ステップS104のY),ステップS105の処理へ進み,前方部分一致する登録語が得られなかった場合に(ステップS104のN),結果を「なし」とする(ステップS106)。
The
略称検索部15は,得られた結果から,「一致範囲が最長」または「一致範囲が同じならば登録語の長さが最短」である登録語を特定して,結果R1とする(ステップS105)。
The
図13は,後方部分一致の検索処理(ステップS101)の詳細処理フローを示す図,図14は,後方部分一致の検索処理を説明するための図である。 FIG. 13 is a diagram showing a detailed processing flow of the backward partial match search process (step S101), and FIG. 14 is a diagram for explaining the backward partial match search process.
略称検索部15は,辞書記憶部11の法人名称の辞書中の参照位置Dspを先頭の登録語に設定して(ステップS1101),参照位置Dspの登録語Tを取り出す(ステップS1102)。略称検索部15は,登録語T(文字列)の長さが検索対象Kの長さより短い場合には(ステップS1103のY),図14の上部に示すように,登録語Tの文字列の2番目の文字に先頭位置Tspを設定する(ステップS1104)。さらに,略称検索部15は,登録語の先頭位置Tspから末尾までの文字列Tstrを取り出し(ステップS1105),図14の下部に示すように,検索対象Kの先頭から,文字列Tstrと同一長の部分文字列Kstrを取り出す(ステップS1106)。
The
略称検索部15は,部分文字列Tstrと部分文字列Kstrとが同じであれば(ステップS1107のY),登録語Tを一致した登録語,Kstrを一致範囲として結果リストに加える(ステップS1108)。
If the partial character string Tstr and the partial character string Kstr are the same (Y in step S1107), the
略称検索部15は,部分文字列Tstrと部分文字列Kstrとが同じでなければ(ステップS1107のN),先頭位置Tspを設定した文字が登録語Tの末尾であるかを調べる(ステップS1109)。先頭位置Tspを設定した文字が登録語Tの末尾であれば(ステップS1109のY),ステップS1111の処理へ進み,先頭位置Tspを設定した文字が登録語Tの末尾でなければ(ステップS1109のN),略称検索部15は,先頭位置Tspを1文字分後ろにずらし(ステップS1110),ステップS1105の処理へ戻る。
If the partial character string Tstr and the partial character string Kstr are not the same (N in step S1107), the
略称検索部15は,参照位置Dspが法人名称辞書の最後の項目であるか調べて(ステップS1111),最後の項目でなければ(ステップS1111のN),参照位置Dspを辞書の次の項目に移動し(ステップS1112),最後の項目であれば(ステップS1111のY),結果リストを最終結果とする(ステップS1113)。
The
図15は,ステップS103の前方部分一致の検索の詳細処理フローを示す図である。 FIG. 15 is a diagram illustrating a detailed processing flow of the forward partial match search in step S103.
略称検索部15は,辞書記憶部11の法人名称辞書中の参照位置Dspを先頭の登録語に設定して(ステップS1301),参照位置Dspの登録語Tを取り出す(ステップS1302)。略称検索部15は,登録語Tの長さが検索対象Kの長さより短い場合には(ステップS1303のY),登録語Tの文字列の1番目の文字に照合位置Trpを設定し(ステップS1304),検索対象Kの文字列の1番目の文字に照合位置Krpを設定する(ステップS1305)。そして,略称検索部15は,照合位置Trpの文字と照合位置Krpの文字が同じであれば(ステップS1306のY),照合位置Trpの文字は,登録語Tの末尾の1文字手前の文字であるかを調べる(ステップS1307)。
The
また,略称検索部15は,照合位置Trpの文字と照合位置Krpの文字が同じでなければ(ステップS1306のN),照合位置Trpの文字が登録語Tの先頭であるかを調べる(ステップS1308)。照合位置Trpの文字が登録語Tの先頭でなければ(ステップS1308のN),ステップS1309の処理へ進み,照合位置Trpの文字が登録語Tの先頭であれば(ステップS1308のY),ステップS1310の処理へ進む。
If the character at the collation position Trp and the character at the collation position Krp are not the same (N in step S1306), the
略称検索部15は,照合位置Trpの文字が登録語Tの末尾の1文字手前の文字であれば(ステップS1307のY),登録語Tを一致した登録語,検索対象の先頭から照合位置Krpまでの範囲を一致範囲として結果リストに加える(ステップS1309)。照合位置Trpの文字が登録語Tの末尾の1文字手前の文字でなければ(ステップS1307のN),略称検索部15は,照合位置Trpを1文字分後ろにずらし(ステップS1310),さらに,照合位置Krpを1文字分後ろにずらし(ステップS1311),ステップS1306の処理へ戻る。
If the character at the collation position Trp is one character before the end of the registered word T (Y in step S1307), the
略称検索部15は,参照位置Dspが法人名称辞書の最後の項目であるか調べて(ステップS1312),最後の項目でなければ(ステップS1312のN),参照位置Dspを辞書の次の項目に移動し(ステップS1313),最後の項目であれば(ステップS1312のY),結果リストを最終結果とする(ステップS1314)。
The
図16および図17は,完全包含の検索処理(ステップS11)の詳細フローを示す図である。 16 and 17 are diagrams illustrating a detailed flow of the complete inclusion search process (step S11).
略称検索部15は,略称検索部15は,辞書記憶部11の法人名称辞書中の参照位置Dspを先頭の登録語Tに設定して(ステップS1501),参照位置Dspの登録語Tを取り出す(ステップS1502)。略称検索部15は,登録語Tの長さが検索対象Kの長さより短い場合には(ステップS1503のY),登録語Tの文字列の1番目の文字に照合位置Trpを設定し(ステップS1504),検索対象Kの文字列の1番目の文字に照合位置Krpを設定する(ステップS1505)。
The
さらに,略称検索部15は,照合位置Trpの文字と照合位置Krpの文字が同じであるかを調べる(ステップS1506)。照合位置Trpの文字と照合位置Krpの文字が同じであれば(ステップS1506のY),ステップS1507の処理へ進み,照合位置Trpの文字と照合位置Krpの文字が同じでなければ(ステップS1506のN),ステップS1509の処理へ進む。
Furthermore, the
略称検索部15は,照合位置Trpの文字は,登録語Tの末尾であるかを調べる(ステップS1507)。照合位置Trpの文字が登録語Tの末尾でなければ(ステップS1507のN),略称検索部15は,照合位置Trpを1文字後ろにずらし(ステップS1508),さらに,照合位置Krpの文字は,検索対象Kの末尾であるかを調べる(ステップS1509)。
The
照合位置Krpの文字が検索対象Kの末尾でなければ(ステップS1509のN),略称検索部15は,照合位置Krpを1文字後ろにずらし(ステップS1510),ステップS1506の処理へ戻り,照合位置Krpの文字が検索対象Kの末尾であれば(ステップS1509のY),ステップS1513の処理へ進む。
If the character at the collation position Krp is not the end of the search target K (N in step S1509), the
また,照合位置Trpの文字が登録語Tの末尾であれば(ステップS1507のY),略称検索部15は,登録語Tを一致した登録語,検索対象Kの先頭から照合位置Krpまでの範囲を一致範囲として結果リストに加える(ステップS1511)。
If the character at the collation position Trp is the end of the registered word T (Y in step S1507), the
略称検索部15は,参照位置Dspが辞書の最後の項目であるかを調べる(ステップS1512)。略称検索部15は,参照位置Dspが辞書の最後の項目でなければ(ステップS1512のN),ステップS1513の処理へ進み,最後の項目であれば(ステップS1512のY),ステップS1514の処理へ進む。略称検索部15は,参照位置Dspを辞書の次の項目に移動し(ステップS1513),または,結果リストから一致範囲が最長のものを選びを最終結果とする(ステップS1514)。
The
以上のように,データパース装置1の略称検索部15は,入力された法人データについて,検索対象から法人名称の略称と派生名称とを適切に切り分け,さらに対応する正式名称を特定することができる。
As described above, the
図18および図19は,データパース装置1に入力された法人データのパース処理例を示す図である。
FIG. 18 and FIG. 19 are diagrams illustrating an example of parsing processing of corporate data input to the
図18に示す例では,入力データが「株式会社富○通プロ制作部」であるとする。辞書引き部14により,入力データのうち,法人格名称(株式会社),法人名称(富○通)に対する登録語を辞書記憶部11から見つけたが,部署名称(制作部)が見つからず,入力データの一部「プロ制作部」が不明な部分になった場合を示している。
In the example shown in FIG. 18, it is assumed that the input data is “Tomi Co., Ltd. ○ Dr. Pro Production Department”. Of the input data, the
略称検索部15により,上記に説明した処理により,入力データから取り出した検索対象「富○通プロ制作部」について,「富○通プロ」が法人名称の略称,正式名称=「富○通」であることを検索できるため,パース部16により,「制作部」が部署名称であると識別される。その結果,結果出力部17は,図18に示すパース結果を出力することができる。
With the
図19に示す例では,入力データが「株式会社富○通ミ○ルプロ制作部」であるとする。辞書引き部14により,入力データのうち,法人格名称(株式会社),法人名称(富○通),部署名称(制作部)に対する登録語を辞書記憶部11から見つけたが,それらに属さない部分「ミ○ルプロ」が入力データ中に存在し,それが不明な部分となった場合を示している。
In the example shown in FIG. 19, it is assumed that the input data is “Tomi Co., Ltd. ○ Mi Miru Pro Production Department”. The
略称検索部15により,上記に説明した処理により,入力データから取り出した検索対象「富○通ミ○ルプロ制作部」について,「富○通ミ○ル」が法人名称の略称,正式名称=「富○通ミ○ルウェア」であることを検索できるため,パース部16により,「プロ制作部」が部署名称であると識別される。その結果,結果出力部17は,図19に示すパース結果を出力することができる。
With the
なお,図19では,入力データのうち,法人格名称以外の部分を検索対象としているが,辞書記憶部11に記憶されている部署名称(登録語)の検索結果の一部を利用してもよい。例えば,「制作部」を部署名称とする検索結果を利用して,検索範囲を「富○通ミ○ルプロ」として以降の手順を行ってもよい。この場合に,略称検索部15の処理結果は,「(法人格名称=株式会社),法人名称=富○通ミ○ル(略称),正式名称=富○通ミ○ルウェア,部署名称=プロ制作部」となる。パース部16により,「部署名称が複数連続して並んだ場合は,それらをまとめて1つの部署名称とする」という組合せ規則を適用して,「部署名称=プロ制作部」とすることができる。
In FIG. 19, a part other than the legal personality name in the input data is a search target. However, a part of the search result of the department name (registered word) stored in the
また,図18および図19に示した入力データを,従来技術により処理した場合は,開示するデータパース装置1の処理とは異なる結果が得られるものと思われる。
Further, when the input data shown in FIG. 18 and FIG. 19 is processed by the conventional technique, it is considered that a result different from the processing of the disclosed
図18の入力データ例において,従来手法によれば,法人格名称「株式会社」,法人名称「富○通」については判別できるが,「プロ制作部」や「制作部」が辞書の登録語にないため,入力データ中の「プロ制作部」は不明な部分となる。さらに,不明な部分である「プロ制作部」を略称とみなしても,辞書に「プロ制作部」の各文字を全て含む登録語がないので,これ以上の解析ができず,法人名称は「富○通」のままで,入力データは「株式会社/富○通/プロ制作部」とパースされる。 In the input data example of FIG. 18, according to the conventional method, it is possible to discriminate the corporate name “corporation” and the corporate name “Tofu ○”, but “professional production department” and “production department” are registered words in the dictionary. Because there is no, “Professional Production Department” in the input data is an unknown part. Furthermore, even if the “Professional Production Department”, which is an unknown part, is considered an abbreviation, there is no registered word that contains all the characters of the “Professional Production Department” in the dictionary. The input data is parsed as “corporate / wealth ○ com / pro production department”.
図19の入力データ例において,従来手法によれば,「株式会社」「富○通」「制作部」が判別できるが,「ミ○ルプロ」は不明な部分となる。さらに,不明な部分について,「ミ○ルプロ」の各文字を全て含む登録語が辞書にないため,「ミ○ル」と「プロ」とに分割することができない。そのため,「ミ○ルプロ」は不明な部分として残り,その後の組合せ規則によって「富○通/ミ○ルプロ」または「ミ○ルプロ/制作部」と分割されるものと思われる。 In the example of input data in FIG. 19, according to the conventional method, “corporation”, “wealth ○ dori”, and “production department” can be discriminated, but “Milpro” is an unknown part. Furthermore, since there is no registered word in the dictionary that contains all the characters “Milpro” for the unknown part, it cannot be divided into “Mil” and “Pro”. For this reason, “Milpro” remains as an unknown part, and it is considered that it will be divided into “Mitsubishi / Mulpro” or “Milpro / Production Department” according to the subsequent combination rules.
このように,従来手法に比較して,図18,図19に示すデータパース装置1の処理結果が,より適切なパース結果となることがわかる。
Thus, it can be seen that the processing result of the
以上のとおり,データパース装置1が法人名称の略称や派生名称を識別できることを説明したが,データパース装置1は,法人名称の以外の名称,例えば部署名称の検索処理において,部署名称の略称や派生名称を識別することができる。
As described above, it has been explained that the
さらに,データパース装置1は,辞書記憶部11に記憶された登録語をそのまま使用して検索するだけではなく,登録語に含まれる区切り記号(例えば,中黒(・),空白等)や文字種の境界を用いて登録語を分解し,分解した要素それぞれを新たな登録語として検索に使用することもできる。
Further, the
図20は,部署名称辞書の登録語を分解して用いる略称検索処理を説明するための図である。 FIG. 20 is a diagram for explaining an abbreviation search process that uses a registered word in the department name dictionary after being decomposed.
辞書記憶部11に,部署名称辞書が記憶されて,部署名称辞書に「デー○○ネジメント・ミ○ルウェア事業部」という部署名称が登録されているとする。また,入力データから抽出された検索対象「データミ○ル事行程会議」があると仮定する。
It is assumed that a department name dictionary is stored in the
略称検索部15は,登録語に出現する中黒(・)と文字種の境界を認識して,登録語を「デー○○ネジメント」,「ミ○ルウェア」,「事業部」の3つの登録語に分割し,分割登録語とする。すなわち,図20に示す部署名称辞書の場合に,「ミ○ルウェア,事業本部,デー○○ネジメント,ミ○ルウェア,事業部,アプ○○○ション,事業計画統括部,開発企画統括部,ソフトウェア,管理部」の分割登録語があるものとして扱われる。
The
略称検索部15は,法人名称の略称検索処理と同様に,検索対象「データミ○ル事行程会議」について,「データ」の分割登録語「デー○○ネジメント」を,「ミ○ル」に対して分割登録語「ミ○ルウェア」を,「事」に対して分割登録語「事業部」を,それぞれ最も一致する登録語として検索し,「データ」,「ミ○ル」,「事」を検索した登録語の略称と判定する。そして,パース部16は,検索対象を,「データ」「ミ○ル」「事」「行程会議」と分割することが可能となり,結果出力部17は,検索対象「データミ○ル事行程会議」について,例えば,第1の部署名称「デー○○ネジメント・ミ○ルウェア事業部」,第2の部署名称「行程会議」というパース結果を出力することができる。
Similar to the corporate name abbreviation search process, the
従来手法では,部署名称辞書に完全一致する部署名称が登録されていないため,検索対象「データミ○ル事行程会議」は,分割されずにそのまま出力される。しかし,データパース装置1は,「データミ○ル事行程会議」を含む法人データについて,より適切と思われるパース結果を出力できることがわかる。
In the conventional method, since the department name that exactly matches the department name dictionary is not registered, the search target “data mill event meeting” is output without being divided. However, it can be seen that the
図21は,データパース装置1を実施するためのハードウェア構成例を示す図である。
FIG. 21 is a diagram illustrating a hardware configuration example for implementing the
データパース装置1は,演算装置(CPU)101,一時記憶装置(DRAM,フラッシュメモリ等)102,永続性記憶装置(HDD,フラッシュメモリ等)103を有するコンピュータ100と,入力装置(キーボード,マウス等)120と出力装置(ディスプレイ,プリンタ等)130とによって実施することができる。
The
また,データパース装置1は,コンピュータ100が実行可能なプログラムによって実施することができる。この場合に,データパース装置1が有すべき機能の処理内容を記述したプログラムが提供され,提供されたプログラムをコンピュータ100が実行することによって,上記説明したデータパース装置1の処理部がコンピュータ100上で実現される。
The
すなわち,データパース装置1が備える各処理部として機能するためのプログラムが一時記憶装置102にロードされて演算装置(CPU)101で実行されることにより,各処理部が実現される。また,データパース装置1が用いる各種情報は,永続性記憶装置103に格納される。
That is, each processing unit is realized by a program for functioning as each processing unit included in the
なお,コンピュータ100は,可搬型記録媒体から,上記のプログラムを直接読み取り,そのプログラムに従った処理を実行したり,他のコンピュータからプログラムが転送されるごとに,逐次,転送されたプログラムを受け取って実行したりすることもできる。
The
さらに,上記プログラムは,コンピュータ100で読み取り可能な記録媒体に記録しておくことができる。
Further, the program can be recorded on a recording medium readable by the
以上のように,開示したデータパース装置1の略称検索部15によれば,法人データ内に,会社名や部署名などの名称が略称や派生名称の形で含まれている場合でも,正式名称のみを登録した辞書を用いて,略称,派生名称とみなす部分を識別することができ,さらに,識別した略称,派生名称に対応する正式名称を検索することができる。
As described above, according to the
さらに,開示したデータパース装置1によれば,略称検索部15の処理結果を用いて,略称,派生名称とみなす部分と識別された文字列を1要素として扱って入力された法人データを分割することができ,さらに,識別した略称,派生名称に対応する正式名称を対応付けたパース結果を出力することができる。
Further, according to the disclosed
よって,略称や派生名称を含むような文字列である法人データのパース処理において,対応または関連する正式名称を特定することができ,以降の名寄せ処理やデータクレンジング処理での処理の精度を向上させ,チェック作業の負担軽減に寄与することができる。 Therefore, in the parsing processing of corporate data that is a character string including abbreviations and derived names, the corresponding or related official names can be specified, and the accuracy of subsequent name identification processing and data cleansing processing can be improved. , It can contribute to reducing the burden of checking work.
以上の説明では,主として本発明を,その背景となった技術分野である法人名称の略称や派生名称を含むデータを法人データと称して,法人データのパース処理に適用した場合について説明した。上記の説明において,法人データは,正式名称の略称または派生名称を示す表現を含むテキストデータを意味するものであり,本発明は,上記の説明に限定されるものではなく,その記述の主旨の範囲において種々の変形が可能であることは当然である。 In the above description, the case where the present invention is applied to the parsing process of corporate data by referring to the data including the abbreviation and the derived name of the corporate name, which is the technical field as the background, as corporate data. In the above description, corporate data means text data including an expression indicating an abbreviated name or a derived name of the official name, and the present invention is not limited to the above description, Naturally, various modifications are possible in the range.
本発明の実施態様における特徴を列記すると以下のとおりである。 The features in the embodiments of the present invention are listed as follows.
(付記1)
正式名称を登録語とする名称辞書を記憶する辞書記憶部と,
検索対象となる文字列の入力を受け付けるデータ入力部と,
前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象と部分的に一致する登録語を検索し,前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする検索処理部とを備える
ことを特徴とする略称検索装置。
(Appendix 1)
A dictionary storage unit for storing a name dictionary whose official name is a registered word;
A data input part that accepts input of a character string to be searched;
When the search target character string includes a portion that does not match a registered word in the name dictionary, a search is performed for a registered word that partially matches the search target from the name dictionary, and among the searched registered words, A registered word that has a maximum range that partially matches the search target and that has a maximum percentage of the range that matches the registered word is determined, and the search target portion is determined as an abbreviation, and the specified And a search processing unit that uses the registered word as a formal name of the abbreviation.
(付記2)
前記検索処理部は,前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象に完全に包含され,かつ,長さが最大である登録語を特定し,前記検索対象の部分を派生名称と判定し,該特定した登録語を前記派生名称に関連する正式名称とする
ことを特徴とする前記付記1に記載の略称検索装置。
(Appendix 2)
When the search target character string includes a portion that does not match a registered word in the name dictionary, the search processing unit is completely included in the search target from the name dictionary and has the maximum length. 2. The abbreviation search device according to
(付記3)
前記検索処理部は,前記辞書記憶部に記憶された正式名称が,法人の正式名称である
ことを特徴とする前記付記1または前記付記2に記載の略称検索装置。
(Appendix 3)
The abbreviation search device according to
(付記4)
前記検索処理部は,前記辞書記憶部に,法人格名称を登録語とする法人格名称辞書が記憶されている場合に,前記入力された文字列から前記法人格名称辞書に登録された法人格名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記3に記載の略称検索装置。
(Appendix 4)
In the case where a corporate case name dictionary having a corporate case name as a registered word is stored in the dictionary storage unit, the search processing unit removes the corporate case name registered in the corporate case name dictionary from the input character string. The abbreviation search device according to
(付記5)
前記検索処理部は,前記辞書記憶部に,部署名称を登録語とする部署名辞書が記憶されている場合に,前記入力された文字列から前記部署名辞書に登録された部署名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記3または前記付記4に記載の略称検索装置。
(Appendix 5)
The search processing unit, when a department name dictionary having a department name as a registered word is stored in the dictionary storage part, excludes the department name registered in the department name dictionary from the input character string. The abbreviation search device according to
(付記6)
辞書記憶部を備えるコンピュータが実行する処理方法であって,
検索対象となる文字列の入力を受け付ける処理ステップと,
正式名称を登録語とする名称辞書を記憶する前記辞書記憶部を参照して,前記検索対象の文字列が該名称辞書の登録語と一致しない部分を含む場合に,該名称辞書から前記検索対象と部分的に一致する登録語を検索する処理ステップと,
前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする処理ステップとを
備えることを特徴とする略称検索方法。
(Appendix 6)
A processing method executed by a computer having a dictionary storage unit,
A processing step for accepting input of a character string to be searched;
Referring to the dictionary storage unit that stores a name dictionary with a formal name as a registered word, when the character string to be searched includes a portion that does not match a registered word in the name dictionary, the name to be searched from the name dictionary Processing steps to search for registered words that partially match
Among the registered words that have been searched, a registered word that has the largest range that partially matches the search target and that has the largest percentage of the range that matches the registered word is identified, and the search target portion And a processing step of determining the registered word as the formal name of the abbreviation.
(付記7)
辞書記憶部を備えるコンピュータに,
検索対象となる文字列の入力を受け付ける処理と,
正式名称を登録語とする名称辞書を記憶する前記辞書記憶部を参照して,前記検索対象の文字列が該名称辞書の登録語と一致しない部分を含む場合に,該名称辞書から前記検索対象と部分的に一致する登録語を検索する処理と,
前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする処理とを
実行させるための略称検索プログラム。
(Appendix 7)
In a computer with a dictionary storage,
A process for accepting input of a character string to be searched;
Referring to the dictionary storage unit that stores a name dictionary with a formal name as a registered word, when the character string to be searched includes a portion that does not match a registered word in the name dictionary, the name to be searched from the name dictionary Searching for registered words that partially match
Among the registered words that have been searched, a registered word that has the largest range that partially matches the search target and that has the largest percentage of the range that matches the registered word is identified, and the search target portion An abbreviation search program for executing a process for determining a registered abbreviation as a formal name of the abbreviation.
(付記8)
正式名称を登録語とする名称辞書を記憶する辞書記憶部と,
検索対象となる文字列の入力を受け付けるデータ入力部と,
前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象と部分的に一致する登録語を検索し,前記検索した登録語のうち,前記検索対象と部分一致する範囲が最大であって,かつ,該登録語に対して一致する範囲の割合が最大となる登録語を特定し,前記検索対象の部分を略称と判定し,該特定した登録語を前記略称の正式名称とする検索処理部と,
名称ごとの並びを示す組合せ規則にもとづいて,前記検索対象の文字列を,該組合せ規則に従った並びとなる各名称に分割するパース処理部とを備えて,
前記パース処理部は,前記略称と決定された部分を1名称として分割し,前記特定された正式名称を該略称に対応づける処理を行う
ことを特徴とする略称検索機能を備えるデータパース装置。
(Appendix 8)
A dictionary storage unit for storing a name dictionary whose official name is a registered word;
A data input part that accepts input of a character string to be searched;
When the search target character string includes a portion that does not match a registered word in the name dictionary, a search is performed for a registered word that partially matches the search target from the name dictionary, and among the searched registered words, A registered word that has a maximum range that partially matches the search target and that has a maximum percentage of the range that matches the registered word is determined, and the search target portion is determined as an abbreviation, and the specified A search processing unit that uses the registered word as the formal name of the abbreviation,
A parsing processing unit that divides the search target character string into respective names that are arranged according to the combination rule based on a combination rule indicating the arrangement for each name;
The data parsing device having an abbreviation search function, wherein the parsing processing unit divides a portion determined as the abbreviation as one name and associates the specified formal name with the abbreviation.
(付記9)
前記検索処理部は,前記検索対象の文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書から,該検索対象に完全に包含され,かつ,長さが最大である登録語を特定し,前記検索対象の部分を派生名称と判定し,該特定した登録語を前記派生名称に関連する正式名称とする処理を行い,
前記パース処理部は,前記派生名称と決定された部分を1名称として分割し,前記特定された正式名称を該派生名称に対応づける処理を行う
ことを特徴とする前記付記8に記載の略称検索機能を備えるデータパース装置。
(Appendix 9)
When the search target character string includes a portion that does not match a registered word in the name dictionary, the search processing unit is completely included in the search target from the name dictionary and has the maximum length. Identifying a registered word, determining that the part to be searched is a derived name, and performing the process of making the identified registered word an official name related to the derived name;
9. The abbreviation search according to claim 8, wherein the parse processing unit divides the part determined as the derived name as one name, and performs processing for associating the specified formal name with the derived name. Data parsing device with functions.
(付記10)
前記検索処理部は,前記辞書記憶部に記憶された正式名称が,法人の正式名称である
ことを特徴とする前記付記8または前記付記9に記載の略称検索機能を備えるデータパース装置。
(Appendix 10)
The data parsing device having the abbreviation search function according to the supplementary note 8 or the
(付記11)
前記検索処理部は,前記辞書記憶部に法人格名称を登録語とする法人格名称辞書が記憶されている場合に,前記入力された文字列から前記法人格名称辞書に登録された法人格名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記10に記載の略称検索機能を備えるデータパース装置。
(Appendix 11)
The search processing unit, when a corporate case name dictionary having a corporate case name as a registered word is stored in the dictionary storage unit, characters obtained by removing the corporate case name registered in the corporate case name dictionary from the input character string The data parsing apparatus having the abbreviation search function according to
(付記12)
前記検索処理部は,前記辞書記憶部に,部署名称を登録語とする部署名辞書が記憶されている場合に,前記入力された文字列から前記部署名辞書に登録された部署名称を除いた文字列を前記検索対象とする
ことを特徴とする前記付記10または前記付記11に記載の略称検索機能を備えるデータパース装置。
(Appendix 12)
The search processing unit, when a department name dictionary having a department name as a registered word is stored in the dictionary storage part, excludes the department name registered in the department name dictionary from the input character string. The data parsing device having the abbreviation search function according to the
1 データパース装置
10 パース制御部
11 辞書記憶部
12 組合せ規則記憶部
13 データ入力部
14 辞書引き部
15 略称検索部
16 パース部
17 結果出力部
DESCRIPTION OF
Claims (9)
入力文字列を受け付けるデータ入力部と,
処理部と,を備え,
前記処理部は,
前記入力文字列が前記複数の登録された正式名称のいずれとも一致しない場合に,前記記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を前記複数の登録された正式名称から検索し,
検索の結果抽出された正式名称のうち,前記入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する前記部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,
前記部分的に一致する文字列を,前記特定した正式名称に対応する略称を示す文字列と判定する,
ことを特徴とする検索装置。 A storage unit for storing a plurality of registered official names ;
A data input part that accepts an input string;
A processing unit,
The processor is
When the input string does not match any of the plurality of registered official name, from said storage unit, formally a string containing a character string that matches the input character string and partly are the plurality of registered Search by name ,
In the search results extracted official name, a maximum length of the string that matches the input character string and partly, and the string to the partial match to the length of the official name Identify the official name with the largest percentage of length,
The partially matching character string is determined as a character string indicating an abbreviation corresponding to the specified official name .
A search device characterized by that.
ことを特徴とする請求項1または請求項2記載の検索装置。 When the input character string does not completely match the official name stored in the storage unit, the processing unit is completely included in the input character string from the storage unit, and the length of the character string is maximum. identify the official name string is, the input string, and characterized in that determines a derived name corresponding to the specified the official name, and full name associated a formal name that the particular to the derivation name The search device according to claim 1 or 2.
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の検索装置。 The search device according to any one of claims 1 to 3, wherein the processing unit has a formal name stored in the storage unit as a legal name of a corporation.
入力文字列を受け付ける処理ステップと,
複数の登録された正式名称を記憶する前記記憶部を参照して,前記入力文字列が前記複数の登録された正式名称のいずれとも一致しない場合に,前記記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を前記複数の登録された正式名称から検索する処理ステップと,
検索の結果抽出された正式名称のうち,前記入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する前記部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,前記部分的に一致する文字列を,前記特定した正式名称に対応する略称を示す文字列と判定する処理ステップとを
備えることを特徴とする検索方法。 A processing method executed by a computer having a storage unit,
Processing steps for accepting input strings;
Referring to the storage unit that stores a plurality of registered formal names , if the input character string does not match any of the plurality of registered formal names , the input character string and a part are stored from the storage unit. A processing step of searching the plurality of registered formal names for a character string that includes a character string that matches automatically,
In the search results extracted official name, a maximum length of the string that matches the input character string and partly, and the string to the partial match to the length of the official name And a processing step of identifying a formal name having a maximum length ratio and determining the partially matching character string as a character string indicating an abbreviation corresponding to the identified formal name. retrieval method.
入力文字列を受け付ける処理と,
複数の登録された正式名称を記憶する前記記憶部を参照して,前記入力文字列が前記複数の登録された正式名称のいずれとも一致しない場合に,前記記憶部から,該入力文字列と部分的に一致する文字列を含む文字列を前記複数の登録された正式名称から検索する処理と,
検索の結果抽出された正式名称のうち,前記入力文字列と部分的に一致する文字列の長さが最大であって,かつ,該正式名称の長さに対する前記部分的に一致する文字列の長さの割合が最大となる正式名称を特定し,前記部分的に一致する文字列を,前記特定した正式名称に対応する略称を示す文字列と判定する処理とを
実行させるための検索プログラム。 To a computer with a storage unit,
Processing to accept an input string;
Referring to the storage unit that stores a plurality of registered formal names , if the input character string does not match any of the plurality of registered formal names , the input character string and a part are stored from the storage unit. A process of searching for a character string including a character string that matches automatically from the plurality of registered official names ;
In the search results extracted official name, a maximum length of the string that matches the input character string and partly, and the string to the partial match to the length of the official name A search program for identifying a formal name having a maximum length ratio and determining the partially matched character string as a character string indicating an abbreviation corresponding to the identified formal name .
正式名称を登録語とする名称辞書を記憶する記憶部と,
入力文字列を受け付けるデータ入力部と,
前記入力文字列が前記名称辞書の登録語と一致しない部分を含む場合に,前記名称辞書の登録語と前記入力文字列とを比較し,前記登録語と該登録語と部分的に一致する部分文字列とを対応付けて抽出し,抽出した登録語のうち,対応付けられた部分文字列の長さが最大かつ前記入力文字列に対する割合が最大となる登録語を1つ特定し,前記入力文字列の前記特定した登録語に対応付けられた部分文字列を略称と判定し,該特定した登録語を前記略称の正式名称とする検索処理部とを備えて,
前記パース処理部は,前記パース処理において前記入力文字列の前記略称と決定された部分を1名称として分割し,前記特定された正式名称を該略称に対応づける処理を行う
ことを特徴とする検索機能を備えるデータパース装置。 A parsing processing unit for executing a parsing process for dividing a character string having a plurality of names into constituent elements according to a combination rule indicating a correct arrangement order of the plurality of names as a character string structure. A data parsing device comprising:
A storage unit for storing a name dictionary whose official name is a registered word;
A data input part that accepts an input string;
When the input character string includes a portion that does not match a registered word in the name dictionary, the registered word in the name dictionary is compared with the input character string, and the registered word and a portion that partially matches the registered word A character string is extracted in association with one another, and from the extracted registered words, one registered word having the maximum length of the associated partial character string and the maximum ratio to the input character string is identified, and the input A partial character string associated with the specified registered word of the character string is determined as an abbreviation, and a search processing unit that uses the specified registered word as the formal name of the abbreviation,
The parsing processing unit divides a part of the input character string determined as the abbreviation in the parsing process as one name, and performs a process of associating the specified formal name with the abbreviation. Data parsing device with functions.
前記パース処理部は,前記派生名称と決定された部分を1名称として分割し,前記特定された正式名称を該派生名称に対応づける処理を行う
ことを特徴とする請求項7記載の検索機能を備えるデータパース装置。 The search processing unit, when the input character string includes a portion that does not match a registered word of the name dictionary, is registered from the name dictionary completely in the input character string and has the maximum length. Identifying a word, determining that the portion of the input character string is a derived name, and performing a process of making the identified registered word a formal name related to the derived name;
The search function according to claim 7, wherein the parsing processing unit divides the portion determined as the derived name as one name, and performs processing for associating the specified formal name with the derived name. A data parsing device.
ことを特徴とする請求項7または請求項8記載の検索機能を備えるデータパース装置。 The data parsing apparatus having a search function according to claim 7 or 8, wherein the search processing unit has a formal name stored in the storage unit as a legal name of a corporation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010157401A JP5581861B2 (en) | 2010-07-12 | 2010-07-12 | Retrieval device, method and program, and data parsing device having retrieval function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010157401A JP5581861B2 (en) | 2010-07-12 | 2010-07-12 | Retrieval device, method and program, and data parsing device having retrieval function |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012022354A JP2012022354A (en) | 2012-02-02 |
JP2012022354A5 JP2012022354A5 (en) | 2013-06-13 |
JP5581861B2 true JP5581861B2 (en) | 2014-09-03 |
Family
ID=45776626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010157401A Expired - Fee Related JP5581861B2 (en) | 2010-07-12 | 2010-07-12 | Retrieval device, method and program, and data parsing device having retrieval function |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5581861B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200055897A (en) | 2018-11-14 | 2020-05-22 | 삼성전자주식회사 | Electronic device for recognizing abbreviated content name and control method thereof |
CN112036172B (en) * | 2020-09-09 | 2022-04-15 | 平安科技(深圳)有限公司 | Entity identification method and device based on abbreviated data of model and computer equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3331692B2 (en) * | 1993-09-03 | 2002-10-07 | 富士通株式会社 | Heterogeneous dictionary creation support system |
JPH10162008A (en) * | 1996-11-28 | 1998-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for information retrieval |
JPH11272701A (en) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | Information extraction device |
JPH11353316A (en) * | 1998-06-04 | 1999-12-24 | Oki Electric Ind Co Ltd | Abbreviated word supplementing device |
-
2010
- 2010-07-12 JP JP2010157401A patent/JP5581861B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012022354A (en) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3573501B2 (en) | Index creation device | |
JP2000181917A (en) | Structured document managing method, executing device therefor and medium recording processing program therefor | |
EP3103002B1 (en) | Batch generation of links to documents based on document name and page content matching | |
JP2009080525A (en) | Image processor, document data management method, program, and storage medium | |
JP4237813B2 (en) | Structured document management system | |
CN103646055B (en) | The acquisition methods and device of a kind of programme setting | |
US7620893B2 (en) | Aiding a user in using a software application | |
JP5581861B2 (en) | Retrieval device, method and program, and data parsing device having retrieval function | |
US20050138028A1 (en) | Processing, browsing and searching an electronic document | |
JP2009123114A (en) | Information processor and information processing method | |
JP2000276338A (en) | Method and system for visual programming, and recording medium for visual programming | |
JP5640700B2 (en) | Information search device, search input method, and search input program | |
JP2009211599A (en) | Mapping definition creation system and mapping definition creation program | |
JP2000090093A (en) | Method and system for full-text retrieval and record medium recording full-text retrieval program | |
JP4091586B2 (en) | Structured document management system, index construction method and program | |
JP2004086307A (en) | Information retrieving device, information registering device, information retrieving method, and computer readable program | |
JP2009217741A (en) | Metadata attachment method, device, and metadata attachment program | |
JPH08314974A (en) | Automatic key work extracting device and document retrieving device | |
JP3666066B2 (en) | Multilingual document registration and retrieval device | |
JP4160627B2 (en) | Structured document management system and program | |
JP2007179505A (en) | Retrieval device, system, method and program, and storage medium | |
JP2004295301A (en) | Document retrieval device | |
JP4983397B2 (en) | Document search apparatus, document search method, and computer program | |
JP5512817B2 (en) | Information processing apparatus, information processing method, program, and medium | |
JP4628462B2 (en) | Information processing system, server device, client device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130424 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130424 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5581861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |