JP2006331001A - Specialist extraction device and dictionary provision device - Google Patents

Specialist extraction device and dictionary provision device Download PDF

Info

Publication number
JP2006331001A
JP2006331001A JP2005152451A JP2005152451A JP2006331001A JP 2006331001 A JP2006331001 A JP 2006331001A JP 2005152451 A JP2005152451 A JP 2005152451A JP 2005152451 A JP2005152451 A JP 2005152451A JP 2006331001 A JP2006331001 A JP 2006331001A
Authority
JP
Japan
Prior art keywords
dictionary
technical
word
unknown word
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005152451A
Other languages
Japanese (ja)
Inventor
Takayoshi Okochi
隆義 大河内
Akira Hamada
明 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2005152451A priority Critical patent/JP2006331001A/en
Publication of JP2006331001A publication Critical patent/JP2006331001A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a specialist extraction device and a dictionary server using a technical term dictionary extensively registered with an unknown term used by a number of users without requiring registration of the unknown term in the technical term dictionary to the user. <P>SOLUTION: This specialist extraction device extracts the unknown term not registered in the technical term dictionary (S101), cuts out a sentence or a clause including the unknown term, and sends it to a dictionary server as unknown term data together with the unknown term (S102). The dictionary server decides whether it is registered in the technical term dictionary (S103) or has to be set as a technical term (S104), and classifies it when it has to be set as the new technical term (S105). They are repeated until processing of all the pieces of the unknown term data is completed (S106). Thereafter, the unknown term set as the technical term is registered in the technical term dictionary or the like and is managed (S107), charging evaluation is performed according to an unknown term data amount (S108), and the new technical term dictionary is sent to the specialist extraction device to perform charging (S109). Thereby, the technical term dictionary extensively storing the unknown term is produced. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、文書に含まれる単語を抽出・解析することにより、ある知識や情報に詳しい人物を抽出する専門家抽出装置、および当該装置に使用される辞書を与える辞書提供装置(辞書サーバ)に関する。   The present invention relates to an expert extraction device that extracts a person who is familiar with certain knowledge and information by extracting and analyzing words contained in a document, and a dictionary providing device (dictionary server) that provides a dictionary used in the device. .

一般的に、多人数で共同して作業を行うことにより得られる知識や情報は、集約的に管理されることが少なく、個人や小さなグループで断片的に保持されていることが多い。ここで、各個人が作成した文書ファイルをデータベース化しておき、ある知識や情報に関連する特定の用語でこれらの文書ファイルを検索し得るように構成すれば、文書ファイルの所有者や作成・編集者等を参照することにより、当該知識や情報に詳しい人の情報を得ることができるはずである。しかしながら、多数の文書ファイルが蓄積されるようになると、検索の結果得られる特定の用語が記載された文書ファイルの所有者等が所望の知識や情報に対する見識の深い人物であるか否かを判断することは、実際には難しい場合が多い。そこで、従来より、単語や分野を指定することによって、所望の知識や情報に詳しい人物(専門家)をその詳しさを判断し得るように検索することができる専門家抽出装置が提案されている(特許文献1を参照)。また、従来より、電子メールなどの文書の内容に基づいて、その文書の内容に精通している人を自動抽出する精通者抽出装置が提案されている(特許文献2を参照)。
特開2002−14971号公報 特開2002−56001号公報
In general, knowledge and information obtained by working together with a large number of people are rarely managed intensively and are often held in pieces by individuals and small groups. Here, if the document files created by each individual are stored in a database and can be searched using specific terms related to certain knowledge and information, the owner of the document file, creation / editing, etc. By referring to the person or the like, it should be possible to obtain information on the person who is familiar with the knowledge and information. However, when a large number of document files are accumulated, it is determined whether or not the owner of the document file in which a specific term obtained as a result of the search is described is a person who has a deep knowledge of desired knowledge or information. It is often difficult to do in practice. Therefore, conventionally, an expert extraction device has been proposed that can search a person (expert) who is familiar with desired knowledge and information so that the details can be judged by specifying a word or field. (See Patent Document 1). Conventionally, a savvy person extraction device that automatically extracts persons who are familiar with the contents of a document based on the contents of the document such as an electronic mail has been proposed (see Patent Document 2).
JP 2002-14971 A JP 2002-560001 A

上記のような従来の専門家抽出装置は、知識や情報に関連する特定の専門用語を多数収録した専門語辞書を備えており、この専門語辞書に基づき検索が行われる。そのため、この専門語辞書に収録されていない新しい専門語(以下「未知語」という)は、専門語辞書に新たに登録しなければならない。しかし、この未知語を自動的に専門語辞書に登録するならば、誤字等であったとしても登録されてしまう不都合がある。また、この未知語が抽出される度にまたはある時点で一括して、利用者がこの登録作業を行わなければならないとすれば利用者にとって非常に煩わしいものとなる。さらに、このように登録される未知語は、ある組織内でのみ頻繁に使用されるものであることが多く、偏った専門語辞書になる可能性がある。   The conventional expert extraction apparatus as described above is provided with a technical language dictionary in which a large number of specific technical terms related to knowledge and information are recorded, and a search is performed based on this technical language dictionary. Therefore, new technical words (hereinafter referred to as “unknown words”) that are not recorded in this technical language dictionary must be newly registered in the technical language dictionary. However, if this unknown word is automatically registered in the technical language dictionary, there is a disadvantage that it is registered even if it is a typo. Further, if this unknown word is extracted or collectively at a certain point in time, if the user has to perform this registration work, it will be very troublesome for the user. Furthermore, unknown words registered in this manner are frequently used only within a certain organization, and may become a biased technical term dictionary.

そこで、本発明は、利用者が未知語を専門語辞書に登録することなく、多くの利用者で使用される未知語を広く登録した専門語辞書を使用する専門家抽出装置および当該専門語辞書を与える辞書提供装置を提供することを目的とする。   Therefore, the present invention provides an expert extraction device that uses a vocabulary dictionary in which unknown words widely used by many users are registered without registering unknown words in the vocabulary dictionary, and the vocabulary dictionary An object of the present invention is to provide a dictionary providing device that gives

第1の発明は、所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置であって、
複数の専門語が登録された辞書と、
前記辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出手段と、
前記専門語抽出手段により抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計手段と、
所定の利用者により指定された専門語または専門分野を受け付ける入力手段と、
前記入力手段により受け付けられた専門語または前記入力手段により受け付けられた専門分野に対応する専門語に対して、前記集計手段によって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索手段と、
前記専門語抽出手段により抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供手段と
を備えることを特徴とする。
The first invention is an expert extraction device for extracting an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document,
A dictionary in which multiple technical terms are registered,
By referring to the dictionary, the terminology extracting means for extracting the terminology included in the electronic document and extracting an unknown word not registered in the dictionary;
A totaling unit that counts the association frequency including at least one of the number of extractions of the technical terms extracted by the technical term extraction unit and a value corresponding to the number of extractions in association with the person related to the electronic document;
An input means for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the tabulating means with respect to the technical word accepted by the input means or the technical term corresponding to the specialized field accepted by the input means. A search means for extracting
And an unknown word providing means for providing the unknown word extracted by the technical word extracting means to a predetermined dictionary providing device outside the apparatus.

第2の発明は、第1の発明において、
前記専門語抽出手段は、前記未知語を含む複数の文字列を抽出し、
前記未知語提供手段は、前記専門語抽出手段により抽出された前記複数の文字列のうちの一部または全部を前記辞書提供装置へ与えることを特徴とする。
According to a second invention, in the first invention,
The technical term extraction means extracts a plurality of character strings including the unknown word,
The unknown word providing means provides a part or all of the plurality of character strings extracted by the technical word extracting means to the dictionary providing apparatus.

第3の発明は、第2の発明において、
前記複数の文字列のうち前記辞書提供装置へ与えるべき範囲を、予め定められた複数の区切り方法から前記利用者により択一的に選択された区切り方法に基づき設定する区切り設定手段をさらに備えることを特徴とする。
According to a third invention, in the second invention,
It further comprises delimiter setting means for setting a range to be given to the dictionary providing device among the plurality of character strings based on a delimiter method that is alternatively selected by the user from a plurality of predetermined delimiter methods. It is characterized by.

第4の発明は、第2の発明において、
前記複数の文字列のうち前記辞書提供装置へ与えるべき文字列を、前記利用者により選択させる文字列選択手段をさらに備えることを特徴とする。
According to a fourth invention, in the second invention,
Character string selection means is further provided for allowing the user to select a character string to be given to the dictionary providing device among the plurality of character strings.

第5の発明は、第1の発明において、
前記専門語抽出手段は、既に抽出された前記未知語を参照することにより、前記電子文書に含まれる既に抽出された未知語を前記専門語として抽出することを特徴とする。
According to a fifth invention, in the first invention,
The technical term extraction means extracts an already extracted unknown word included in the electronic document as the technical term by referring to the already extracted unknown word.

第6の発明は、第1の発明において、
前記辞書に代わるべき新たな辞書を前記辞書提供装置から受け取るとともに、前記未知語が前記新たな辞書に登録されている場合、前記未知語の関連度数および対応づけられた者を、前記新たな辞書に登録されている前記未知語に相当する専門語の関連度数および対応づけられた者として引き継ぐ辞書受け取り手段をさらに備えることを特徴とする。
According to a sixth invention, in the first invention,
When a new dictionary to replace the dictionary is received from the dictionary providing device and the unknown word is registered in the new dictionary, the degree of association of the unknown word and the associated person are determined as the new dictionary. And a dictionary receiving means for taking over as the association degree of the technical word corresponding to the unknown word registered in the above and the associated person.

第7の発明は、第6の発明において、
前記専門分野と前記専門語との対応関係が登録された専門分野データをさらに備え、
前記辞書受け取り手段は、前記専門分野データに代わるべき新たな専門分野データを前記辞書提供装置から受け取るとともに、前記未知語が前記新たな専門分野データに登録されている場合、前記未知語の関連度数および対応づけられた者を、前記新たな専門分野データに登録されている専門分野に対応する前記未知語に相当する専門語の関連度数および対応づけられた者として引き継ぐことを特徴とする。
A seventh invention is the sixth invention, wherein
Further comprising specialized field data in which the correspondence between the specialized field and the technical term is registered;
The dictionary receiving means receives new specialized field data to be substituted for the specialized field data from the dictionary providing device, and when the unknown word is registered in the new specialized field data, the association frequency of the unknown word And the associated person is taken over as the related degree of the technical term corresponding to the unknown word corresponding to the specialized field registered in the new specialized field data and the associated person.

第8の発明は、第1の発明において、
前記未知語提供手段は、前記辞書提供装置へ与えられるべき前記未知語を含むデータを暗号化する暗号処理手段を含むことを特徴とする。
In an eighth aspect based on the first aspect,
The unknown word providing means includes encryption processing means for encrypting data including the unknown word to be given to the dictionary providing apparatus.

第9の発明は、第8の発明において、
前記暗号処理手段は、公開鍵暗号方式を使用することにより、前記辞書提供装置に対応する所定の公開鍵に基づき前記データを暗号化することを特徴とする。
In a ninth aspect based on the eighth aspect,
The encryption processing means encrypts the data based on a predetermined public key corresponding to the dictionary providing device by using a public key cryptosystem.

第10の発明は、複数の専門語が登録された辞書と、前記辞書を参照することにより所定の電子文書に含まれる前記専門語を抽出するとともに前記辞書に登録されていない未知語を抽出する専門語抽出手段と、前記専門語抽出手段により抽出された前記未知語を装置外部へ与える未知語提供手段とを備える専門家抽出装置から前記未知語を受け取り、新たに作成された辞書を前記専門家抽出装置に与える辞書提供装置であって、
前記専門家抽出装置から前記未知語を受け取る未知語受け取り手段と、
受け取られた前記未知語の一部または全部を含む新たな辞書を作成する辞書作成手段と、
前記辞書作成手段により作成された新たな辞書を前記専門家抽出装置に与える辞書提供手段とを備えることを特徴とする。
In a tenth aspect of the present invention, a dictionary in which a plurality of technical terms are registered, and the technical terms included in a predetermined electronic document are extracted by referring to the dictionary, and unknown words that are not registered in the dictionary are extracted. The unknown word is received from an expert extraction device comprising an expert word extraction means and an unknown word providing means for giving the unknown word extracted by the expert word extraction means to the outside of the device, and a newly created dictionary is converted into the specialized dictionary. A dictionary providing device for a home extraction device,
An unknown word receiving means for receiving the unknown word from the expert extraction device;
A dictionary creating means for creating a new dictionary including part or all of the received unknown words;
And a dictionary providing means for providing the expert extracting device with a new dictionary created by the dictionary creating means.

第11の発明は、第10の発明において、
前記辞書作成手段は、前記未知語受け取り手段により受け取られた未知語が専門語であるか否か判定し、専門語であると判定された場合にのみ前記新たな辞書に登録する専門語解析手段を含むことを特徴とする。
In an eleventh aspect based on the tenth aspect,
The dictionary creating means determines whether or not the unknown word received by the unknown word receiving means is a technical word, and only when it is determined that the unknown word is a technical word, specialized word analyzing means for registering in the new dictionary It is characterized by including.

第12の発明は、第11の発明において、
前記未知語受け取り手段により受け取られた未知語に対応する量に応じて、前記新たな辞書を提供する料金に対する割引評価を行う顧客データ評価手段をさらに備えることを特徴とする。
In a twelfth aspect based on the eleventh aspect,
The apparatus further comprises customer data evaluation means for performing a discount evaluation on a fee for providing the new dictionary according to an amount corresponding to the unknown word received by the unknown word receiving means.

第13の発明は、第10の発明において、
前記未知語受け取り手段は、前記未知語を含む複数の文字列を受け取り、
前記顧客データ評価手段は、前記複数の文字列に対応する量に応じて、前記割引評価を行うことを特徴とする。
In a thirteenth aspect based on the tenth aspect,
The unknown word receiving means receives a plurality of character strings including the unknown word,
The customer data evaluation unit performs the discount evaluation according to an amount corresponding to the plurality of character strings.

第14の発明は、第12または第13の発明において、
前記顧客データ評価手段は、前記未知語受け取り手段により受け取られた未知語のうち、前記辞書作成手段により専門語であると判定された未知語に対応する量に応じて前記割引評価を行うことを特徴とする。
In a fourteenth aspect based on the twelfth or thirteenth aspect,
The customer data evaluation means performs the discount evaluation according to an amount corresponding to an unknown word determined to be a technical word by the dictionary creation means among the unknown words received by the unknown word receiving means. Features.

第15の発明は、所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置であって、複数の専門語が登録された辞書と、前記辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出手段と、前記専門語抽出手段により抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計手段と、所定の利用者により指定された専門語または専門分野を受け付ける入力手段と、前記入力手段により受け付けられた専門語または前記入力手段により受け付けられた専門分野に対応する専門語に対して、前記集計手段によって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索手段と、前記専門語抽出手段により抽出された前記未知語を装置外部の所定の辞書提供装置へ所定の通信回線を介して与える未知語提供手段とを備える専門家抽出装置と、
複数の専門語が登録された辞書と、前記辞書を参照することにより所定の電子文書に含まれる前記専門語を抽出するとともに前記辞書に登録されていない未知語を抽出する専門語抽出手段と、前記専門語抽出手段により抽出された前記未知語を装置外部へ与える未知語提供手段とを備える専門家抽出装置から前記未知語を受け取り、新たに作成された辞書を前記専門家抽出装置に与える辞書提供装置であって、前記専門家抽出装置から前記通信回線を介して前記未知語を受け取る未知語受け取り手段と、受け取られた前記未知語の一部または全部を含む新たな辞書を作成する辞書作成手段と、前記辞書作成手段により作成された新たな辞書を前記通信回線を介して前記専門家抽出装置に与える辞書提供手段とを備える辞書提供装置と
を備えることを特徴とする、辞書更新システムである。
A fifteenth aspect of the invention is an expert extraction device for extracting an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document, and a dictionary in which a plurality of technical terms are registered, and the dictionary Extracting the technical terms contained in the electronic document by referring to the technical terms extracting means for extracting unknown words not registered in the dictionary, and extracting the technical terms extracted by the technical terms extracting means A counting means for counting the association frequency including at least one of the number of times and a value corresponding to the number of extractions in association with a person related to the electronic document, and a technical term or specialized field designated by a predetermined user. For the input means to be accepted and the technical terms accepted by the input means or the technical terms corresponding to the specialized field accepted by the input means, Search means for extracting the expert by searching for persons associated with the frequency, and the unknown word extracted by the technical word extraction means to a predetermined dictionary providing device outside the device via a predetermined communication line An expert extraction device comprising an unknown word providing means
A dictionary in which a plurality of technical terms are registered, and a technical term extraction unit that extracts the technical terms contained in a predetermined electronic document by referring to the dictionary and extracts unknown words that are not registered in the dictionary; A dictionary that receives the unknown word from an expert extraction device including an unknown word providing unit that supplies the unknown word extracted by the technical word extraction unit to the outside of the device, and gives a newly created dictionary to the expert extraction device An apparatus for providing an unknown word receiving means for receiving the unknown word from the expert extraction device via the communication line and a dictionary creation for creating a new dictionary including a part or all of the received unknown word And a dictionary providing device comprising: a dictionary providing device for providing the new dictionary created by the dictionary creating device to the expert extracting device via the communication line. And wherein the door is a dictionary updating system.

第16の発明は、所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置の制御方法であって、
複数の専門語が登録された辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出ステップと、
前記専門語抽出ステップにおいて抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計ステップと、
所定の利用者により指定された専門語または専門分野を受け付ける入力ステップと、
前記入力ステップにおいて受け付けられた専門語または前記入力ステップにおいて受け付けられた専門分野に対応する専門語に対して、前記集計ステップによって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索ステップと、
前記専門語抽出ステップにおいて抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供ステップと
を含むことを特徴とする。
A sixteenth aspect of the invention is a method for controlling an expert extraction apparatus that extracts an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document,
A technical term extraction step of extracting the technical terms contained in the electronic document by referring to a dictionary in which a plurality of technical terms are registered, and extracting unknown words that are not registered in the dictionary;
A tabulation step of tabulating the number of associations including at least one of the number of extractions of the technical terms extracted in the technical term extraction step and a value corresponding to the number of extractions in association with a person related to the electronic document;
An input step for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the aggregation step with respect to the technical word accepted in the input step or the technical term corresponding to the technical field accepted in the input step. A search step to extract
An unknown word providing step of providing the unknown word extracted in the technical word extracting step to a predetermined dictionary providing device outside the device.

第17の発明は、所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置に、
複数の専門語が登録された辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出ステップと、
前記専門語抽出ステップにおいて抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計ステップと、
所定の利用者により指定された専門語または専門分野を受け付ける入力ステップと、
前記入力ステップにおいて受け付けられた専門語または前記入力ステップにおいて受け付けられた専門分野に対応する専門語に対して、前記集計ステップによって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索ステップと、
前記専門語抽出ステップにおいて抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供ステップと
を実行させる制御プログラムである。
According to a seventeenth aspect of the present invention, there is provided an expert extraction apparatus for extracting an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document.
A technical term extraction step of extracting the technical terms contained in the electronic document by referring to a dictionary in which a plurality of technical terms are registered, and extracting unknown words that are not registered in the dictionary;
A tabulation step of tabulating the number of associations including at least one of the number of extractions of the technical terms extracted in the technical term extraction step and a value corresponding to the number of extractions in association with a person related to the electronic document;
An input step for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the aggregation step with respect to the technical word accepted in the input step or the technical term corresponding to the technical field accepted in the input step. A search step to extract
A control program for executing an unknown word providing step of supplying the unknown word extracted in the technical word extraction step to a predetermined dictionary providing device outside the device.

第18の発明は、所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置に、
複数の専門語が登録された辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出ステップと、
前記専門語抽出ステップにおいて抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計ステップと、
所定の利用者により指定された専門語または専門分野を受け付ける入力ステップと、
前記入力ステップにおいて受け付けられた専門語または前記入力ステップにおいて受け付けられた専門分野に対応する専門語に対して、前記集計ステップによって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索ステップと、
前記専門語抽出ステップにおいて抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供ステップと
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
According to an eighteenth aspect of the present invention, there is provided an expert extraction apparatus for extracting an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document.
A technical term extraction step of extracting the technical terms contained in the electronic document by referring to a dictionary in which a plurality of technical terms are registered, and extracting unknown words that are not registered in the dictionary;
A tabulation step of tabulating the number of associations including at least one of the number of extractions of the technical terms extracted in the technical term extraction step and a value corresponding to the number of extractions in association with a person related to the electronic document;
An input step for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the aggregation step with respect to the technical word accepted in the input step or the technical term corresponding to the technical field accepted in the input step. A search step to extract
A computer-readable recording medium recording a program for executing an unknown word providing step of supplying the unknown word extracted in the technical word extraction step to a predetermined dictionary providing device outside the device.

上記第1の発明によれば、利用者が未知語を専門語辞書に登録することなく、専門語抽出手段により抽出された未知語を未知語提供手段により装置外部の辞書提供装置に与えるので、当該辞書提供装置により作成された多くの利用者で使用される未知語を広く登録した専門語辞書を使用することができる。   According to the first invention, the user provides the unknown word extracted by the technical word extraction means to the dictionary providing device outside the apparatus by the unknown word providing means without registering the unknown word in the technical word dictionary. It is possible to use a specialized word dictionary in which unknown words used by many users created by the dictionary providing apparatus are widely registered.

上記第2の発明によれば、専門語抽出手段により抽出された未知語を含む複数の文字列のうちの一部または全部を、未知語提供手段により辞書提供装置へ与えるので、当該辞書提供装置において受け取られた文字列を参照することにより正確な専門語辞書を作成することができる。   According to the second invention, part or all of a plurality of character strings including the unknown word extracted by the technical word extraction means is given to the dictionary providing apparatus by the unknown word providing means. An accurate vocabulary dictionary can be created by referring to the character string received at.

上記第3の発明によれば、区切り設定手段により、辞書提供装置へ与えるべき範囲を利用者により択一的に選択された区切り方法に基づき設定するので、未知語を含む文字列のうち辞書提供装置へ与えることを許可すべき文字列を装置の利用者にとって簡便に選択することができ、そのことにより、例えば守秘を要する文章などが装置外部の辞書提供装置へ与えられることを防止することができる。   According to the third aspect, the delimiter setting means sets the range to be given to the dictionary providing device based on the delimiter method selected by the user, so that the dictionary is provided among the character strings including unknown words. A character string that should be allowed to be given to the device can be easily selected by the user of the device, thereby preventing, for example, a sentence requiring confidentiality from being given to the dictionary providing device outside the device. it can.

上記第4の発明によれば、文字列選択手段により、辞書提供装置へ与えるべき文字列を利用者により選択させるので、未知語を含む文字列のうち辞書提供装置へ与えることを許可すべき文字列を装置の利用者にとって簡便に選択することができ、そのことにより例えば守秘を要する文章などが装置外部の辞書提供装置へ与えられることを防止することができる。   According to the fourth aspect of the invention, the character string selection means allows the user to select a character string to be given to the dictionary providing device, so that a character string that should be allowed to be given to the dictionary providing device among character strings including unknown words. The column can be easily selected by the user of the apparatus, and thereby, for example, a sentence requiring confidentiality can be prevented from being given to the dictionary providing apparatus outside the apparatus.

上記第5の発明によれば、既に抽出された未知語を参照することにより、未知語を専門語として抽出するので、専門語辞書の更新を待つことなく、未知語を専門語と同様に取り扱うことができる。すなわち例えば、当該未知語を集計手段により集計し、検索手段により検索することができる。   According to the fifth aspect, the unknown word is extracted as a technical term by referring to the already extracted unknown word, so that the unknown word is handled in the same way as the technical term without waiting for the update of the technical term dictionary. be able to. That is, for example, the unknown words can be aggregated by the aggregation means and searched by the search means.

上記第6の発明によれば、未知語が新たな辞書に登録されている場合、未知語の関連度数および対応づけられた者を、新たな辞書に登録されている未知語に相当する専門語の関連度数および対応づけられた者として引き継ぐので、重複登録が防がれるとともに、既に集計された未知語の関連度数および対応づけられた者の情報を無駄なく活用することができる。   According to the sixth aspect, when an unknown word is registered in a new dictionary, the degree of relevance of the unknown word and the associated person are indicated as technical terms corresponding to the unknown word registered in the new dictionary. Therefore, it is possible to prevent duplication of registration and utilize the already-calculated unknown word association degrees and associated person information without waste.

上記第7の発明によれば、未知語が新たな専門分野データに登録されている場合、未知語の関連度数および対応づけられた者を、新たな専門分野データに登録されている専門分野に対応する未知語に相当する専門語の関連度数および対応づけられた者として引き継ぐので、重複登録が防がれるとともに、既に集計された未知語の関連度数および対応づけられた者の情報を無駄なく活用することができる。   According to the seventh aspect, when an unknown word is registered in new specialized field data, the degree of association of the unknown word and the associated person are changed to the specialized field registered in the new specialized field data. Since the related frequency of the technical terms corresponding to the corresponding unknown word and the associated person are taken over, duplicate registration is prevented, and the related frequency of the unknown words already collected and the information of the associated person are efficiently used Can be used.

上記第8の発明によれば、辞書提供装置へ与えられるべき未知語を含むデータが暗号化されるので、守秘を要する文章などが辞書提供装置以外の(第三者の)装置に解読可能な形で与えられることがなく、情報の漏洩を防止することができる。   According to the eighth aspect, data including an unknown word to be given to the dictionary providing device is encrypted, so that a sentence requiring confidentiality can be decoded by a (third party) device other than the dictionary providing device. It is not given in a form, and information leakage can be prevented.

上記第9の発明によれば、公開鍵暗号方式を使用することにより、簡易な方法で極めて安全に情報の伝達を行うことができ、特に、複数の専門家抽出装置においてすべて同じ(辞書提供装置に対応する)公開鍵を使用することができるので、各専門家抽出装置に応じて個別に異なる公開鍵を設定することなく上記同一の公開鍵を予め設定すれば足り、また辞書提供装置における鍵の管理も容易なものにすることができる。   According to the ninth aspect of the invention, by using the public key cryptosystem, information can be transmitted in an extremely safe manner with a simple method. It is sufficient to set the same public key in advance without setting a different public key for each expert extraction device, and the key in the dictionary providing device. Management of the system can be made easy.

上記第10の発明によれば、利用者が未知語を専門語辞書に登録することなく、これらの未知語を含む多くの利用者において使用される未知語を広く登録した専門語辞書を作成し、専門家抽出装置に与えることができる。   According to the tenth aspect of the present invention, a user can create a vocabulary dictionary in which unknown words used by many users including these unknown words are widely registered without registering unknown words in the vocabulary dictionary. Can be fed into the expert extraction device.

上記第11の発明によれば、受け取られた未知語が専門語であると判定された場合にのみ新たな辞書に登録するので、誤字や勘違いなどによる誤った用語や、非常に狭い範囲でしか通用しない用語など、専門語としてふさわしくないものが新たな辞書に登録されることを防止することができる。   According to the eleventh aspect of the invention, only when it is determined that the received unknown word is a technical term, it is registered in a new dictionary, so wrong terms due to typographical errors or misunderstandings, or only within a very narrow range. It is possible to prevent an unsuitable term such as an invalid term from being registered in a new dictionary.

上記第12の発明によれば、受け取られた未知語に対応する量に応じて、新たな辞書を提供する料金に対する割引評価を行うので、未知語(および関連する文章)を多く送った顧客ほど大きい課金割引が受けられることになる。よって、専門家抽出装置からのこれらの未知語の送信を促進することができ、そのことにより辞書提供装置から多くの専門語を登録した専門語辞書を提供することができる。   According to the twelfth aspect of the invention, the discount evaluation for the fee for providing a new dictionary is performed according to the amount corresponding to the received unknown word, so that the customer who sent many unknown words (and related sentences) Big billing discounts will be received. Therefore, transmission of these unknown words from the expert extracting device can be promoted, and thereby, a specialized word dictionary in which many specialized words are registered can be provided from the dictionary providing device.

上記第13の発明によれば、未知語を含む(例えばその前後の)複数の文字列に対応する量に応じて割引評価を行うので、専門家抽出装置からのこれらの文字列の送信を促進することができ、そのことにより辞書提供装置から正確な専門語を数多く登録した専門語辞書を提供することができる。   According to the thirteenth aspect of the invention, discount evaluation is performed according to the amount corresponding to a plurality of character strings including unknown words (for example, before and after that), so that the transmission of these character strings from the expert extraction device is facilitated. Therefore, it is possible to provide a vocabulary dictionary in which many accurate technical terms are registered from the dictionary providing device.

上記第14の発明によれば、受け取られた未知語のうち、専門語であると判定された未知語に対応する量に応じて割引評価を行うので、誤字や勘違いなどによる誤った用語や、非常に狭い範囲でしか通用しない用語など、専門語としてふさわしくない(辞書の更新に役立たない)未知語を大量に送ってきた顧客に対する不要な割引評価を回避することができる。また、古い(バージョンの)辞書を備える専門家抽出装置からは、新しい辞書において既に専門語であると判定された登録済みの未知語が大量に送られることになるので、このような辞書の更新(購入)を怠っている顧客に対する不要な割引評価を回避することができる。   According to the fourteenth aspect, since the discount evaluation is performed according to the amount corresponding to the unknown word determined to be the technical word among the received unknown words, an erroneous term due to a typographical error or misunderstanding, It is possible to avoid unnecessary discount evaluation for customers who have sent a large amount of unknown words that are not suitable as technical terms (such as terms that can only be used in a very narrow range) (useful for updating the dictionary). In addition, since a large number of registered unknown words that have already been determined to be technical words in the new dictionary are sent from the expert extraction device having the old (version) dictionary, such a dictionary update is performed. It is possible to avoid unnecessary discount evaluation for customers who neglect (purchase).

上記第15の発明によれば、利用者が未知語を専門語辞書に登録することなく、専門家抽出装置において抽出された未知語が辞書提供装置に与えられ、この辞書作成装置において多くの利用者で使用される未知語を広く登録した専門語辞書が作成され、この専門語辞書が専門家抽出装置に与えられることによりその専門語辞書が更新される辞書更新システムを提供することができる。   According to the fifteenth aspect of the present invention, the unknown word extracted by the expert extraction device is given to the dictionary providing device without the user registering the unknown word in the technical word dictionary. It is possible to provide a dictionary update system in which an expert word dictionary in which unknown words used by a person are registered is created and the expert word dictionary is updated by providing the expert word dictionary to the expert extraction device.

上記第16の発明によれば、第1の発明の効果と同様の効果を奏する専門家抽出装置の制御方法を実現することができる。   According to the sixteenth aspect of the present invention, it is possible to realize a method for controlling the expert extraction apparatus that exhibits the same effect as that of the first aspect of the invention.

上記第17の発明によれば、第1の発明の効果と同様の効果を奏する専門家抽出装置の制御プログラムを実現することができる。   According to the seventeenth aspect, it is possible to realize a control program for an expert extraction apparatus that exhibits the same effect as that of the first aspect.

上記第18の発明によれば、第1の発明の効果と同様の効果を奏するコンピュータ読み取り可能な記録媒体を実現することができる。   According to the eighteenth aspect of the invention, a computer-readable recording medium that exhibits the same effect as that of the first aspect of the invention can be realized.

以下、添付図面を参照して本発明の一実施形態について説明する。   Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.

<1. 専門家抽出装置の構成および動作>
図1は、本発明の一実施形態に係る専門家抽出装置および辞書サーバ(辞書提供装置)の構成を示すブロック図である。これらの専門家抽出装置5および辞書サーバ6により辞書更新システムが構成される。この辞書更新システムのうち、まず専門家抽出装置5の構成について説明する。
<1. Configuration and operation of expert extraction device>
FIG. 1 is a block diagram showing a configuration of an expert extraction device and a dictionary server (dictionary providing device) according to an embodiment of the present invention. The expert extraction device 5 and the dictionary server 6 constitute a dictionary update system. In the dictionary update system, first, the configuration of the expert extraction device 5 will be described.

専門家抽出装置5は、ユーザインタフェース(ユーザI/F)装置1、演算処理部2、記憶部3、および通信部4などの一般的な構成を有するコンピュータにより実現される。このコンピュータである専門家抽出装置5における演算処理部2は、所定のプログラムによる制御に従って、専門語抽出部21、使用者特定部22、集計部23、検索部24、文字認識部25、ネットワークモニタ26、文書管理サーバ27、未知語切り出し箇所設定部28、未知語最適化処理部29、および暗号処理部41として機能する。   The expert extraction device 5 is realized by a computer having a general configuration such as a user interface (user I / F) device 1, an arithmetic processing unit 2, a storage unit 3, and a communication unit 4. The arithmetic processing unit 2 in the expert extraction device 5 which is a computer, according to control by a predetermined program, includes a technical word extraction unit 21, a user identification unit 22, a totaling unit 23, a search unit 24, a character recognition unit 25, a network monitor. 26, the document management server 27, the unknown word cutout location setting unit 28, the unknown word optimization processing unit 29, and the encryption processing unit 41.

また、記憶部3には、使用者別単語データベース(使用者別単語DB)31、専門分野データベース(専門分野DB)32、および文書データベース(文書DB)33が構築されており、また一般単語辞書34、専門語辞書35、および未知語データ36などが記憶されている。この記憶部3は、典型的にはハードディスクドライブ装置である。なお、記憶部3はこれに限られるものではないが、比較的大容量で高速動作が可能な記憶装置であることが好ましい。   Further, the storage unit 3 includes a user-specific word database (user-specific word DB) 31, a specialized field database (specialized field DB) 32, and a document database (document DB) 33, and a general word dictionary. 34, technical term dictionary 35, unknown word data 36, and the like are stored. The storage unit 3 is typically a hard disk drive device. The storage unit 3 is not limited to this, but is preferably a storage device that can operate at a relatively large capacity and high speed.

ユーザI/F装置1は、例えばキーボード、マウス、ディスプレイ、プリンタなどであって、装置の利用者がコンピュータである専門家抽出装置5を操作したり、その処理結果を確認するために使用される。   The user I / F device 1 is, for example, a keyboard, a mouse, a display, a printer, and the like, and is used by a user of the device to operate the expert extraction device 5 that is a computer and check the processing result. .

演算処理部2は、例えばコンピュータのCPUとして動作するマイクロプロセッサである。このマイクロプロセッサには、各種演算処理の際に使用されるメモリが接続される。演算処理部2における上記各機能を実現するプログラムは、記憶部3を構成するハードディスク(またはその他の記憶装置)から上記メモリに読み込まれることにより、マイクロプセッサを制御する。このハードディスクに上記プログラムを導入する場合、図示されないCD−ROMやDVD−ROMなどのコンピュータ読み取り可能な記録媒体が使用される。例えば圧縮された状態でCD−ROMに格納されている上記プログラムは、CD−ROMに実行可能な状態で格納されているセットアッププログラムを動作させることによって、ハードディスクにを実行可能な状態で導入される(インストールされる)。   The arithmetic processing unit 2 is a microprocessor that operates as a CPU of a computer, for example. The microprocessor is connected to a memory used for various arithmetic processes. A program for realizing the above functions in the arithmetic processing unit 2 is read into the memory from a hard disk (or other storage device) constituting the storage unit 3 to control the microprocessor. When the program is introduced into the hard disk, a computer-readable recording medium such as a CD-ROM or DVD-ROM (not shown) is used. For example, the program stored in the CD-ROM in a compressed state is introduced into the hard disk in an executable state by operating a setup program stored in the executable state in the CD-ROM. (Installed).

通信部4は、辞書サーバ6やその他の複数のコンピュータ(典型的には電子文書である文書ファイルの作成や印刷等を行う装置、以下「文書作成装置」という)、または図示されないネットワークプリンタ等と通信するために使用されるNIC(Network Interface Card)などであり、LAN(Local Area Network)9に対して相互通信可能に接続される。ここで、他のコンピュータである文書作成装置において作成された文書ファイルは、通信部4を介して記憶部3に蓄積され、文書管理サーバ27によって管理される。   The communication unit 4 includes a dictionary server 6 and a plurality of other computers (typically a device that creates and prints a document file that is an electronic document, hereinafter referred to as a “document creation device”), a network printer (not shown), and the like A NIC (Network Interface Card) used for communication is connected to a LAN (Local Area Network) 9 so as to be able to communicate with each other. Here, the document file created in the document creation apparatus which is another computer is accumulated in the storage unit 3 via the communication unit 4 and managed by the document management server 27.

なお、LAN9に代えて他の周知の通信ネットワーク(例えばインターネットや専用通信回線など)が使用されてもよく、また通信ネットワークを介することなく辞書などのデータをCD−Rなどのコンピュータ読み取り可能な記録媒体等を介することにより、専門家抽出装置5、辞書サーバ6、または他のコンピュータである文書作成装置などの間でデータがやりとりされてもよい。このように、通信部4はデータの提供手段および受け取り手段として機能する。   It should be noted that another known communication network (for example, the Internet or a dedicated communication line) may be used in place of the LAN 9, and data such as a dictionary can be read by a computer such as a CD-R without using the communication network. Data may be exchanged between the expert extraction device 5, the dictionary server 6, or another computer, such as a document creation device, via a medium or the like. Thus, the communication unit 4 functions as a data providing unit and a receiving unit.

暗号処理部41は、上記通信部4およびLAN9を介して、辞書サーバ6へ後述する未知語データ等を送信しまたは辞書サーバ6から最新の専門語辞書および専門分野データベース(以下「専門語辞書等」という)を受信する際に所定の暗号化処理または復号化処理を行う。詳しくは後述する。なお、辞書サーバ6等とのデータのやりとりは、各種記録媒体等を介してなされもよいことは前述したとおりである。この暗号処理部41も、データの提供手段および受け取り手段として機能する。   The encryption processing unit 41 transmits unknown word data, which will be described later, to the dictionary server 6 via the communication unit 4 and the LAN 9, or the latest technical language dictionary and specialized field database (hereinafter referred to as “technical language dictionary, etc.”) from the dictionary server 6. ”), A predetermined encryption process or decryption process is performed. Details will be described later. As described above, data exchange with the dictionary server 6 and the like may be performed via various recording media and the like. The encryption processing unit 41 also functions as data providing means and receiving means.

ネットワークモニタ26は、通信部4が接続されているネットワークであるLAN9を流れる文書ファイルや、文書のイメージファイルなどの電子文書を取得する。通信部4により取得されたパケットが文書ファイルに関するパケットである場合、ネットワークモニタ26は、文書ファイルに関する各パケットのデータロード部から文字コードを抽出し、対応する文書ファイル(すなわち文書データ自体の情報や当該ファイルの作成・編集者などを表す情報を含む文書データの付随情報を含むファイル)を再構成する。再構成された文書ファイルは、専門語抽出部21、使用者特定部22、および文書管理サーバ27などに出力される。この文書ファイルに関するパケットは、例えば上記文書作成装置で作成された文書ファイルを専門家抽出装置の記憶部3に格納しようとする際にLAN9に流れるパケットや、作成されたメールをメールサーバにスプールしようとする際に流れるパケットなどである。   The network monitor 26 acquires an electronic document such as a document file that flows through the LAN 9 that is a network to which the communication unit 4 is connected and an image file of the document. When the packet acquired by the communication unit 4 is a packet related to a document file, the network monitor 26 extracts a character code from the data load unit of each packet related to the document file, and the corresponding document file (that is, information on the document data itself or The file including the accompanying information of the document data including information representing the creator / editor of the file is reconstructed. The reconstructed document file is output to the technical term extraction unit 21, the user identification unit 22, the document management server 27, and the like. Packets relating to the document file are, for example, packets that flow to the LAN 9 when trying to store the document file created by the document creation device in the storage unit 3 of the expert extraction device, or spool the created mail to the mail server. The packet that flows when

また、通信部4により取得されたパケットが文書のイメージファイルに関するパケットである場合、ネットワークモニタ26は、イメージファイルに関する各パケットのデータロード部から文書のイメージデータを抽出し、対応するイメージファイル(すなわちイメージデータ自体や当該イメージデータの作成・編集者を表す情報などの付随情報を含むファイル)を再構成する。再構成されたイメージファイルは、文字認識部25および使用者特定部22に出力される。イメージファイルに関するパケットは、例えば上記文書作成装置で作成されたイメージファイルを専門家抽出装置5の記憶部3に格納しようとする際に流れるパケットや、文書作成装置で作成されたイメージファイルを図示されないネットワークプリンタにより印刷しようとする際に流れるパケット、図示されないネットワークスキャナにより読み込まれたイメージファイルを専門家抽出装置5の記憶部3に格納しようとする際に流れるパケットなどである。   When the packet acquired by the communication unit 4 is a packet related to the image file of the document, the network monitor 26 extracts the image data of the document from the data load unit of each packet related to the image file, and the corresponding image file (that is, The image data itself and a file including accompanying information such as information representing the creator / editor of the image data are reconstructed. The reconstructed image file is output to the character recognition unit 25 and the user identification unit 22. Packets relating to image files are not illustrated, for example, packets that flow when an image file created by the document creation device is stored in the storage unit 3 of the expert extraction device 5 or image files created by the document creation device. Packets that flow when trying to print by a network printer, packets that flow when trying to store an image file read by a network scanner (not shown) in the storage unit 3 of the expert extraction device 5, and the like.

文字認識部25は、所定の文字切出モジュールおよび文字認識用辞書を備え、所定の文字認識エンジンにより文字認識を行う周知の構成である。この文字認識部25に文書のイメージファイルが供給されると、文字切出モジュールによってイメージファイルのうち文字と想定される部分が文字イメージとして切り出される。文字認識エンジンは、文字切出モジュールによって切り出された文字イメージに対して、文字認識用辞書を参照して文字認識を行うことにより、イメージデータを文字コードに変換する。こうしてイメージファイルから文書ファイルが構築される。構築された文書ファイルは、専門語抽出部21や、文書管理サーバ27に供給される。なお、文字認識部25に供給されるイメージファイルは、ネットワークモニタ26から取得されるが、専門家抽出装置5に(ローカル)接続されたスキャナ51等から取り込まれたものであってもよい。   The character recognition unit 25 includes a predetermined character extraction module and a character recognition dictionary, and has a known configuration in which character recognition is performed by a predetermined character recognition engine. When an image file of a document is supplied to the character recognition unit 25, the character extraction module extracts a portion assumed to be a character from the image file as a character image. The character recognition engine converts the image data into a character code by performing character recognition on the character image cut out by the character cut-out module with reference to the character recognition dictionary. Thus, a document file is constructed from the image file. The constructed document file is supplied to the technical term extraction unit 21 and the document management server 27. The image file supplied to the character recognition unit 25 is acquired from the network monitor 26, but may be acquired from the scanner 51 or the like connected (locally) to the expert extraction device 5.

専門語抽出部21は、ネットワークモニタ26や文字認識部25から供給された文書ファイルに含まれる専門語を、記憶部3に登録されている一般単語辞書34や専門語辞書35を参照することにより抽出する。なお、この文書ファイルは専門家抽出装置5において作成されたものであってもよく、必ずしもネットワークモニタ26や文字認識部25などを介して得られるものでなくてよい。例えば、本専門家抽出装置5がネットワークなどに接続されない場合、この文書ファイルは専門家抽出装置5において作成され、または他の文書作成装置から所定の記憶媒体を介して与えられる。   The technical term extraction unit 21 refers to the general word dictionary 34 and the technical term dictionary 35 registered in the storage unit 3 for technical terms included in the document file supplied from the network monitor 26 or the character recognition unit 25. Extract. The document file may be created by the expert extraction device 5 and may not necessarily be obtained via the network monitor 26, the character recognition unit 25, or the like. For example, when the expert extraction device 5 is not connected to a network or the like, the document file is created in the expert extraction device 5 or is given from another document creation device via a predetermined storage medium.

専門語抽出部21により参照される上記一般単語辞書34や専門語辞書35は、所定の見出し語やその品詞などが、各単語を識別するための固有のキー(Key)を付されて登録されている。この一般単語辞書34には、例えば、「さらに」、「ディスク」、「家電」、「漢字」、「表現」などといった日常的に用いられる単語が登録される。これらの単語は、社会生活上必要な知識があればそれほど理解に困難性がない単語などであるため、一般単語辞書34は専門語でない単語の集まりとなるが、専門語を含んでいてもよい。また、これらの単語は、文章を構成する上で必要となる接続詞なども含まれている。次に専門語辞書35について説明する。   The general word dictionary 34 and the technical word dictionary 35 referred to by the technical word extraction unit 21 are registered with a predetermined headword, its part of speech, etc., with a unique key (Key) for identifying each word. ing. In this general word dictionary 34, for example, words that are used on a daily basis such as “further”, “disc”, “home appliance”, “kanji”, “expression”, and the like are registered. Since these words are words that are not difficult to understand if there is knowledge necessary for social life, the general word dictionary 34 is a collection of words that are not technical terms, but may include technical terms. . These words also include conjunctions and the like necessary for composing sentences. Next, the technical language dictionary 35 will be described.

図2は専門語辞書に対して或る未知語が登録される例を説明するための図であり、より詳細には、図2(a)は未知語が登録される前の専門語辞書の一部を例示する図であり、図2(b)は、図2(a)に示される専門語に対して、未知語が登録された後の専門語辞書を示す図である。   FIG. 2 is a diagram for explaining an example in which a certain unknown word is registered in the technical word dictionary. More specifically, FIG. 2A shows the state of the technical word dictionary before the unknown word is registered. FIG. 2B is a diagram illustrating a part, and FIG. 2B is a diagram illustrating a jargon dictionary after unknown words are registered with respect to the jargon shown in FIG.

図2(a)に示されるように、この専門語辞書35には、例えば、「EUC」、「SED/sed」、「ディスクアレイ」、「ユニコード」、「情報家電」、「正規表現」といった専門語が登録されている。これらの専門語は、コンピュータや半導体など技術に関わる専門語や、絵画や音楽など芸術に関わる専門語など、日常的に用いられることが少ない専門的な知識を前提として使用される単語である。この専門語は、装置の利用者が所望する専門知識を考慮して予め設定される。したがって、専門語辞書35は、専門家を抽出するために役立つ一般単語等を含んでいてもよく、その内容に特別な限定はない。   As shown in FIG. 2A, the technical term dictionary 35 includes, for example, “EUC”, “SED / sed”, “disk array”, “Unicode”, “information home appliance”, “regular expression”, and the like. Technical terms are registered. These technical terms are words that are used on the premise of specialized knowledge that is rarely used on a daily basis, such as technical terms such as computers and semiconductors, and technical terms such as painting and music. This technical term is set in advance in consideration of specialized knowledge desired by the user of the apparatus. Therefore, the technical term dictionary 35 may include general words that are useful for extracting specialists, and there is no particular limitation on the contents thereof.

専門語抽出部21は、以上のような一般単語辞書34および専門語辞書35を参照して周知の形態素解析を行うことにより、文書ファイルから専門語辞書35に登録されている専門語を抽出し、または一般単語辞書34および専門語辞書35のいずれにも登録されていない未知語を抽出する。   The technical term extraction unit 21 extracts a technical term registered in the technical term dictionary 35 from the document file by performing a well-known morphological analysis with reference to the general word dictionary 34 and the technical term dictionary 35 as described above. Alternatively, unknown words that are not registered in either the general word dictionary 34 or the technical word dictionary 35 are extracted.

専門語抽出部21は、抽出された未知語を専門語辞書35および後述する使用者別単語データベース31に登録する。すなわち、未知語は、自動的に専門語であるとみなされる。これによって、新たに生まれてくる単語を専門語として登録する利用者の作業負担が軽減される。   The technical term extraction unit 21 registers the extracted unknown words in the technical term dictionary 35 and a user-specific word database 31 described later. That is, the unknown word is automatically regarded as a technical term. This reduces the work burden on the user who registers a newly born word as a technical term.

図2(b)では、図2(a)に示される専門語に対して、新たに「第3水準」という未知語が登録された専門語辞書が示されている。この図に示されるように、未知語は予め登録された専門語と同様に登録される。なお、未知語は、専門語として取り扱われるような形式すなわち専門語として抽出され集計対象となる形式であれば、専門辞書以外のデータ形式(例えば未知語辞書などの形式)で登録されてもよい。   FIG. 2B shows a technical term dictionary in which an unknown word “third level” is newly registered for the technical term shown in FIG. As shown in this figure, unknown words are registered in the same manner as technical words registered in advance. The unknown word may be registered in a data format other than the professional dictionary (for example, a format such as an unknown word dictionary) as long as it is a format that is treated as a technical word, that is, a format that is extracted as a technical word and is a target of aggregation. .

また、専門語抽出部21は、この未知語を、当該未知語を含む文章(ここでは未知語を包含する一文を含む段落全体の文字列)とともに未知語データ36として専門語辞書35とは別に記憶部3に記憶され、未知語切り出し箇所設定部28により所定のタイミングで辞書サーバ6に送信される。なお、上記のように記憶される未知語を含む文章は、未知語の意味を解析するために使用可能であれば、その範囲に限定はない。   Further, the technical word extraction unit 21 separates the unknown word from the technical word dictionary 35 as unknown word data 36 together with a sentence including the unknown word (here, a character string of a whole paragraph including a sentence including the unknown word). It is stored in the storage unit 3 and transmitted to the dictionary server 6 at a predetermined timing by the unknown word cut-out location setting unit 28. In addition, if the sentence containing the unknown word memorize | stored as mentioned above can be used in order to analyze the meaning of an unknown word, there will be no limitation in the range.

未知語切り出し箇所設定部28は、上記未知語データ36に含まれる文章(文字列)のうち利用者の選択により辞書サーバ6への送信が許可された部分と、当該未知語とを新たな未知語データ36として切り出し、切り出された未知語データ36を辞書サーバ6に送信する。このように、未知語切り出し箇所設定部28は、通信部4とともにデータの提供手段として機能する。この未知語切り出し箇所設定部28の詳しい動作については後述する。   The unknown word cut-out location setting unit 28 sets a part of the sentence (character string) included in the unknown word data 36 that is permitted to be transmitted to the dictionary server 6 by the user's selection and the unknown word as a new unknown. The word data 36 is cut out and the unknown word data 36 cut out is transmitted to the dictionary server 6. As described above, the unknown word cutout location setting unit 28 functions as a data providing unit together with the communication unit 4. Detailed operation of the unknown word cutout location setting unit 28 will be described later.

未知語最適化処理部29は、辞書サーバ6から最新の専門語辞書等を受け取り、受け取った専門語辞書等に基づき、未知語(新たな専門語)および当該未知語に対応づけられた集計値を使用者別単語データベース31に反映させる最適化処理を行う。このように、未知語最適化処理部29は、通信部4とともにデータの受け取り手段として機能する。この未知語最適化処理部29の詳しい動作についても後述する。   The unknown word optimization processing unit 29 receives the latest technical word dictionary and the like from the dictionary server 6, and based on the received technical word dictionary and the like, an unknown word (new technical word) and a total value associated with the unknown word Is optimized in the word database 31 for each user. As described above, the unknown word optimization processing unit 29 functions as a data receiving unit together with the communication unit 4. Detailed operation of the unknown word optimization processing unit 29 will also be described later.

使用者特定部22は、専門語抽出部21により専門語が抽出される文書ファイルまたは対応する文書のイメージファイルから、当該ファイルの作成者や編集者、所有者など、当該ファイルに関連がある者、すなわち専門語抽出部21により抽出される専門語に関連が認められる者(以下、この者を「専門語の使用者」または単に「使用者」という)を特定する。なお、この専門語の使用者の特定は、当該ファイルの付随情報に基づき行われるが、当該ファイルを作成した文書作成装置の利用者を検知することにより行われてもよいし、文書の内容を解析することにより行われてもよい。このように使用者特定部22により特定された(専門語の)使用者と、専門語抽出部21により抽出された当該専門語とは、互いに対応付けられた状態で記憶部3に登録される。   The user specifying unit 22 is a person related to the file, such as a creator, an editor, or an owner of the file from the document file from which the technical word is extracted by the technical word extraction unit 21 or the image file of the corresponding document. That is, a person who is recognized to be related to the technical term extracted by the technical term extraction unit 21 (hereinafter, this person is referred to as “user of technical term” or simply “user”) is specified. Although the user of the technical term is specified based on the accompanying information of the file, it may be performed by detecting the user of the document creation apparatus that created the file, It may be performed by analyzing. Thus, the user (of technical terms) specified by the user specifying unit 22 and the technical terms extracted by the technical term extraction unit 21 are registered in the storage unit 3 in a state of being associated with each other. .

集計部23は、記憶部3に登録された専門語とその使用者との対応関係を参照しながら、専門語抽出部21により抽出された各専門語が、使用者特定部22により特定された各使用者に関係付けられた回数(抽出回数)を集計することにより、記憶部3に使用者別単語データベース31を構築する。   The totaling unit 23 identifies each technical term extracted by the technical term extraction unit 21 by the user specifying unit 22 while referring to the correspondence relationship between the technical term registered in the storage unit 3 and its user. The user-specific word database 31 is constructed in the storage unit 3 by counting the number of times (number of extractions) associated with each user.

なお、集計部23は、使用者特定部22により特定された各使用者に関係付けられる割合(または頻度)を集計してもよいし、関連性の度合いを示す指数や順位などを付してもよい。このような集計部23は、抽出回数、抽出割合、指数、順位などおよそ専門語とその使用者との関連性を示す数値、すなわち専門語の使用者が当該専門語についてどの程度の専門家であるかを示すまたは推測させる数値(以下「関連度数」という)を決定すればよい。   In addition, the totaling unit 23 may total the ratio (or frequency) related to each user specified by the user specifying unit 22, or attach an index or rank indicating the degree of relevance. Also good. Such a totaling unit 23 is a numerical value indicating the relevance between a technical term and its user, such as the number of extractions, the extraction ratio, the index, and the ranking, that is, how many experts the technical term user has for the technical term. What is necessary is just to determine the numerical value (henceforth "relevance frequency") which shows or guesses.

図3は、集計部23により記憶部3に構築される使用者別単語データベース31の具体例を示す図である。図3に示すように、使用者別単語データベース31の見出しは、専門語またはそれに相当する語や記号などによって与えられる。各専門語に対して、「田中」、「高橋」、「中村」といった各使用者毎に、各専門語と各使用者とが文書ファイルやイメージファイルによって対応付けられた回数(抽出回数)が集計されている。例えば、「ミラーディスク」という専門語は、「田中」によって180回、「高橋」によって18回、「中村」によって8回使用されていることが示されている。また、「EUC」という専門語は、「田中」によって8回、「高橋」によって149回、「中村」によって100回使用されていることが示されている。さらに、「正規表現」という専門語は、「田中」によって6回、「高橋」によって18回、「中村」によって116回使用されていることが示されている。   FIG. 3 is a diagram illustrating a specific example of the user-specific word database 31 constructed in the storage unit 3 by the counting unit 23. As shown in FIG. 3, the headings of the user-specific word database 31 are given by technical terms or equivalent words or symbols. For each technical term, for each user such as “Tanaka”, “Takahashi”, and “Nakamura”, the number of times each technical term and each user are associated by the document file or image file (number of extractions) It is tabulated. For example, the term “mirror disk” is used 180 times by “Tanaka”, 18 times by “Takahashi”, and 8 times by “Nakamura”. Further, it is shown that the technical term “EUC” is used 8 times by “Tanaka”, 149 times by “Takahashi”, and 100 times by “Nakamura”. Furthermore, the term “regular expression” is used 6 times by “Tanaka”, 18 times by “Takahashi”, and 116 times by “Nakamura”.

なお、このような使用者別単語データベース31を構築する際、記憶部3に記憶される専門語とその使用者との上述した対応関係とは、例えば専門語の使用者が「田中」である文書ファイルにおいて、「ミラーディスク」という専門語が4回、「RAID」という専門語が5回抽出されたという事項を示すものである。   When the user-specific word database 31 is constructed, the above-described correspondence between the technical term stored in the storage unit 3 and the user is, for example, “Tanaka” as the technical language user. In the document file, the technical term “mirror disk” is extracted four times and the technical term “RAID” is extracted five times.

集計部23は、このような対応関係に基づき、「ミラーディスク」という専門語に対応する使用者「田中」の回数を4つ増加させ、「RAID」という専門語に対応する使用者「田中」の回数を5つ増加させるといった集計動作を行うことにより、使用者別単語データベース31を構築する。また、抽出回数以外の関連度数が使用される場合であっても同様に、所定の計算を行うことにより容易に集計できる。なお、この使用者別単語データベース31には、新たに専門語して取り扱われる未知語が含まれることについては前述したとおりである。また、辞書が更新(バージョンアップ)される場合における未知語の取り扱いについては後述する。   Based on this correspondence, the counting unit 23 increases the number of users “Tanaka” corresponding to the technical term “mirror disk” by four, and the user “Tanaka” corresponding to the technical term “RAID”. The user-specific word database 31 is constructed by performing a totaling operation such as increasing the number of times of. Similarly, even if a related frequency other than the number of extractions is used, it can be easily tabulated by performing a predetermined calculation. As described above, the user-specific word database 31 includes unknown words that are newly handled as technical terms. The handling of unknown words when the dictionary is updated (upgraded) will be described later.

文書管理サーバ27は、専門語抽出部21および使用者特定部22によって、或る文書ファイルについての専門語とその使用者との対応関係が定められたとき、文書ファイルおよびイメージファイルのデータまたはその付随情報などに含まれる文書ファイルやイメージファイルの所在を示す原典ポインタを作成することにより、文書データベース33を構築する。なお、原典にあたる必要がないときには上記原点ポインタを作成する必要はなく、さらに文書管理サーバ27を省略してもよい。   When the technical term extraction unit 21 and the user specifying unit 22 determine the correspondence between a technical term for a certain document file and its user, the document management server 27 stores the data of the document file and the image file or the The document database 33 is constructed by creating a source pointer indicating the location of the document file or image file included in the accompanying information. When there is no need to correspond to the original document, it is not necessary to create the origin pointer, and the document management server 27 may be omitted.

図4は、専門分野データベース32の構成を説明するための図である。図4に示されるように、この専門分野データベース32には、専門知識の種類等を示す専門分野と専門語の見出しとの予め定められた対応関係が登録されている。例えば、「HDD分散多重化」という専門分野には、「RAID」、「ディスクアレイ」、「ミラーディスク」といった専門語が対応づけられて分類されている。また、「文字コード標準化」という専門分野には、「EUC」、「シフトJIS」、「ユニコード」、「外字登録」、「第3水準」といった専門語が分類されている。   FIG. 4 is a diagram for explaining the configuration of the specialized field database 32. As shown in FIG. 4, in this specialized field database 32, a predetermined correspondence between a specialized field indicating the type of specialized knowledge and the like and a headline of the technical term is registered. For example, the technical field “HDD distributed multiplexing” is classified in association with technical terms such as “RAID”, “disk array”, and “mirror disk”. In addition, in the specialized field of “character code standardization”, technical terms such as “EUC”, “Shift JIS”, “Unicode”, “External character registration”, and “Third level” are classified.

ここで集計部23は、専門語についてだけでなく、専門分野データベース32に登録されている各専門分野についても集計を行うことにより、使用者別単語データベース31を構築する。専門分野データベース32では、前述のように「RAID」、「ディスクアレイ」などといった専門語が「HDD分散多重化」という専門分野に分類されており、「RAID」、「ディスクアレイ」などといった各専門語に対応する各使用者毎に抽出回数がわかることから、各専門分野に分類される各専門語についての上記抽出回数の総和を求めることにより、各専門分野に対応する各使用者別の抽出回数を定めることができる。   Here, the totaling unit 23 constructs the user-specific word database 31 by performing totaling not only for the technical terms but also for each specialized field registered in the specialized field database 32. In the specialized field database 32, as described above, the technical terms such as “RAID” and “disk array” are classified into the specialized field “HDD distributed multiplexing”, and each specialized field such as “RAID” and “disk array”. Since the number of times of extraction is known for each user corresponding to a word, by extracting the sum of the number of times of extraction for each technical word classified into each specialized field, extraction for each user corresponding to each specialized field is performed. The number of times can be determined.

なお、使用者別単語データベース31や文書データベース33は、比較的頻繁に更新されることが好ましい。更新回数が増加するほど、専門知識の深さや経験の多さといった専門家として専門語に対する詳しさの程度と抽出回数(関連度数)との対応関係が明確になり、また新たな人物が加わったり、増加する未知語への対応が可能となるからである。これに比べて、専門分野データベース32を更新する頻度は少なくてよい。専門分野と専門語との対応関係はある程度安定しているからである。この更新は、例えば未知語が現れたり、用法が変わった場合に行えば足りる。   The user-specific word database 31 and the document database 33 are preferably updated relatively frequently. As the number of updates increases, the relationship between the degree of detail of technical terms and the number of extractions (relevance frequency) becomes clearer as specialists with deeper expertise and more experience, and new people are added. This is because it is possible to cope with an increasing number of unknown words. Compared to this, the frequency of updating the specialized field database 32 may be small. This is because the correspondence between specialized fields and technical terms is stable to some extent. For example, this update may be performed when an unknown word appears or the usage changes.

<2. 専門家抽出装置の検索動作>
次に、装置の利用者により専門語や専門分野が指定され検索が行われる場合の専門家抽出装置5の動作について説明する。なお、指定された専門語が未知語である場合、この未知語は所定のタイミングで専門家抽出装置5から辞書サーバ6に送信されるが、この動作については後述する。まず、装置の利用者は、ユーザI/F装置1に含まれるキーボードやマウスなどを使用することにより、所望する専門知識や経験に関する情報に対応した専門語(または専門分野)を入力する。この場合、ユーザI/F装置1は入力手段として機能する。
<2. Search operation of expert extraction device>
Next, the operation of the expert extraction device 5 when a specialized word or a specialized field is designated by the user of the device and a search is performed will be described. When the designated technical word is an unknown word, this unknown word is transmitted from the expert extraction device 5 to the dictionary server 6 at a predetermined timing. This operation will be described later. First, the user of the device uses a keyboard, a mouse, or the like included in the user I / F device 1 to input a jargon (or a specialized field) corresponding to information regarding desired specialized knowledge and experience. In this case, the user I / F device 1 functions as an input unit.

装置の利用者によって入力された専門語は、検索部24に供給される。専門語が供給されると、検索部24は、使用者別単語データベース31の検索を行う。すなわち使用者別単語データベース31において、供給された専門語と一致しまたは類似する専門語を探索し、専門語と一致しまたは類似する専門語が探索された場合、当該専門語に関連付けられた使用者を抽出する。例えば装置の利用者によって「PERL」という専門語が入力された場合、検索部24は、「…、使用者「田中」0回、…、使用者「高橋」15回、使用者「中村」163回、…」というような検索結果を得る。このような検索結果が得られると、検索部24は、例えば回数の多い順に上記検索結果をソートし、ユーザI/F装置1のディスプレイにソートされた検索結果を表示させる。上記の例において、ユーザI/F装置1のディスプレイに表示される検索結果は、「使用者「中村」163回、…使用者「高橋」15回、…、使用者「田中」0回、…」というようなものである。この結果を参照すれば、入力された専門語に対して専門知識が深く経験が多いのは使用者「中村」である可能性が高いということを、装置の利用者は容易に判断することができる。よって、装置の利用者は、後にこの使用者「中村」に直接尋ねるなどすれば、高い確率で所望の知識や情報などを得ることができる。   The technical terms input by the user of the apparatus are supplied to the search unit 24. When the technical language is supplied, the search unit 24 searches the user-specific word database 31. That is, in the word database 31 for each user, when a technical term that matches or is similar to the supplied technical term is searched and a technical term that matches or is similar to the technical term is searched, the use associated with the technical term is used. Extract the person. For example, when the term “PERL” is input by the user of the apparatus, the search unit 24 reads “..., user“ Tanaka ”0 times,..., User“ Takahashi ”15 times, user“ Nakamura ”163. Search results like " When such search results are obtained, the search unit 24 sorts the search results in descending order, for example, and displays the sorted search results on the display of the user I / F device 1. In the above example, the search results displayed on the display of the user I / F device 1 are “user“ Nakamura ”163 times, user“ Takahashi ”15 times,..., User“ Tanaka ”0 times,. Is like that. By referring to this result, the user of the device can easily determine that the user “Nakamura” is highly likely to have deep expertise and experience in the input technical term. it can. Therefore, the user of the apparatus can obtain desired knowledge and information with a high probability by directly asking this user “Nakamura” later.

もっとも、上記のように特定した使用者の都合などにより、装置の利用者はこの使用者に直接尋ねることができない場合も考えられ、また使用者だけでなく、使用者が専門語を使用した文書ファイル自体を知りたい場合も考えられる。この場合、装置の利用者が専門語を入力する際、ユーザI/F装置1において、文書ファイル自体の所在を知りたい旨を指定することが可能なように構成される。例えば、文書ファイル自体の所在を知りたいか否かについて装置の利用者による二者択一の選択が可能なオブジェクト画面が検索画面などに表示されるよう構成される。このように専門語が入力される際、装置の利用者によって文書ファイル自体の所在を知りたい旨が指定されている場合、専門語によって特定された使用者と、専門語とに基づき、検索部24は、文書データベース33を検索する。この文書データベース33には、専門語に対応付けられて、使用者や文書ファイル自体の所在を示す原典ポインタが記憶されている。したがって、検索部24は、特定された使用者と、専門語とに基づき、対応する原典ポインタを抽出することができる。そして、例えば使用者「田中」が「ディスクアレイ」という専門語を使用した文書ファイルの原典が「週報1999/02/18」であることが、ユーザI/F装置1のディスプレイに表示される。装置の利用者は、この原典ポインタを参考にすることにより、文書ファイル自体の所在を容易に把握することができ、特定した使用者に直接知識や情報を尋ねる必要性も少なくなる。   However, it is possible that the user of the device may not be able to ask this user directly due to the circumstances of the user specified as above, and not only the user but also a document in which the user uses the technical language. You may want to know the file itself. In this case, when the user of the apparatus inputs a technical term, the user I / F apparatus 1 can be configured to specify that the user wants to know the location of the document file itself. For example, an object screen that can be selected by the user of the apparatus as to whether or not the user wants to know the location of the document file itself is displayed on a search screen or the like. When a technical term is input in this way and the user of the device specifies that the user wants to know the location of the document file itself, the search unit is based on the user identified by the technical term and the technical term. 24 searches the document database 33. The document database 33 stores original pointers indicating the locations of users and document files themselves in association with technical terms. Therefore, the search unit 24 can extract the corresponding source pointer based on the identified user and the technical term. Then, for example, it is displayed on the display of the user I / F device 1 that the original of the document file in which the user “Tanaka” uses the technical term “disk array” is “weekly report 1999/02/18”. By referring to the original pointer, the user of the apparatus can easily grasp the location of the document file itself, and the necessity of directly asking knowledge and information from the specified user is reduced.

また、装置の利用者がそれほど専門語を知らない場合には、専門分野を用いて検索を行うことも可能である。専門分野の概念は、各専門語よりも広く、専門語の数よりも専門分野の数の方がかなり少なくなるため、「HDD分散多重化」といった専門分野を装置の利用者に入力させるのではなく、複数の専門分野を選択肢として表示し、装置の利用者にいずれかを選択させるようにすることも容易である。この場合、専門分野を規定する特定の用語を知らなくても、言葉の意味から所望の知識や情報に近い専門分野を指定することが可能となる。例えばこの場合、装置の利用者は、ユーザI/F装置1に含まれるキーボードやマウスなどを使用することにより、所望する専門知識や経験に関する情報に対応した専門分野を表示された選択肢から選択する。   In addition, when the user of the apparatus does not know so much technical terms, it is possible to perform a search using a specialized field. The concept of a specialized field is wider than each specialized term, and the number of specialized fields is considerably smaller than the number of specialized terms. Therefore, it is difficult to let the device user input specialized fields such as “HDD distributed multiplexing”. It is also easy to display a plurality of specialized fields as options and allow the user of the apparatus to select one of them. In this case, it is possible to designate a specialized field close to desired knowledge and information from the meaning of the word without knowing a specific term that defines the specialized field. For example, in this case, the user of the device uses a keyboard, a mouse, or the like included in the user I / F device 1 to select a specialized field corresponding to information on the desired expertise or experience from the displayed options. .

なお、LAN9上では、同じ文書が何回も通信されることがある。このような同じ文書について繰り返し専門語の集計処理を行うと、使用者が実際に専門語を使用した回数と集計処理した回数との間に乖離が生じてしまい、ある専門語に対応する深い見識を持つ人物について装置の利用者の判断を誤らせる可能性が高くなる。例えば、文書作成装置からメールを送信して図示されないメールサーバにスプールし、スプールされた同じメールが他の文書作成装置に受信されるような場合である。そこで、例えばネットワークモニタ26は、文書ファイルやイメージファイルの発信元の情報(例えばIPアドレス)を取得し、その発信元がメールサーバなどの各種サーバである場合には、集計処理を行う対象としての文書ファイルとして取得しない。そして文書ファイルがクライアントから送信された場合にのみ文書ファイルの取得を行えば、同じ文書について集計を重複して行うことが防止され、検索結果の信頼性をより高めることができる。   On the LAN 9, the same document may be communicated many times. If you repeat the process of counting technical terms for these same documents, there will be a discrepancy between the number of times the user actually used the technical terms and the number of times the totals were processed. There is a high possibility that the user of the apparatus will make a mistake in the determination of the person who has. For example, a mail is sent from a document creation apparatus and spooled to a mail server (not shown), and the same spooled mail is received by another document creation apparatus. Therefore, for example, the network monitor 26 acquires information (for example, an IP address) of a document file or an image file, and when the transmission source is a server such as a mail server, Not acquired as a document file. If the document file is acquired only when the document file is transmitted from the client, it is possible to prevent the same document from being repeatedly counted and to further increase the reliability of the search result.

以上のようにネットワークモニタ26は、LAN9を流れる文書ファイル等を取得するが、この文書ファイル等に専門語辞書35にない未知語が含まれる場合、この未知語は、専門語抽出部21により抽出されて未知語データ36として記憶され、所定のタイミングで未知語切り出し箇所設定部28により辞書サーバ6に送信される。この専門家抽出装置5から送信される未知語は、辞書サーバ6において受信され、辞書サーバ6はこの未知語について所定の処理を行った後、新しいバージョンの専門語辞書等を作成し、専門家抽出装置5に送信する。この辞書サーバ6の構成について再び図1を参照して説明する。   As described above, the network monitor 26 obtains a document file or the like flowing through the LAN 9. If this document file contains an unknown word that is not in the technical term dictionary 35, the unknown word is extracted by the technical term extraction unit 21. And stored as unknown word data 36 and transmitted to the dictionary server 6 by the unknown word cutout location setting unit 28 at a predetermined timing. The unknown word transmitted from the expert extraction device 5 is received by the dictionary server 6, and the dictionary server 6 performs a predetermined process on the unknown word and then creates a new version of the specialized word dictionary and the like. It transmits to the extraction device 5. The configuration of the dictionary server 6 will be described again with reference to FIG.

<3. 辞書サーバの構成および動作>
図1に示される辞書提供装置である辞書サーバ6は、演算処理部、記憶部7、および通信部8などの一般的な構成を有するコンピュータにより実現される。このコンピュータである辞書サーバ6の演算処理部は、所定のプログラムの制御に従って、顧客データ評価部61、専門語解析部62、データ管理部63、データ配布部64、および暗号処理部81として機能する。なお、辞書サーバ6は、辞書を提供する機能を有する装置であれば、クライアントサーバシステムにおけるサーバに限定されない。
<3. Configuration and operation of dictionary server>
The dictionary server 6 that is the dictionary providing apparatus shown in FIG. 1 is realized by a computer having a general configuration such as an arithmetic processing unit, a storage unit 7, and a communication unit 8. The arithmetic processing unit of the dictionary server 6 as a computer functions as a customer data evaluation unit 61, a technical term analysis unit 62, a data management unit 63, a data distribution unit 64, and an encryption processing unit 81 according to control of a predetermined program. . The dictionary server 6 is not limited to a server in the client server system as long as it is a device having a function of providing a dictionary.

この演算処理部は、専門家抽出装置5における演算処理部2と同様、例えばコンピュータのCPUとして動作するマイクロプロセッサであり、このマイクロプロセッサには、各種演算処理の際に用いられるメモリが接続される。演算処理部における上記各機能を実現するプログラムは、記憶部7を構成するハードディスク(またはその他の記憶装置)からメモリに読み込まれ、マイクロプセッサを制御する。このハードディスクにプログラムを導入するには、専門家抽出装置5の場合と同様、図示されないCD−ROMやDVD−ROMなどのコンピュータ読み取り可能な記録媒体が使用される。   This arithmetic processing unit is, for example, a microprocessor that operates as a CPU of a computer, like the arithmetic processing unit 2 in the expert extraction device 5, and a memory used for various arithmetic processing is connected to the microprocessor. . A program for realizing the above functions in the arithmetic processing unit is read into a memory from a hard disk (or other storage device) constituting the storage unit 7 and controls the microprocessor. In order to introduce the program into the hard disk, a computer-readable recording medium such as a CD-ROM or DVD-ROM (not shown) is used as in the case of the expert extraction device 5.

また、記憶部7には、顧客別課金データベース(顧客別課金DB)72、専門分野データベース(専門分野DB)74、およびバージョンデータベース(バージョンDB)75が構築されており、また、参照用課金率データ71および専門語辞書73が記憶されている。この記憶部7は、典型的にはハードディスクドライブ装置であるが、これに限られるものではない。もっともこの記憶部7は、比較的大容量で高速動作が可能な記憶装置であることが好ましい。   The storage unit 7 includes a customer-specific charging database (customer-based charging DB) 72, a specialized field database (specialized field DB) 74, and a version database (version DB) 75, and a reference charging rate. Data 71 and a technical language dictionary 73 are stored. The storage unit 7 is typically a hard disk drive device, but is not limited thereto. However, the storage unit 7 is preferably a storage device that has a relatively large capacity and can operate at high speed.

なお、本実施形態の辞書サーバ6では、例えばキーボード、マウス、ディスプレイ、プリンタなどのユーザI/F装置が省略されているが、辞書サーバ6の利用者のためにこれが備えられていてもよい。   In the dictionary server 6 of the present embodiment, user I / F devices such as a keyboard, a mouse, a display, and a printer are omitted, but may be provided for users of the dictionary server 6.

通信部8は、専門家抽出装置5やその他の複数のコンピュータである文書作成装置等と通信するために使用されるNICなどであり、LAN9に対して相互通信可能に接続される。なお、図1では、1つの専門家抽出装置5のみが辞書サーバ6と接続される構成が示されているが、実際には複数の専門家抽出装置5が辞書サーバ6と接続されているものとする。   The communication unit 8 is a NIC that is used to communicate with the expert extraction device 5 and other document creation devices such as a plurality of computers, and is connected to the LAN 9 so as to be capable of mutual communication. FIG. 1 shows a configuration in which only one expert extraction device 5 is connected to the dictionary server 6, but actually a plurality of expert extraction devices 5 are connected to the dictionary server 6. And

暗号処理部81は、上記通信部8およびLAN9を介して、専門家抽出装置5から前述した未知語等を受信しまたは専門家抽出装置5へ最新の専門語辞書等を送信する際に所定の暗号化処理または復号化処理を行う。この暗号化処理および復号化処理は、いわゆる公開鍵暗号方式によりなされる。この公開鍵暗号方式は、他人に広く公開する公開鍵と本人のみが保管する秘密鍵という対となる2つの鍵を使用することにより、特定の送信者と受信者との間で通信内容を他者に知られることなく安全に通信することができる環境を提供する。例えば、一般的な公開鍵サーバや辞書サーバ6に登録された専門家抽出装置5に対応する公開鍵を使用して暗号化されたデータ(ここでは最新の専門語辞書等)は、当該専門家抽出装置5に厳重に保管された秘密鍵を使用することによってのみ復号化することができるので、その代価を支払っていない第三者に最新の専門語辞書等を不正使用されることがない。   The cryptographic processing unit 81 receives a predetermined unknown word or the like from the expert extracting device 5 or transmits the latest technical word dictionary or the like to the expert extracting device 5 via the communication unit 8 and the LAN 9. Perform encryption or decryption. The encryption process and the decryption process are performed by a so-called public key cryptosystem. This public key cryptosystem uses a pair of keys, a public key that is widely disclosed to others and a private key that is stored only by the principal, thereby enabling communication between a specific sender and receiver. Provide an environment in which communication can be performed safely without being known to a person. For example, data encrypted using a public key corresponding to the expert extraction device 5 registered in a general public key server or dictionary server 6 (here, the latest technical language dictionary, etc.) Since the decryption can be performed only by using the secret key that is strictly stored in the extracting device 5, the latest technical language dictionary or the like is not illegally used by a third party who has not paid the price.

また、専門家抽出装置5における暗号処理部41においても同様に上記公開鍵暗号方式が使用される。例えば、一般的な公開鍵サーバや専門家抽出装置5に登録された辞書サーバ6に対応する公開鍵を使用して暗号化されたデータ(ここでは未知語および当該未知語を含む文章の全部または一部)は、辞書サーバ6に厳重に保管された秘密鍵を使用することによってのみ復号化することができるので、未知語や当該未知語を含む文章に含まれる守秘を要する事項を第三者に知られることがない。さらにこの場合には、専門家抽出装置5以外の他の複数の専門家抽出装置においてもすべて同じ(辞書サーバ6に対応する)公開鍵を使用することができるので、各専門家抽出装置に応じて個別に異なる公開鍵を設定することなく上記同一の公開鍵を予め設定すれば足り、また辞書サーバ6における鍵の管理も容易である。   Similarly, the public key cryptosystem is used in the cryptographic processor 41 in the expert extraction device 5. For example, data encrypted using a public key corresponding to a dictionary server 6 registered in a general public key server or expert extraction device 5 (here, all of unknown words and sentences including the unknown words or Can be decrypted only by using a secret key that is strictly stored in the dictionary server 6, so that an unknown word or a matter that requires confidentiality contained in a sentence containing the unknown word can be decrypted by a third party. Never known. Further, in this case, the same public key (corresponding to the dictionary server 6) can be used in a plurality of other expert extraction devices other than the expert extraction device 5, so that it depends on each expert extraction device. It is sufficient to set the same public key in advance without setting different public keys individually, and the key management in the dictionary server 6 is easy.

なお、専門家抽出装置5または辞書サーバ6に厳重に保管された秘密鍵を使用して暗号化されたデータは、対応する公開鍵でのみ復号化することができるので、このことを利用することにより、データの送信者が確かに本人である旨の認証(いわゆるデジタル署名)を行うこともできる。このことにより、他人が本人になりすますことができなくなるので、専門家抽出装置5と辞書サーバ6との間の通信の安全性を更に高めることができる。   Note that data encrypted using a secret key that is strictly stored in the expert extraction device 5 or the dictionary server 6 can be decrypted only with the corresponding public key. Thus, authentication (so-called digital signature) can be performed to the effect that the sender of the data is indeed the person. As a result, it is impossible for another person to impersonate the person himself, so that the safety of communication between the expert extraction device 5 and the dictionary server 6 can be further enhanced.

専門語解析部62は、上記暗号処理部81によって復号化された未知語および当該未知語を含む文章の全部または一部に基づき、当該未知語が専門語であるか否かを判別し、専門語である場合には対応する専門分野への分類を行う。この専門語解析部62の詳しい動作については後述する。   The technical word analysis unit 62 determines whether or not the unknown word is a technical word based on the unknown word decrypted by the encryption processing unit 81 and all or part of the sentence including the unknown word. If it is a word, classify it into the corresponding specialized field. Detailed operation of the technical term analysis unit 62 will be described later.

データ管理部63は、専門語解析部62により判別・分類された未知語を新たな専門語として専門語辞書73に登録する(マージする)。例えば、図2(a),(b)に示される専門語辞書35に新たに「第3水準」という未知語が登録される場合と同様に、新たなkey、見出し、および品詞などが登録される。また、データ管理部63は、専門語解析部62により行われた当該専門語の分類結果に応じて、当該専門語を専門分野データベース74の対応する専門分野に関連づけて登録する。このように、専門語解析部62およびデータ管理部63は、辞書作成手段として機能する。   The data management unit 63 registers (merges) the unknown word determined and classified by the technical language analysis unit 62 as a new technical term in the technical language dictionary 73. For example, a new key, headline, part of speech, etc. are registered in the same manner as when an unknown word “third level” is newly registered in the technical term dictionary 35 shown in FIGS. 2 (a) and 2 (b). The Further, the data management unit 63 registers the technical term in association with the corresponding specialized field in the specialized field database 74 according to the classification result of the specialized word performed by the specialized word analysis unit 62. As described above, the technical term analysis unit 62 and the data management unit 63 function as a dictionary creation unit.

さらに、データ管理部63は、マージされた専門語辞書73および専門分野データベース74のバージョンを管理する。例えば、データ管理部63は、複数の未知語を一括登録する際に、一括登録前の専門語辞書73(および専門分野データベース74)と一括登録後の専門語辞書73(および専門分野データベース74)との差分データを固有のバージョン番号とともに、バージョンデータベース75に保存する。なお、登録毎に固有のバージョン番号を付して、専門語辞書73(および専門分野データベース74)全てのデータを保存してもよい。   Furthermore, the data management unit 63 manages versions of the merged technical term dictionary 73 and specialized field database 74. For example, when the data management unit 63 collectively registers a plurality of unknown words, the technical word dictionary 73 (and the specialized field database 74) before the batch registration and the specialized word dictionary 73 (and the specialized field database 74) after the batch registration. Is stored in the version database 75 together with a unique version number. A unique version number may be assigned to each registration, and all data of the technical language dictionary 73 (and the specialized field database 74) may be stored.

顧客データ評価部61は、専門語解析部62によって新たな専門語と判別された未知語を送信してきた専門家抽出装置5の利用者すなわち顧客の課金割引評価を行い、この評価に基づく割引率を顧客別課金データベース72に登録する。この顧客データ評価部61の詳しい動作については後述する。   The customer data evaluation unit 61 performs billing discount evaluation of the user of the expert extraction apparatus 5 that has transmitted the unknown word determined as a new technical word by the technical language analysis unit 62, that is, the customer, and the discount rate based on this evaluation Is registered in the customer-specific charging database 72. Detailed operation of the customer data evaluation unit 61 will be described later.

データ配布部64は、最新の専門語辞書73および専門分野データベース74を所定期間毎にまたは顧客の要望に応じて暗号処理部81に与え、暗号処理部81はこれらを暗号化して専門家抽出装置5へ送信する。これら最新の専門語辞書73および専門分野データベース74は有償であり、その課金額は例えば更新データ量などに応じて算出され顧客データ評価部61に与えられる。顧客データ評価部61は、顧客別課金データベース72を参照し、割引率が登録されている場合にはデータ配布部64から受け取った課金額に対し当該割引率で割り引いた額を最終的な課金額として顧客別課金データベース72に登録する。   The data distribution unit 64 gives the latest technical language dictionary 73 and the specialized field database 74 to the cryptographic processing unit 81 at predetermined intervals or according to the customer's request, and the cryptographic processing unit 81 encrypts them and extracts the expert extraction device. To 5. The latest technical language dictionary 73 and specialized field database 74 are charged, and the charge amount is calculated according to the amount of updated data, for example, and is given to the customer data evaluation unit 61. The customer data evaluation unit 61 refers to the customer-specific charging database 72, and when the discount rate is registered, the final charge amount obtained by discounting the charge amount received from the data distribution unit 64 with the discount rate Is registered in the customer-specific charging database 72.

以上のように、専門家抽出装置5における専門語抽出部21により抽出された未知語データ36は、所定のタイミングで未知語切り出し箇所設定部28により辞書サーバ6に送信され、辞書サーバ6は、この未知語を所定の場合に専門語辞書等に登録することにより、新しいバージョンの専門語辞書等を作成し、専門家抽出装置5に送信する。このような専門家抽出装置5および辞書サーバ6における未知語に関連する一連の動作につき、図を参照して説明する。   As described above, the unknown word data 36 extracted by the technical word extraction unit 21 in the expert extraction device 5 is transmitted to the dictionary server 6 by the unknown word cutout location setting unit 28 at a predetermined timing. By registering this unknown word in a technical language dictionary or the like in a predetermined case, a new version of the technical language dictionary or the like is created and transmitted to the expert extraction device 5. A series of operations related to unknown words in the expert extraction device 5 and the dictionary server 6 will be described with reference to the drawings.

<5. 専門家抽出装置および辞書サーバにおける未知語関連動作>
図5は、専門家抽出装置および辞書サーバにおける未知語に関連する処理の流れを示すフローチャートである。図5に示すステップS101において、専門家抽出装置5における専門語抽出部21は、専門語辞書35に登録されていない未知語を抽出し、専門語辞書35に登録するとともに、この未知語と当該未知語を含む文章(例えば未知語の前後の複数の単語からなる文字列)とを未知語データ36として専門語辞書35とは別に記憶部3に記憶させる。
<5. Unknown word related operations in expert extraction device and dictionary server>
FIG. 5 is a flowchart showing a flow of processing related to an unknown word in the expert extraction device and the dictionary server. In step S101 shown in FIG. 5, the technical term extraction unit 21 in the expert extraction device 5 extracts an unknown word that is not registered in the technical term dictionary 35 and registers it in the technical term dictionary 35. A sentence including an unknown word (for example, a character string including a plurality of words before and after the unknown word) is stored in the storage unit 3 as the unknown word data 36 separately from the technical word dictionary 35.

続いて、ステップS102において、未知語切り出し箇所設定部28は、所定のタイミングで上記未知語データ36に含まれる文章(文字列)のうち辞書サーバ6への送信を許可する部分を装置の利用者に選択させ、選択された部分と当該未知語とを新たな未知語データ36として切り出し、これを辞書サーバ6に送信する。送信後、この未知語データ36は削除され、その後専門語抽出部21によって抽出される未知語に基づく新たな未知語データ36が形成される。ここで、上記所定のタイミングは、登録された未知語が所定数に達した時点など、ある程度の数の未知語が記憶された時点であることが装置の利用者の作業効率の点からは好ましいが、所定の期間を経た時点であってもよいし、所定の条件が成立した時点や装置の利用者が任意に決めた時点などであってもよい。   Subsequently, in step S102, the unknown word cutout part setting unit 28 determines a part of the sentence (character string) included in the unknown word data 36 that is permitted to be transmitted to the dictionary server 6 at a predetermined timing as a user of the apparatus. The selected portion and the unknown word are cut out as new unknown word data 36 and transmitted to the dictionary server 6. After transmission, the unknown word data 36 is deleted, and new unknown word data 36 based on the unknown word extracted by the technical word extraction unit 21 is formed. Here, it is preferable from the viewpoint of the work efficiency of the user of the apparatus that the predetermined timing is a time when a certain number of unknown words are stored, such as a time when a predetermined number of registered unknown words is reached. However, it may be the time when a predetermined period has passed, or the time when a predetermined condition is satisfied or the time when the user of the apparatus arbitrarily decides.

図6は、装置の利用者の選択により切り出される前の文章を含む未知語データの格納例を示す図である。図の左側の欄には、情報家電、第3水準、およびユビキダスという未知語が格納されており、図の右側の欄には、これらのうち対応する未知語を含む文章が格納されている。この図に示すように、未知語を含む文章からそれぞれの未知語の意味を容易に推測することができる。これらの未知語データのうち、情報家電という未知語を含む未知語データ36を対象にした未知語切り出し箇所設定部28のステップS101における処理例について説明する。   FIG. 6 is a diagram illustrating a storage example of unknown word data including a sentence before being cut out by selection of a user of the apparatus. In the left column of the figure, unknown words such as information home appliances, third level, and ubiquitous are stored, and in the right column of the figure, sentences including the corresponding unknown words are stored. As shown in this figure, the meaning of each unknown word can be easily estimated from a sentence including the unknown word. Of these unknown word data, a processing example in step S101 of the unknown word cutout location setting unit 28 for the unknown word data 36 including the unknown word “information home appliance” will be described.

図7は、未知語切り出し箇所設定部により、辞書サーバへの送信を許可する部分を装置の利用者に選択させるための画面表示の一例を示す図である。図に示される上欄には、区切り方法として、「段落」、「文」、「文節」、および「単語」という4つが記載されており、これらの区切り方法のうちの1つのみを装置の利用者が選択することができるよう、いわゆるラジオボタン表示がなされている。このラジオボタン表示方式では、図中の画面(ウィンドウ)内に小さな円状の平たい複数のボタンが表示され、装置の利用者がマウスなどを使用することによりこれらのボタンのうちいずれか1つが(択一的に)選択されると、当該選択されるボタンの丸の中に塗りつぶされた丸が入る。この図7では、区切り方法として「文」が選択されている。このようなラジオボタンは、未知語を含む文字列から辞書サーバ6への送信を許可する文字列を装置の利用者にとって簡便に切り出すことを可能にする区切り設定手段として機能する。なお、この区切り設定手段は、ラジオボタンのほか、文字列を区切るための装置の利用者の択一的な選択を可能にする周知の手段であればよい。   FIG. 7 is a diagram illustrating an example of a screen display for allowing the user of the apparatus to select a portion that permits transmission to the dictionary server by the unknown word cutout location setting unit. In the upper column shown in the figure, four paragraphs “paragraph”, “sentence”, “sentence”, and “word” are described as separation methods, and only one of these separation methods is described in the apparatus. So-called radio buttons are displayed so that the user can select. In this radio button display method, a plurality of small circular flat buttons are displayed in the screen (window) in the figure, and any one of these buttons is ( (Alternatively) When selected, a filled circle is placed in the circle of the selected button. In FIG. 7, “sentence” is selected as the separation method. Such a radio button functions as a delimiter setting unit that allows a user of the apparatus to easily extract a character string that permits transmission to the dictionary server 6 from a character string that includes an unknown word. In addition to the radio button, this delimitation setting means may be a well-known means that allows an alternative selection of the user of the apparatus for delimiting the character string.

また図7に示される下欄には、「情報家電」という未知語が左側に表示されており、その右側には当該未知語を含む文章が文節毎に区切られて表示されている。なお、各文節の上にはその文節を装置の利用者が選択することができるよう、いわゆるチェックボックス表示がなされている。このチェックボックス表示方式では、図中の画面(ウィンドウ)内に小さな正方形のチェックボックスが表示され、装置の利用者がマウスなどを使用することによりこのチェックボックスが選択されると、当該選択されるチェックボックスの中が塗りつぶされた状態となる。この図7では、区切り方法として「文」が選択されているので、(未知語切り出し箇所設定部28により)自動的に全ての文節に対応する複数のチェックボックスが選択された状態となっている。また、これらの選択された複数のチェックボックスのうちの1つが選択されると、当該チェックボックスは非選択状態となり、非選択状態のチェックボックスが選択されると選択状態となる。このようなチェックボックスは、未知語を含む文字列から辞書サーバ6への送信を許可する文字列を装置の利用者が選択することを可能にする文字列選択手段として機能する。なお、この文字列選択手段は、チェックボックスのほか、装置の利用者によって文字列を1つ以上選択することを可能にする周知の手段であればよい。   In the lower column shown in FIG. 7, an unknown word “information home appliance” is displayed on the left side, and on the right side, sentences including the unknown word are displayed divided into phrases. A so-called check box is displayed above each clause so that the user of the apparatus can select the clause. In this check box display method, a small square check box is displayed in the screen (window) in the figure, and this check box is selected when this check box is selected by the user of the device using a mouse or the like. The check box is filled. In FIG. 7, since “sentence” is selected as the delimiting method, a plurality of check boxes corresponding to all the clauses are automatically selected (by the unknown word cutout location setting unit 28). . Further, when one of the selected check boxes is selected, the check box is in a non-selected state, and when a non-selected check box is selected, the check box is in a selected state. Such a check box functions as a character string selection unit that allows a user of the apparatus to select a character string that permits transmission from a character string including an unknown word to the dictionary server 6. In addition to the check box, the character string selection means may be any known means that enables the user of the apparatus to select one or more character strings.

図8は、未知語切り出し箇所設定部により、辞書サーバへの送信を許可する部分を装置の利用者に選択させるための画面表示の別例を示す図である。この図8では、区切り方法として「文節」が選択されているので、(未知語切り出し箇所設定部28により)自動的に未知語を含む文節に対応するチェックボックスのみが選択された状態となっている。この図8に示すように、文節が選択される場合、未知語切り出し箇所設定部28は、情報家電という未知語と、「情報家電と」という文節のみが切り出された部分とを未知語データ36として送信することになるが、この未知語を含む文節からは当該未知語が名詞であることは容易に判別できるとしても、その意味を推測することは難しい。しかし、この文節のみを送信することにより、守秘を要する文章が辞書サーバ6に送信されてしまうことを防止することができる。   FIG. 8 is a diagram showing another example of a screen display for allowing the user of the apparatus to select a portion that permits transmission to the dictionary server by the unknown word cutout location setting unit. In FIG. 8, since “sentence” is selected as the delimiting method, only the check box corresponding to the phrase including the unknown word is automatically selected (by the unknown word cutout location setting unit 28). Yes. As shown in FIG. 8, when a phrase is selected, the unknown word cutout location setting unit 28 identifies the unknown word “information home appliance” and the portion from which only the phrase “information home appliance” is cut out as unknown word data 36. However, it is difficult to guess the meaning of the unknown word from the phrase including the unknown word even though it can be easily determined that the unknown word is a noun. However, by transmitting only this phrase, it is possible to prevent a sentence requiring confidentiality from being transmitted to the dictionary server 6.

図9は、未知語切り出し箇所設定部により、辞書サーバへの送信を許可する部分を装置の利用者に選択させるための画面表示のさらなる別例を示す図である。この図9では、図8と同様に区切り方法として「文節」が選択されているが、もし「文」が選択されるとすると、市場投入される製品名やその投入時期等を記載した守秘を要する文章が辞書サーバ6に送信されてしまう。したがって、本実施形態のように、「文節」または「単語」という区切り方法が選択可能であることが好ましい。   FIG. 9 is a diagram showing still another example of a screen display for allowing the user of the apparatus to select a portion that permits transmission to the dictionary server by the unknown word cutout location setting unit. In FIG. 9, “Sentence” is selected as the separation method in the same manner as in FIG. 8, but if “Sentence” is selected, confidentiality that describes the name of the product to be marketed and the time of its introduction, etc., is displayed. A required sentence is transmitted to the dictionary server 6. Therefore, it is preferable that the delimiter method of “sentence” or “word” can be selected as in this embodiment.

もっとも、前述のように、未知語を含む1つの文節からは当該未知語が名詞であることは容易に判別できるとしても、その意味を推測することは難しい。よって、図8または図9に示すように、区切り方法として「文節」が選択されている場合であっても、例えば未知語の前後のいくつかの文節(文字列)が未知語データ36として送信されることが好ましい。この例について図10を参照して説明する。   However, as described above, it is difficult to guess the meaning of a single phrase including an unknown word even though it can be easily determined that the unknown word is a noun. Therefore, as shown in FIG. 8 or FIG. 9, even when “clause” is selected as the separation method, for example, several phrases (character strings) before and after the unknown word are transmitted as the unknown word data 36. It is preferred that This example will be described with reference to FIG.

図10は、辞書サーバへの送信を許可する部分が装置の利用者により複数選択された画面表示例を示す図である。この図10では、図8または図9と同様に区切り方法として「文節」が選択されているが、「第3水準」という未知語を含む文節に対応するチェックボックスが選択されているほか、その前後の「外字登録された」という文節および「漢字の」という文節のそれぞれに対応するチェックボックスが選択されている。したがって、「第3水準」という未知語の意味を推測することが容易となり、また守秘を要する文章の部分の文節に対応するチェックボックスを非選択状態とすることにより、守秘を要する事項が辞書サーバ6に送信されることを装置の利用者の選択に従って容易に防止することができる。   FIG. 10 is a diagram showing a screen display example in which a plurality of portions permitting transmission to the dictionary server are selected by the user of the apparatus. In FIG. 10, as in FIG. 8 or FIG. 9, “sentence” is selected as the delimiting method, but in addition to the check box corresponding to the phrase including the unknown word “third level” being selected, Check boxes corresponding to the preceding and following phrases “Registered external characters” and the phrase “Kanji” are selected. Therefore, it becomes easy to guess the meaning of the unknown word “third level”, and the check box corresponding to the phrase of the sentence portion requiring confidentiality is not selected, so that the matters requiring confidentiality are stored in the dictionary server. 6 can be easily prevented according to the selection of the user of the apparatus.

以上のように、図5に示すステップS101,S102の処理は専門家抽出装置5においてなされるが、次のステップS103〜S109の処理は辞書サーバ6においてなされる。以下、順に説明する。   As described above, the processing of steps S101 and S102 shown in FIG. 5 is performed by the expert extraction device 5, but the processing of the next steps S103 to S109 is performed by the dictionary server 6. Hereinafter, it demonstrates in order.

ステップS103において、辞書サーバ6の専門語解析部62は、専門家抽出装置5の未知語切り出し箇所設定部28から送信されてきた上記未知語データ36に含まれる未知語が専門語辞書73に登録されているか否かを判定する。このような判定を行うのは、専門語辞書73は後述するように最新のものであるが、専門家抽出装置5の記憶部3に記憶されている専門語辞書35は必ずしも最新のものではないからである。この判定の結果、登録されている場合(ステップS103においてYesの場合)、処理はステップS106へ進む。また、この判定の結果、登録されていない場合(ステップS103においてNoの場合)、処理はステップS104へ進む。   In step S <b> 103, the technical word analysis unit 62 of the dictionary server 6 registers the unknown word included in the unknown word data 36 transmitted from the unknown word extraction part setting unit 28 of the expert extraction device 5 in the technical language dictionary 73. It is determined whether or not it has been done. Such a determination is made by using the latest terminology dictionary 73 as described later, but the terminology dictionary 35 stored in the storage unit 3 of the expert extraction device 5 is not necessarily the latest. Because. As a result of this determination, if registered (Yes in step S103), the process proceeds to step S106. If the result of this determination is that it is not registered (No in step S103), the process proceeds to step S104.

続くステップS104において、専門語解析部62は、専門家抽出装置5の未知語切り出し箇所設定部28から送信されてきた上記未知語データ36に含まれる未知語を専門語として取り扱うべきであるか否かを判定する。このような判定を行うのは、上記未知語が誤字や勘違いなどによる誤った用語や、非常に狭い範囲でしか通用しない用語など、専門語としてふさわしくないことがあるからである。専門語解析部62は、例えば誤用例や非専門語例などを含む知識データベースや所定の推論エンジン等からなる専門語判別機能により上記判定を行う。この判定の結果、上記未知語を専門語として取り扱うべきでない場合(ステップS104においてNoの場合)、処理はステップS106へ進む。また、この判定の結果、専門語として取り扱うべきである場合(ステップS104においてYesの場合)、処理はステップS105へ進む。   In the subsequent step S104, the technical word analysis unit 62 should treat the unknown word included in the unknown word data 36 transmitted from the unknown word cutout location setting unit 28 of the expert extraction device 5 as a technical term. Determine whether. This determination is made because the unknown word may not be suitable as a technical term, such as an erroneous term due to a typo or misunderstanding, or a term that can be used only in a very narrow range. The technical language analysis unit 62 performs the above determination using a technical language discrimination function including a knowledge database including misuse examples and non-technical word examples, a predetermined inference engine, and the like. As a result of this determination, if the unknown word should not be handled as a technical term (No in step S104), the process proceeds to step S106. As a result of this determination, if it should be handled as a technical term (Yes in step S104), the process proceeds to step S105.

続くステップS105において、専門語解析部62は、上記未知語データ36に含まれる未知語を所定の専門分野に分類し、データ管理部63は、その分類結果を専門分野データベース74に登録するとともに、当該未知語を専門語辞書73に登録する(マージする)。   In the subsequent step S105, the technical word analysis unit 62 classifies the unknown words included in the unknown word data 36 into a predetermined specialized field, and the data management unit 63 registers the classification result in the specialized field database 74. The unknown word is registered (merged) in the technical language dictionary 73.

より具体的には、専門語解析部62は、上記未知語データ36に含まれる未知語を含む文章(例えば複数の文節などの文字列)を参照することにより、当該未知語を専門分野データベース74に登録された(または新規に登録される)所定の専門分野に分類する。例えば図4に示されるように、「第3水準」という未知語を分類する場合、専門語解析部62は、未知語データ36に含まれる「外字登録された」および「漢字の」という文節(未知語を含む文章)のうち、「外字登録」という専門語が専門分野データベース74に登録された「文字コード標準化」という専門分野に登録されていることを判別する。この判別は専門語解析部62の専門語判別機能により行われる。このことにより、専門語解析部62は、「第3水準」という未知語(新たな専門語)を「文字コード標準化」という専門分野に分類する。この分類は専門語解析部62の専門語分類機能により行われる。以上の分類結果は、図4に示されるとおりである。次に、データ管理部63は、その分類結果を専門分野データベース74に登録するとともに、例えば、図2(a),(b)に示される専門語辞書35に新たに「第3水準」という未知語が登録される場合と同様に、当該未知語を専門語辞書73に登録する(マージする)。この登録は、データ管理部63のマージ機能により行われる。   More specifically, the technical word analysis unit 62 refers to a sentence including an unknown word included in the unknown word data 36 (for example, a character string such as a plurality of clauses), and thereby converts the unknown word into the specialized field database 74. Categorized in a specific field of expertise registered (or newly registered). For example, as shown in FIG. 4, when classifying an unknown word “third level”, the technical word analysis unit 62 includes the phrases “Registered external characters” and “Kanji characters” included in the unknown word data 36 ( It is determined that the technical term “regular character registration” is registered in the specialized field “character code standardization” registered in the specialized field database 74. This discrimination is performed by the technical term discriminating function of the technical term analyzing unit 62. Thus, the technical language analysis unit 62 classifies the unknown word (new technical term) “third level” into the specialized field “character code standardization”. This classification is performed by the technical term classification function of the technical term analysis unit 62. The above classification results are as shown in FIG. Next, the data management unit 63 registers the classification result in the specialized field database 74 and, for example, a new “third level” unknown in the technical term dictionary 35 shown in FIGS. 2 (a) and 2 (b). Similar to the case where a word is registered, the unknown word is registered (merged) in the technical term dictionary 73. This registration is performed by the merge function of the data management unit 63.

次に、ステップS106において、専門語解析部62は、ステップS102において未知語切り出し箇所設定部28により送信されてきた未知語データ全ての解析が終了したか否かを判定する。この判定の結果、終了していない場合(ステップS106においてNoの場合)、処理はステップS103へ戻り、全ての解析が終了するまで上記処理が繰り返される(S106→S103→…→S106)。また、全ての解析が終了した場合(ステップS106においてYesの場合)、処理はステップS107へ進む。   Next, in step S106, the technical word analysis unit 62 determines whether or not the analysis of all unknown word data transmitted by the unknown word cutout location setting unit 28 in step S102 has been completed. As a result of the determination, if the processing is not completed (No in step S106), the processing returns to step S103, and the above processing is repeated until all the analysis is completed (S106 → S103 →... → S106). If all the analyzes are completed (Yes in step S106), the process proceeds to step S107.

続くステップS107において、データ管理部63は、マージされた専門語辞書73および専門分野データベース74のバージョンを管理する。例えば、データ管理部63は、上記一連の処理(S101〜S106)が終了する毎に、これらの処理前の専門語辞書73(および専門分野データベース74)と処理後の専門語辞書73(および専門分野データベース74)との差分データを固有のバージョン番号とともに、バージョンデータベース75に保存する。このような管理は、データ管理部63のバージョン管理機能により行われる。   In subsequent step S107, the data management unit 63 manages the merged technical term dictionary 73 and specialized field database 74 versions. For example, every time the above series of processing (S101 to S106) is completed, the data management unit 63 performs the pre-processing terminology dictionary 73 (and the specialized field database 74) and the post-processing terminology dictionary 73 (and the specialized term dictionary 73). Difference data from the field database 74) is stored in the version database 75 together with a unique version number. Such management is performed by the version management function of the data management unit 63.

次に、ステップS108において、顧客データ評価部61は、各顧客の課金割引評価に関連するデータの評価処理を行う。より具体的には、顧客データ評価部61は、専門語解析部62によって新たな専門語として登録された未知語を送信してきた専門家抽出装置5の利用者である顧客毎に、その未知語数および未知語データに含まれる文章の単語数(または文節数)を集計する。新たに登録された未知語数のみを集計するのは、すでに登録された未知語や専門語として取り扱うことができない未知語は、専門語辞書73のバージョンアップの役に立たず、割引評価の対象とすることができないからである。また、未知語データに含まれる文章の単語数(または文節数)を集計するのは、当該未知語を専門語として取り扱うことができるか否かの判断や、当該未知語を対応する専門分野に分類する際の判断に非常に役立つので、割引評価の対象とすべきだからである。なお、上記単語数(または文節数)を集計することに代えて、文字列の長さを集計し、または文字列の区切り方法(ここでは段落、文、文節、および単語の4種類)に対応する所定の評価値を集計するなど、当該文字列に対応する量が集計されればよい。   Next, in step S108, the customer data evaluation unit 61 performs an evaluation process of data related to the charging discount evaluation of each customer. More specifically, the customer data evaluation unit 61 determines the number of unknown words for each customer who is a user of the expert extraction device 5 that has transmitted an unknown word registered as a new technical term by the technical term analysis unit 62. And the number of words (or the number of phrases) of sentences included in unknown word data is totaled. Only the number of newly registered unknown words is counted. The unknown words that have already been registered and the unknown words that cannot be handled as technical terms are not useful for upgrading the technical term dictionary 73 and are subject to discount evaluation. It is because it is not possible. Also, counting the number of words (or the number of clauses) in a sentence included in unknown word data is based on the judgment whether or not the unknown word can be handled as a technical term, and in the specialized field corresponding to the unknown word. This is because it is very useful for judgment in classification, and should be subject to discount evaluation. Note that instead of counting the number of words (or the number of phrases), the length of the character string is totaled, or the character string delimiting method (here, paragraph, sentence, phrase, and word) is supported. The amount corresponding to the character string may be aggregated, for example, by summing up predetermined evaluation values.

さらに、顧客データ評価部61は、参照用課金率データ71を参照することにより、これらの集計結果に対応する課金率を算出し(例えば未知語が10個以上で単語総数が50個以上の場合には1割引など)、得られた課金率を顧客別課金データベース72に登録する。これらの評価処理は顧客データ評価部61の集計機能により行われる。なお、課金割引のために算出される割引率(または課金率)は割引額であってもよいし、その他の割引方法によるもの(例えば購入用ポイントを付与するなど)であってもよい。   Further, the customer data evaluation unit 61 refers to the reference billing rate data 71 to calculate a billing rate corresponding to the total result (for example, when there are 10 or more unknown words and the total number of words is 50 or more). The obtained charging rate is registered in the customer-specific charging database 72. These evaluation processes are performed by the totaling function of the customer data evaluation unit 61. Note that the discount rate (or billing rate) calculated for billing discount may be a discount amount, or may be based on other discount methods (for example, giving points for purchase).

このように、未知語や関連する文章を多く送った顧客ほど大きい課金割引が受けられるので、専門家抽出装置5からのこれらの未知語データの送信を促進することができる。そのため、辞書サーバ6(の運営者、例えば専門家抽出装置を実現するソフトウェアのメーカ)は、さらに多くの未知語や関連する文章を集めることができるので、さらに正確でさらに多くの専門語を登録した専門語辞書73を提供することができる。   In this way, a customer who has sent many unknown words and related sentences can receive a large discount, so that transmission of these unknown word data from the expert extraction device 5 can be promoted. Therefore, the dictionary server 6 (operator, for example, a software maker that implements an expert extraction device) can collect more unknown words and related sentences, so it is more accurate and registers more technical words. The specialized vocabulary dictionary 73 can be provided.

続いて、ステップS109において、データ配布部64は、最新の専門語辞書73および専門分野データベース74を所定期間毎にまたは顧客の要望に応じて暗号処理部81に与え、暗号処理部81はこれらを暗号化して専門家抽出装置5へ送信する。典型的には、データ配布部64は、専門家抽出装置5の記憶部3に記憶される専門語辞書35および専門分野データベース32のバージョンを判定し(例えば専門家抽出装置5からそのバージョン番号を受け取ることにより判定し)、これらと最新の専門語辞書73および専門分野データベース74との差分データをバージョンデータベース75から読み出し、専門家抽出装置5へ送信する。これら最新の専門語辞書73および専門分野データベース74は有償であり、その課金額は例えばバージョン番号や差分データ量などに応じて算出され、顧客データ評価部61に与えられる。顧客データ評価部61は、顧客別課金データベース72を参照し、割引額が登録されている場合にはデータ配布部64から受け取った課金額から当該割引額を割り引いた額を最終的な課金額として顧客別課金データベース72に登録する。この課金処理は、顧客データ評価部61の課金機能により行われる。   Subsequently, in step S109, the data distribution unit 64 provides the latest technical language dictionary 73 and the specialized field database 74 to the cryptographic processing unit 81 at predetermined intervals or according to the customer's request, and the cryptographic processing unit 81 provides them. It encrypts and transmits to the expert extraction apparatus 5. Typically, the data distribution unit 64 determines the versions of the technical term dictionary 35 and the specialized field database 32 stored in the storage unit 3 of the expert extraction device 5 (for example, the version number is obtained from the expert extraction device 5). The difference data between these and the latest technical language dictionary 73 and the specialized field database 74 is read from the version database 75 and transmitted to the expert extracting device 5. These latest technical language dictionary 73 and specialized field database 74 are charged, and the charge amount is calculated according to, for example, the version number and the difference data amount, and is given to the customer data evaluation unit 61. The customer data evaluation unit 61 refers to the customer-specific charging database 72. If a discount amount is registered, the customer data evaluation unit 61 uses, as a final charging amount, an amount obtained by discounting the discount amount from the charging amount received from the data distribution unit 64. Register in the customer-specific billing database 72. This billing process is performed by the billing function of the customer data evaluation unit 61.

以上のように、図5に示すステップS103〜S109の処理は辞書サーバ6においてなされるが、次のステップS110の処理は専門家抽出装置5において行われる。以下、説明する。なお、上記ステップS103〜S107の処理(または辞書サーバ6の全ての処理)は、人間(例えば辞書の作成者などの専門家)が行ってもよい。この場合の処理(作業)は、例えば辞書サーバ6の図示されないユーザI/F装置を介してなされ、所定のプログラム(編集ツールなど)により実現される辞書作成手段により新たな専門語辞書等が作成される。   As described above, the processing in steps S103 to S109 shown in FIG. 5 is performed in the dictionary server 6, but the processing in the next step S110 is performed in the expert extraction device 5. This will be described below. Note that the processing of steps S103 to S107 (or all processing of the dictionary server 6) may be performed by a human (for example, an expert such as a dictionary creator). The processing (work) in this case is performed, for example, via a user I / F device (not shown) of the dictionary server 6, and a new technical language dictionary or the like is created by a dictionary creating means realized by a predetermined program (editing tool or the like). Is done.

ステップS110において、専門家抽出装置5の未知語最適化処理部29は、通信部4および暗号処理部41を介して、辞書サーバ6から最新の専門語辞書等を受け取り、この受け取った専門語辞書等に基づき、未知語(新たな専門語)および当該未知語に関係づけられた集計値を使用者別単語データベース31に反映させる最適化処理を行う。前述のように、使用者別単語データベース31は、専門語(および専門分野)と、使用者特定部22により特定された各使用者に関係付けられた回数とが登録されているので、未知語最適化処理部29は、最新の専門語辞書等の内容をこれらに反映させる。例えば、未知語最適化処理部29は、最新の専門語辞書等に新たに登録された専門語や専門分野を使用者別単語データベース31に新たに登録し、これらが未知語(新たな専門語)として既に使用者別単語データベース31に登録されている場合には、その対応する集計値を新たに登録した専門語や専門分野等に反映させた後(すなわち引き継いだ後)、既に登録されている当該未知語を削除する。   In step S110, the unknown word optimization processing unit 29 of the expert extraction device 5 receives the latest technical language dictionary or the like from the dictionary server 6 via the communication unit 4 and the encryption processing unit 41, and receives the received technical language dictionary. Based on the above, an optimization process is performed to reflect the unknown word (new technical term) and the total value related to the unknown word in the word database 31 for each user. As described above, the user-specific word database 31 stores the technical terms (and specialized fields) and the number of times related to each user specified by the user specifying unit 22. The optimization processing unit 29 reflects the contents of the latest technical term dictionary and the like on these. For example, the unknown word optimization processing unit 29 newly registers specialized words and specialized fields newly registered in the latest technical term dictionary or the like in the user-specific word database 31, and these unknown words (new technical terms) ) Is already registered in the user-specific word database 31, the corresponding total value is reflected in the newly registered technical terms and specialized fields (that is, after taking over), and is already registered. Delete the unknown word.

ここで、新たな専門語として既に使用者別単語データベース31に登録されている未知語が最新の専門語辞書等に新たに登録されていない場合、未知語最適化処理部29は、この未知語を自動的に削除する。辞書サーバ6において専門語として取り扱われなかった未知語は、誤記や誤用などによるものがほとんどであり、削除されることが好ましいからである。しかし、当該専門家抽出装置5の利用者が特別な理由(例えば他に類例のない研究に関わる新しい用語であるため)にその未知語を使用したいことがある。そのことを考慮する場合、未知語最適化処理部29は、上記未知語を自動的に削除することなく、例えば表示画面などにおいて装置の利用者に問い合わせを行い、装置の利用者が削除を許可した場合にのみ当該未知語を削除することが好ましい。   Here, if an unknown word that has already been registered in the user-specific word database 31 as a new technical term is not newly registered in the latest technical term dictionary or the like, the unknown word optimization processing unit 29 determines the unknown word. Is automatically deleted. This is because the unknown words that are not handled as technical words in the dictionary server 6 are mostly miswritten or misused, and are preferably deleted. However, there are cases where the user of the expert extraction device 5 wants to use the unknown word for a special reason (for example, because it is a new term related to unprecedented research). In consideration of this, the unknown word optimization processing unit 29 does not automatically delete the unknown word, but makes an inquiry to the device user on the display screen, for example, and the device user permits the deletion. It is preferable to delete the unknown word only if

以上の処理により、専門家抽出装置5において抽出された未知語が最新の専門語辞書等に登録され(または登録されることなく)最終的に専門家抽出装置5において最適化処理される。これらの処理は専門家抽出装置5において新たな未知語が抽出され、辞書サーバ6に送信されるたびに繰り返される。   Through the above processing, the unknown word extracted by the expert extraction device 5 is registered (or not registered) in the latest expert word dictionary or the like, and finally optimized by the expert extraction device 5. These processes are repeated each time a new unknown word is extracted by the expert extraction device 5 and transmitted to the dictionary server 6.

<6. 効果>
以上のように本実施形態では、専門家抽出装置5の専門語抽出部21により利用者が未知語を専門語辞書に登録することなく自動的に登録するとともに、これらの未知語を含む多くの利用者において使用される未知語を広く登録した専門語辞書を辞書サーバ6において随時作成し、専門家抽出装置5に与える辞書サーバを提供することができる。
<6. Effect>
As described above, in the present embodiment, the user automatically registers the unknown word without registering it in the technical word dictionary by the technical word extraction unit 21 of the expert extracting device 5, and includes many of these unknown words. It is possible to provide a dictionary server that can create a technical word dictionary in which unknown words used by users are widely registered in the dictionary server 6 and give them to the expert extraction device 5.

また、専門家抽出装置5の未知語切り出し箇所設定部28により、未知語を含む文字列から辞書サーバ6への送信を許可する文字列を装置の利用者にとって簡便に切り出しまたは選択することができるので(区切り設定手段または文字列選択手段)、守秘を要する文章が辞書サーバ6に送信されることを防止することができる。   Further, the unknown word cutout location setting unit 28 of the expert extraction device 5 can easily cut out or select a character string that permits transmission from the character string including the unknown word to the dictionary server 6 for the user of the device. Therefore (delimitation setting means or character string selection means), it is possible to prevent a sentence requiring confidentiality from being transmitted to the dictionary server 6.

さらに、辞書サーバ6の顧客データ評価部61により、未知語や関連する文章を多く送った顧客ほど大きい課金割引が受けられるので、専門家抽出装置5からのこれらの未知語データの送信を促進することができる。そのため、辞書サーバ6から正確で多くの専門語を登録した専門語辞書73を提供することができる。   Furthermore, since the customer data evaluation unit 61 of the dictionary server 6 receives a larger discount for customers who send more unknown words and related sentences, the transmission of these unknown word data from the expert extraction device 5 is promoted. be able to. Therefore, it is possible to provide the technical term dictionary 73 in which many technical terms are registered accurately from the dictionary server 6.

本発明における一実施形態に係る専門家抽出装置および辞書サーバの構成を示すブロック図である。It is a block diagram which shows the structure of the expert extraction apparatus and dictionary server which concern on one Embodiment in this invention. 上記実施形態において、専門語辞書に対し或る未知語が登録される例を説明するための図である。In the said embodiment, it is a figure for demonstrating the example in which a certain unknown word is registered with respect to a technical language dictionary. 上記実施形態における集計部により記憶部に構築される使用者別単語データベースの具体例を示す図である。It is a figure which shows the specific example of the word database classified by user constructed | assembled in a memory | storage part by the total part in the said embodiment. 上記実施形態における専門分野データベースの構成を説明するための図である。It is a figure for demonstrating the structure of the specialized field database in the said embodiment. 上記実施形態の専門家抽出装置および辞書サーバにおける未知語に関連する処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process relevant to the unknown word in the expert extraction apparatus and dictionary server of the said embodiment. 上記実施形態において、装置の利用者の選択により切り出される前の文章を含む未知語データの格納例を示す図である。In the said embodiment, it is a figure which shows the example of storage of the unknown word data containing the text before being cut out by selection of the user of an apparatus. 上記実施形態における未知語切り出し箇所設定部により、辞書サーバへの送信を許可する部分を装置の利用者に選択させるための画面表示の一例を示す図である。It is a figure which shows an example of the screen display for making the user of an apparatus select the part which permits the transmission to a dictionary server by the unknown word cutout location setting part in the said embodiment. 上記実施形態における未知語切り出し箇所設定部により、辞書サーバへの送信を許可する部分を装置の利用者に選択させるための画面表示の別例を示す図である。It is a figure which shows another example of the screen display for making the user of an apparatus select the part which permits the transmission to a dictionary server by the unknown word cutout location setting part in the said embodiment. 上記実施形態における未知語切り出し箇所設定部により、辞書サーバへの送信を許可する部分を装置の利用者に選択させるための画面表示のさらなる別例を示す図である。It is a figure which shows the further another example of the screen display for making the user of an apparatus select the part which permits the transmission to a dictionary server by the unknown word clipping location setting part in the said embodiment. 上記実施形態における辞書サーバへの送信を許可する部分が装置の利用者により複数選択された画面表示例を示す図である。It is a figure which shows the example of a screen display in which the part which permits the transmission to the dictionary server in the said embodiment was selected in multiple numbers by the user of the apparatus.

符号の説明Explanation of symbols

1 …ユーザI/F装置
2 …演算処理部
3 …記憶部
4 …通信部
5 …専門家抽出装置
6 …辞書サーバ
7 …記憶部
8 …通信部
21 …専門語抽出部
22 …使用者特定部
23 …集計部
24 …検索部
25 …文字認識部
26 …ネットワークモニタ
27 …文書管理サーバ
28 …未知語切り出し箇所設定部
29 …未知語最適化処理部
31 …使用者別単語データベース
32 …専門分野データベース
33 …文書データベース
34 …一般単語辞書
35 …専門語辞書
36 …未知語データ
41 …暗号処理部
51 …スキャナ
61 …顧客データ評価部
62 …専門語解析部
63 …データ管理部
64 …データ配布部
71 …参照用課金率データ
72 …顧客別課金データベース
73 …専門語辞書
74 …専門分野データベース
75 …バージョンデータベース
81 …暗号処理部
DESCRIPTION OF SYMBOLS 1 ... User I / F apparatus 2 ... Arithmetic processing part 3 ... Memory | storage part 4 ... Communication part 5 ... Expert extraction apparatus 6 ... Dictionary server 7 ... Memory | storage part 8 ... Communication part 21 ... Technical term extraction part 22 ... User identification part DESCRIPTION OF SYMBOLS 23 ... Aggregation part 24 ... Search part 25 ... Character recognition part 26 ... Network monitor 27 ... Document management server 28 ... Unknown word extraction part setting part 29 ... Unknown word optimization process part 31 ... User-specific word database 32 ... Special field database 33 ... Document database 34 ... General word dictionary 35 ... Technical word dictionary 36 ... Unknown word data 41 ... Encryption processing part 51 ... Scanner 61 ... Customer data evaluation part 62 ... Technical word analysis part 63 ... Data management part 64 ... Data distribution part 71 ... Billing rate data for reference 72 ... Billing database by customer 73 ... Technical dictionary 74 ... Specialty field database 75 ... Barge Database 81 ... Cryptographic processing part

Claims (18)

所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置であって、
複数の専門語が登録された辞書と、
前記辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出手段と、
前記専門語抽出手段により抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計手段と、
所定の利用者により指定された専門語または専門分野を受け付ける入力手段と、
前記入力手段により受け付けられた専門語または前記入力手段により受け付けられた専門分野に対応する専門語に対して、前記集計手段によって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索手段と、
前記専門語抽出手段により抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供手段と
を備えることを特徴とする、専門家抽出装置。
An expert extraction device that extracts an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document,
A dictionary in which multiple technical terms are registered,
By referring to the dictionary, the terminology extracting means for extracting the terminology included in the electronic document and extracting an unknown word not registered in the dictionary;
A totaling unit that counts the association frequency including at least one of the number of extractions of the technical terms extracted by the technical term extraction unit and a value corresponding to the number of extractions in association with the person related to the electronic document;
An input means for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the tabulating means with respect to the technical word accepted by the input means or the technical term corresponding to the specialized field accepted by the input means. A search means for extracting
An expert extraction device comprising: an unknown word providing unit that supplies the unknown word extracted by the technical word extraction unit to a predetermined dictionary providing device outside the device.
前記専門語抽出手段は、前記未知語を含む複数の文字列を抽出し、
前記未知語提供手段は、前記専門語抽出手段により抽出された前記複数の文字列のうちの一部または全部を前記辞書提供装置へ与えることを特徴とする、請求項1に記載の専門家抽出装置。
The technical term extraction means extracts a plurality of character strings including the unknown word,
2. The expert extraction according to claim 1, wherein the unknown word providing unit provides a part or all of the plurality of character strings extracted by the technical word extracting unit to the dictionary providing apparatus. apparatus.
前記複数の文字列のうち前記辞書提供装置へ与えるべき範囲を、予め定められた複数の区切り方法から前記利用者により択一的に選択された区切り方法に基づき設定する区切り設定手段をさらに備えることを特徴とする、請求項2に記載の専門家抽出装置。   It further comprises delimiter setting means for setting a range to be given to the dictionary providing device among the plurality of character strings based on a delimiter method that is alternatively selected by the user from a plurality of predetermined delimiter methods. The expert extraction device according to claim 2, wherein: 前記複数の文字列のうち前記辞書提供装置へ与えるべき文字列を、前記利用者により選択させる文字列選択手段をさらに備えることを特徴とする、請求項2に記載の専門家抽出装置。   The expert extraction device according to claim 2, further comprising a character string selection unit that allows the user to select a character string to be given to the dictionary providing device among the plurality of character strings. 前記専門語抽出手段は、既に抽出された前記未知語を参照することにより、前記電子文書に含まれる既に抽出された未知語を前記専門語として抽出することを特徴とする、請求項1に記載の専門家抽出装置。   The technical term extraction unit extracts an unknown word that has already been extracted included in the electronic document as the technical term by referring to the unknown word that has already been extracted. Expert extraction equipment. 前記辞書に代わるべき新たな辞書を前記辞書提供装置から受け取るとともに、前記未知語が前記新たな辞書に登録されている場合、前記未知語の関連度数および対応づけられた者を、前記新たな辞書に登録されている前記未知語に相当する専門語の関連度数および対応づけられた者として引き継ぐ辞書受け取り手段をさらに備えることを特徴とする、請求項1に記載の専門家抽出装置。   When a new dictionary to replace the dictionary is received from the dictionary providing device and the unknown word is registered in the new dictionary, the degree of association of the unknown word and the associated person are determined as the new dictionary. The expert extraction device according to claim 1, further comprising: a dictionary receiving unit that takes over as the association degree of the technical word corresponding to the unknown word registered in and the person who is associated with the unknown word. 前記専門分野と前記専門語との対応関係が登録された専門分野データをさらに備え、
前記辞書受け取り手段は、前記専門分野データに代わるべき新たな専門分野データを前記辞書提供装置から受け取るとともに、前記未知語が前記新たな専門分野データに登録されている場合、前記未知語の関連度数および対応づけられた者を、前記新たな専門分野データに登録されている専門分野に対応する前記未知語に相当する専門語の関連度数および対応づけられた者として引き継ぐことを特徴とする、請求項6に記載の専門家抽出装置。
Further comprising specialized field data in which the correspondence between the specialized field and the technical term is registered;
The dictionary receiving means receives new specialized field data to be substituted for the specialized field data from the dictionary providing device, and when the unknown word is registered in the new specialized field data, the association frequency of the unknown word And the associated person is taken over as the related frequency of the technical term corresponding to the unknown word corresponding to the specialized field registered in the new specialized field data and the associated person. Item 7. The expert extraction device according to Item 6.
前記未知語提供手段は、前記辞書提供装置へ与えられるべき前記未知語を含むデータを暗号化する暗号処理手段を含むことを特徴とする、請求項1に記載の専門家抽出装置。   The expert extraction device according to claim 1, wherein the unknown word providing unit includes an encryption processing unit that encrypts data including the unknown word to be given to the dictionary providing device. 前記暗号処理手段は、公開鍵暗号方式を使用することにより、前記辞書提供装置に対応する所定の公開鍵に基づき前記データを暗号化することを特徴とする、請求項8に記載の専門家抽出装置。   9. The expert extraction according to claim 8, wherein the cryptographic processing means encrypts the data based on a predetermined public key corresponding to the dictionary providing device by using a public key cryptosystem. apparatus. 複数の専門語が登録された辞書と、前記辞書を参照することにより所定の電子文書に含まれる前記専門語を抽出するとともに前記辞書に登録されていない未知語を抽出する専門語抽出手段と、前記専門語抽出手段により抽出された前記未知語を装置外部へ与える未知語提供手段とを備える専門家抽出装置から前記未知語を受け取り、新たに作成された辞書を前記専門家抽出装置に与える辞書提供装置であって、
前記専門家抽出装置から前記未知語を受け取る未知語受け取り手段と、
受け取られた前記未知語の一部または全部を含む新たな辞書を作成する辞書作成手段と、
前記辞書作成手段により作成された新たな辞書を前記専門家抽出装置に与える辞書提供手段とを備えることを特徴とする、辞書提供装置。
A dictionary in which a plurality of technical terms are registered, and a technical term extraction unit that extracts the technical terms contained in a predetermined electronic document by referring to the dictionary and extracts unknown words that are not registered in the dictionary; A dictionary that receives the unknown word from an expert extraction device including an unknown word providing unit that supplies the unknown word extracted by the technical word extraction unit to the outside of the device, and gives a newly created dictionary to the expert extraction device A providing device,
An unknown word receiving means for receiving the unknown word from the expert extraction device;
A dictionary creating means for creating a new dictionary including part or all of the received unknown words;
A dictionary providing device, comprising: a dictionary providing unit that provides the expert extracting device with a new dictionary created by the dictionary creating unit.
前記辞書作成手段は、前記未知語受け取り手段により受け取られた未知語が専門語であるか否か判定し、専門語であると判定された場合にのみ前記新たな辞書に登録する専門語解析手段を含むことを特徴とする、請求項10に記載の辞書提供装置。   The dictionary creating means determines whether or not the unknown word received by the unknown word receiving means is a technical word, and only when it is determined that the unknown word is a technical word, specialized word analyzing means for registering in the new dictionary The dictionary providing apparatus according to claim 10, comprising: 前記未知語受け取り手段により受け取られた未知語に対応する量に応じて、前記新たな辞書を提供する料金に対する割引評価を行う顧客データ評価手段をさらに備えることを特徴とする、請求項10に記載の辞書提供装置。   The customer data evaluation unit according to claim 10, further comprising a customer data evaluation unit that performs a discount evaluation on a fee for providing the new dictionary according to an amount corresponding to an unknown word received by the unknown word reception unit. Dictionary providing device. 前記未知語受け取り手段は、前記未知語を含む複数の文字列を受け取り、
前記顧客データ評価手段は、前記複数の文字列に対応する量に応じて、前記割引評価を行うことを特徴とする、請求項12に記載の辞書提供装置。
The unknown word receiving means receives a plurality of character strings including the unknown word,
The dictionary providing apparatus according to claim 12, wherein the customer data evaluation unit performs the discount evaluation according to an amount corresponding to the plurality of character strings.
前記顧客データ評価手段は、前記未知語受け取り手段により受け取られた未知語のうち、前記辞書作成手段により専門語であると判定された未知語に対応する量に応じて前記割引評価を行うことを特徴とする、請求項12または請求項13に記載の辞書提供装置。   The customer data evaluation means performs the discount evaluation according to an amount corresponding to an unknown word determined to be a technical word by the dictionary creation means among the unknown words received by the unknown word receiving means. The dictionary providing apparatus according to claim 12 or 13, characterized in that it is characterized in that: 所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置であって、複数の専門語が登録された辞書と、前記辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出手段と、前記専門語抽出手段により抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計手段と、所定の利用者により指定された専門語または専門分野を受け付ける入力手段と、前記入力手段により受け付けられた専門語または前記入力手段により受け付けられた専門分野に対応する専門語に対して、前記集計手段によって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索手段と、前記専門語抽出手段により抽出された前記未知語を装置外部の所定の辞書提供装置へ所定の通信回線を介して与える未知語提供手段とを備える専門家抽出装置と、
複数の専門語が登録された辞書と、前記辞書を参照することにより所定の電子文書に含まれる前記専門語を抽出するとともに前記辞書に登録されていない未知語を抽出する専門語抽出手段と、前記専門語抽出手段により抽出された前記未知語を装置外部へ与える未知語提供手段とを備える専門家抽出装置から前記未知語を受け取り、新たに作成された辞書を前記専門家抽出装置に与える辞書提供装置であって、前記専門家抽出装置から前記通信回線を介して前記未知語を受け取る未知語受け取り手段と、受け取られた前記未知語の一部または全部を含む新たな辞書を作成する辞書作成手段と、前記辞書作成手段により作成された新たな辞書を前記通信回線を介して前記専門家抽出装置に与える辞書提供手段とを備える辞書提供装置と
を備えることを特徴とする、辞書更新システム。
An expert extraction device that extracts an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document, wherein a dictionary in which a plurality of technical terms are registered, and the dictionary is referred to, Extracting the technical terms contained in the electronic document, extracting technical terms that are not registered in the dictionary, and extracting the technical terms extracted by the technical terms extracting means A totaling means for counting the association frequency including at least one of the corresponding values in association with a person related to the electronic document, an input means for receiving a technical term or a specialized field designated by a predetermined user, Corresponding to the technical terms accepted by the input means or the technical terms corresponding to the specialized field accepted by the input means with the highest relevance frequency by the aggregation means A search means for extracting the expert by searching for a registered person, and an unknown word that gives the unknown word extracted by the technical word extraction means to a predetermined dictionary providing apparatus outside the apparatus via a predetermined communication line An expert extraction device comprising providing means;
A dictionary in which a plurality of technical terms are registered, and a technical term extraction unit that extracts the technical terms contained in a predetermined electronic document by referring to the dictionary and extracts unknown words that are not registered in the dictionary; A dictionary that receives the unknown word from an expert extraction device including an unknown word providing unit that supplies the unknown word extracted by the technical word extraction unit to the outside of the device, and gives a newly created dictionary to the expert extraction device An apparatus for providing an unknown word receiving means for receiving the unknown word from the expert extraction device via the communication line and a dictionary creation for creating a new dictionary including a part or all of the received unknown word And a dictionary providing device comprising: a dictionary providing device for providing the new dictionary created by the dictionary creating device to the expert extracting device via the communication line. And wherein the door, dictionary update system.
所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置の制御方法であって、
複数の専門語が登録された辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出ステップと、
前記専門語抽出ステップにおいて抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計ステップと、
所定の利用者により指定された専門語または専門分野を受け付ける入力ステップと、
前記入力ステップにおいて受け付けられた専門語または前記入力ステップにおいて受け付けられた専門分野に対応する専門語に対して、前記集計ステップによって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索ステップと、
前記専門語抽出ステップにおいて抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供ステップと
を含むことを特徴とする、制御方法。
A method for controlling an expert extraction device that extracts an expert who is presumed to be familiar with a predetermined technical term based on a predetermined electronic document,
A technical term extraction step of extracting the technical terms contained in the electronic document by referring to a dictionary in which a plurality of technical terms are registered, and extracting unknown words that are not registered in the dictionary;
A tabulation step of tabulating the number of associations including at least one of the number of extractions of the technical terms extracted in the technical term extraction step and a value corresponding to the number of extractions in association with a person related to the electronic document;
An input step for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the aggregation step with respect to the technical word accepted in the input step or the technical term corresponding to the technical field accepted in the input step. A search step to extract
A control method comprising: an unknown word providing step of providing the unknown word extracted in the technical word extraction step to a predetermined dictionary providing device outside the device.
所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置に、
複数の専門語が登録された辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出ステップと、
前記専門語抽出ステップにおいて抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計ステップと、
所定の利用者により指定された専門語または専門分野を受け付ける入力ステップと、
前記入力ステップにおいて受け付けられた専門語または前記入力ステップにおいて受け付けられた専門分野に対応する専門語に対して、前記集計ステップによって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索ステップと、
前記専門語抽出ステップにおいて抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供ステップと
を実行させる、制御プログラム。
To an expert extraction device that extracts experts who are assumed to be familiar with a given technical term based on a given electronic document,
A technical term extraction step of extracting the technical terms contained in the electronic document by referring to a dictionary in which a plurality of technical terms are registered, and extracting unknown words that are not registered in the dictionary;
A tabulation step of tabulating the number of associations including at least one of the number of extractions of the technical terms extracted in the technical term extraction step and a value corresponding to the number of extractions in association with a person related to the electronic document;
An input step for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the aggregation step with respect to the technical word accepted in the input step or the technical term corresponding to the technical field accepted in the input step. A search step to extract
A control program for executing an unknown word providing step of providing the unknown word extracted in the technical word extraction step to a predetermined dictionary providing device outside the device.
所定の電子文書に基づき、所定の専門語に詳しいと推測される専門家を抽出する専門家抽出装置に、
複数の専門語が登録された辞書を参照することにより、前記電子文書に含まれる前記専門語を抽出するとともに、前記辞書に登録されていない未知語を抽出する専門語抽出ステップと、
前記専門語抽出ステップにおいて抽出された専門語の抽出回数と当該抽出回数に相当する値との少なくとも一方を含む関連度数を、前記電子文書に関連する者と対応づけて集計する集計ステップと、
所定の利用者により指定された専門語または専門分野を受け付ける入力ステップと、
前記入力ステップにおいて受け付けられた専門語または前記入力ステップにおいて受け付けられた専門分野に対応する専門語に対して、前記集計ステップによって最も高い関連度数で対応づけられた者を検索することにより前記専門家を抽出する検索ステップと、
前記専門語抽出ステップにおいて抽出された前記未知語を装置外部の所定の辞書提供装置へ与える未知語提供ステップと
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
To an expert extraction device that extracts experts who are assumed to be familiar with a given technical term based on a given electronic document,
A technical term extraction step of extracting the technical terms contained in the electronic document by referring to a dictionary in which a plurality of technical terms are registered, and extracting unknown words that are not registered in the dictionary;
A tabulation step of tabulating the number of associations including at least one of the number of extractions of the technical terms extracted in the technical term extraction step and a value corresponding to the number of extractions in association with a person related to the electronic document;
An input step for accepting a technical term or specialized field designated by a predetermined user;
The expert is searched by searching for a person who is associated with the highest relevance frequency by the aggregation step with respect to the technical word accepted in the input step or the technical term corresponding to the technical field accepted in the input step. A search step to extract
A computer-readable recording medium recording a program for executing an unknown word providing step of supplying the unknown word extracted in the technical word extraction step to a predetermined dictionary providing device outside the device.
JP2005152451A 2005-05-25 2005-05-25 Specialist extraction device and dictionary provision device Pending JP2006331001A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005152451A JP2006331001A (en) 2005-05-25 2005-05-25 Specialist extraction device and dictionary provision device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005152451A JP2006331001A (en) 2005-05-25 2005-05-25 Specialist extraction device and dictionary provision device

Publications (1)

Publication Number Publication Date
JP2006331001A true JP2006331001A (en) 2006-12-07

Family

ID=37552639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005152451A Pending JP2006331001A (en) 2005-05-25 2005-05-25 Specialist extraction device and dictionary provision device

Country Status (1)

Country Link
JP (1) JP2006331001A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049453A (en) * 2011-10-14 2013-04-17 英业达股份有限公司 System and method for screening words to generate personalized dictionary software
US9183600B2 (en) 2013-01-10 2015-11-10 International Business Machines Corporation Technology prediction
US10585922B2 (en) 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
WO2021189291A1 (en) * 2020-03-25 2021-09-30 Metis Ip (Suzhou) Llc Methods and systems for extracting self-created terms in professional area

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049453A (en) * 2011-10-14 2013-04-17 英业达股份有限公司 System and method for screening words to generate personalized dictionary software
US9183600B2 (en) 2013-01-10 2015-11-10 International Business Machines Corporation Technology prediction
US10585922B2 (en) 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
US11308139B2 (en) 2018-05-23 2022-04-19 International Business Machines Corporation Finding a resource in response to a query including unknown words
WO2021189291A1 (en) * 2020-03-25 2021-09-30 Metis Ip (Suzhou) Llc Methods and systems for extracting self-created terms in professional area

Similar Documents

Publication Publication Date Title
US8407781B2 (en) Information providing support device and information providing support method
EP1411448A2 (en) Data searching apparatus
JP3578450B2 (en) Electronic document real name / anonymous word map creation device and program, electronic document anonymization device and program, electronic document real name creation device and program
JP2011501258A (en) Information extraction apparatus and method
JP2004362223A (en) Information mining system
CN102456071A (en) File management apparatus and file management method
CN107657029A (en) The detection method and device of the annex to pass into silence
WO2011040025A1 (en) Method for setting metadata, system for setting metadata, and program
JP5294002B2 (en) Document management system, document management program, and document management method
JP2006331001A (en) Specialist extraction device and dictionary provision device
JP4900158B2 (en) Search system, method and program
JP6025487B2 (en) Forensic analysis system, forensic analysis method, and forensic analysis program
JP6898542B2 (en) Information processing device, its control method, and program
JP4682549B2 (en) Classification guidance device
JP5123032B2 (en) Information distribution apparatus, information distribution method, information distribution program, and recording medium
JP3722672B2 (en) Designated word related person information extracting device, computer-readable recording medium recording designated word related person information extracting program, and set word related person frequency counting device
JP2001216311A (en) Event analyzing device and program device stored with event analyzing program
US20090287654A1 (en) Device for identifying electronic file based on assigned identifier
JP2004213104A (en) Data providing method, data providing program and data providing device
JP5640700B2 (en) Information search device, search input method, and search input program
JP2012043258A (en) Retrieval system, retrieval device, retrieval program, recording medium and retrieval method
JP2000172698A (en) System and method for retrieving document and computer-readable recording medium with program for executing the method recorded therein
JP2021086400A (en) Information processing device, instruction statement data producing method and program
JPH09245046A (en) Information retrieval device
KR101494963B1 (en) Information Management System and Information Management Method for Managing Integrated Resource