JPH11184890A - Device for preparing dictionary on individual concern - Google Patents

Device for preparing dictionary on individual concern

Info

Publication number
JPH11184890A
JPH11184890A JP9364535A JP36453597A JPH11184890A JP H11184890 A JPH11184890 A JP H11184890A JP 9364535 A JP9364535 A JP 9364535A JP 36453597 A JP36453597 A JP 36453597A JP H11184890 A JPH11184890 A JP H11184890A
Authority
JP
Japan
Prior art keywords
proper
word
abstract
proper word
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9364535A
Other languages
Japanese (ja)
Inventor
Mamiko Oka
満美子 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP9364535A priority Critical patent/JPH11184890A/en
Publication of JPH11184890A publication Critical patent/JPH11184890A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To prepare a dictionary for obtaining individual concern by extracting word and phrase (proper word) indicating an area of his knowledge in which he is interested from text data written by himself. SOLUTION: A document including text data prepared by a specific individual stored in an information storing means 1 is analyzed based on a morpheme so as to be segmented into joints of words and phrases by a text analyzing means 2, and words concurring with a proper noun in a predetermined unit in the text data are extracted as an abstract proper word candidate indicating the knowledge area of the specific individual who prepares the text, data, the proper noun is extracted, and concurrence frequency with each abstract proper word is counted by a analyzing means 3. Then, an abstract proper word extracting means 4 extracts an abstract proper word from abstract proper word candidates by using the concurrence frequency of the proper noun as a reference, and a concrete proper word extracting means 5 extracts a proper noun concurring with the extracted abstract proper word as a concrete proper word indicating concrete concern of the specific individual in the area indicated by the abstract proper word, and a proper word dictionary means 7 holds the extracted abstract proper word and the concrete proper word by making them correspond to each other.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術の分野】本発明は、個人が関心(興
味や知見等も含む)をもつ知識領域を表す語句(以下、
固有語と呼ぶ)を当該個人が書いたテキストデータから
抽出して、当該個人の関心事を把握するための辞書を作
成する装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a phrase (hereinafter, referred to as a phrase) representing a knowledge area in which an individual has an interest (including an interest and knowledge).
(Referred to as proper words) from text data written by the individual, and to create a dictionary for grasping the interests of the individual.

【0002】[0002]

【従来の技術】最近、例えば、会議への出席者の選定や
メールの宛先の選定等に供するために、個性や特徴とい
った個人の固有性データの必要性が増している。近年、
日本においても、以前に比べて個人主義的な傾向が強ま
りつつある。これにより、各個人の個性が求められるよ
うになりつつあり、また、他人と異なる個性が積極的に
活用される場が増えつつある。
2. Description of the Related Art In recent years, there has been an increasing need for personal uniqueness data such as individuality and characteristics in order to provide, for example, the selection of attendees to conferences and the selection of mail destinations. recent years,
Even in Japan, the tendency toward individualism has been growing more than before. As a result, the individuality of each individual is being demanded, and the number of places where personalities different from others are actively utilized is increasing.

【0003】一方、従来は様々なコミュニケーションが
物理的な距離に大きく制約されていたが、ネットワーク
等の発達により、必ずしも物理的に近くない人とのコミ
ュニケーションや協業の可能性が大きくなってきた。こ
れらにより、例えば、ある問題を解決するのに最もふさ
わしい人を広範囲に探したり、自分と興味が合う人を探
して知り合いになるといった広範囲での人選の必要性が
感じられるようになってきた。
[0003] On the other hand, conventionally, various types of communication have been greatly limited by physical distance, but with the development of networks and the like, the possibility of communication and collaboration with people who are not always physically close has increased. As a result, for example, it has become necessary to find a person who is most suitable for solving a certain problem, or to find a person who is interested in oneself and become acquainted with him.

【0004】これに対して、従来では、例えば、何か解
決したい問題が生じた場合には、ネットニュースやメイ
リング・リストを通じて不特定多数に呼びかけるという
方法や、ネットニュース上に投稿されている記事やホー
ムぺージの内容から判断して、問題を解決してくれそう
だと思われる人に対して電子メイルなどを送り、解決を
依頼するというような、ユーザ主導の方法がとられてい
る。
[0004] On the other hand, conventionally, for example, when a problem to be solved arises, a method of calling an unspecified majority through a net news or a mailing list or an article posted on the net news Judging from the contents of the website and the home page, a user-led method is adopted in which an e-mail or the like is sent to a person who seems to solve the problem and a request is made for a solution.

【0005】しかしながら、前者の場合には、不特定多
数の相手に対して呼びかけるため、呼びかけられる相手
側には自分に依頼されているという意識が少なく、呼び
かけに答えるかどうかは相手の善意等に大きく依存する
上に、本当にふさわしい人が誰かは呼びかける側からは
わからない。また、後者の場合には、特定の個人に対し
て依頼されるため、前者に比べれば依頼に答えてもらえ
る可能性は高いが、現状では、偶然見たその人の投稿や
ホームページといった偶然性の強い情報に頼っているた
め、本当にふさわしい人を見つけるのは困難である。な
お、この場合に、検索エンジン等を利用してホームペー
ジを検索して探すこともできるが、実際に内容を全部読
んだりしない限り、ふさわしい人を見つけるのは困難で
あり、また、ふさわしい人を見つけるのにはユーザの負
担が非常に大きい。
[0005] However, in the former case, since the call is made to an unspecified number of opponents, the opponent who is called has little consciousness that the request is made by himself, and whether or not to answer the call depends on the good intentions of the opponent. Who depends heavily and who is truly worthy of the caller. In the case of the latter, since the request is made to a specific individual, it is more likely that the request will be answered than in the former case. Relying on information makes it difficult to find the right person. In this case, it is possible to use a search engine or the like to search and search the homepage, but it is difficult to find a suitable person without actually reading the entire contents, and to find a suitable person However, the burden on the user is very large.

【0006】このため、近年、ある領域に関心や知見を
もつ人を探したり、興味が一致する人同士を紹介したり
するようなシステムが考えられ始めている。このような
システムにおいて、人選がうまく行われるためには、各
個人がどういう分野に知識や興味を持っているかといっ
た、知識領域の固有性のデータが必要になってくる。な
お、ここでの知識領域という語は、必ずしも学問の領域
のような純粋に知的なものだけを指すのではなく、趣味
などに関するものや、日常生活上の関心領域など、さま
ざまなものを指して用いている。
For this reason, in recent years, a system for searching for a person who has an interest or knowledge in a certain area or introducing people who have the same interest has begun to be considered. In such a system, in order for a person to be selected successfully, data on the uniqueness of the knowledge domain, such as what field each individual has knowledge and interest, is required. The term knowledge domain here does not necessarily refer only to purely intellectual things such as academic fields, but also to various things such as those related to hobbies and areas of interest in everyday life. Used.

【0007】スペシャリストや興味を同じくするグルー
プの紹介といった、一種の人選を前提とした興味領域の
表現手法の従来技術としては、特開平9−44470号
公報に開示されているものがある。この発明は、興味領
域とその領域での情報処理能力を同時に表現しようとす
るものである。この中で興味領域の表現に着目すると、
特定の人の興味領域はキーワードで表されており、その
キーワードは、その人が送受信した電子メイルのコンテ
ンツから抽出されている。抽出方法は、やり取りされて
いる電子メイル全体(その人が関係しないものも含む)
における単語の出現頻度に対する特定の人が送受信した
電子メイルにおける単語の出現頻度の比に基づくもの
で、従来の情報検索のためのキーワード抽出の手法を用
いたものである。また、「分散型人脈活用支援システム
における人脈データベースの構築」(重点領域研究「高
度データベース」松江ワークショップ講演論文集Vol.1,
pp109-114 (1996))では、二人の間でやりとりされた
電子メイルのサブジェクトに含まれる語を、二人に共通
の興味領域として抽出する技術が開示されている。この
ように、従来においては、個人の関心領域は、単独のキ
ーワード群で表されているだけであった。
Japanese Patent Application Laid-Open No. 9-44470 discloses a conventional technique for expressing a region of interest based on a kind of selection, such as introduction of a specialist or a group having the same interest. The present invention seeks to simultaneously express a region of interest and information processing capability in that region. Focusing on the expression of the area of interest in this,
The region of interest of a specific person is represented by a keyword, and the keyword is extracted from the contents of electronic mail transmitted and received by the person. The extraction method is the whole e-mail exchanged (including those not related to the person)
This is based on the ratio of the frequency of appearance of words in an electronic mail transmitted and received by a specific person to the frequency of appearance of words in, and uses a conventional keyword extraction technique for information retrieval. In addition, "Construction of personal network database in distributed personal network utilization support system" (Priority Area Research "Advanced Database" Matsue Workshop Proceedings Vol.1,
pp109-114 (1996)) discloses a technique for extracting words included in a subject of an electronic mail exchanged between two people as a region of interest common to the two people. As described above, conventionally, the region of interest of an individual is simply represented by a single keyword group.

【0008】[0008]

【発明が解決しようとする課題】ところが、個人に対し
て、自分の関心領域を表す語(以下、固有語と呼ぶ)を
自由に好きなだけ列挙してもらう実験を行ったところ、
その結果から次のような特徴があることがわかった。 (1)例えば固有語が50個列挙されている場合、その
人は50個の独立した領域に対して関心を持っているわ
けではなく、関心を持っている領域は幾つかの領域に分
けられる。 (2)ひとつひとつの関心領域は、かなり抽象的なもの
から、非常に具体的なものまで、異なる抽象レベルの語
で構成される。 (3)具体的な語としては、人名、地名、小説や映画の
名前、商品名など、固有名詞が多く挙げられている。 (4)ひとつの領域を構成する語は互いに関連を持つ
が、その関係はシソーラスに表されるような厳密な上下
関係というわけではなく、様々な意味、コンテキストに
基づく関係をもつ。また、それはしばしば、その個人の
経験や価値観に基づく、その人独自のものである。
However, an experiment was conducted in which individuals were allowed to freely enumerate words representing their area of interest (hereinafter referred to as proper words) as many times as desired.
As a result, the following characteristics were found. (1) For example, when 50 proper words are listed, the person is not interested in the 50 independent regions, and the region of interest is divided into several regions. . (2) Each region of interest is composed of words at different levels of abstraction, from very abstract to very specific. (3) Specific words include many proper nouns such as personal names, place names, novel and movie names, and product names. (4) The words that constitute one region are related to each other, but the relationship is not a strict hierarchical relationship as expressed in a thesaurus, but has a relationship based on various meanings and contexts. It is also often personal, based on the individual's experience and values.

【0009】例えば、ある個人が挙げた固有語のうち、
「文学」の領域に関連するものを、互いの関係を元に図
式化したものを図8に示す。すなわち、単に「文学」と
いう領域でも「小説」と「国文学」という異なる関心領
域があり、その「小説」の中でも「推理小説」と「少女
小説」との領域に分けられる。更に、「谷崎潤一郎」や
「横溝正史」等といった具体的な関心対象は各領域に対
して別個或いは重複した関連を有している。
For example, among the proper words given by an individual,
FIG. 8 shows a diagram related to the area of "literature" based on the relationship between the two. That is, even in the area of "literature", there are different areas of interest such as "novel" and "national literature", and the "novel" can be divided into the areas of "sense of novel" and "girl novel". Further, specific objects of interest such as “Junichiro Tanizaki” and “Masashi Yokomizo” have separate or overlapping relations to each region.

【0010】ディスカッションや問題解決において誰が
ふさわしいかを選ぶ場合、「どういう領域に関心がある
か」という抽象的な領域と、その中で実際にどういうと
ころに詳しかったり関心が強かったりするのかといった
具体的な対象が共に必要である。抽象的な領域で興味が
一致している場合でも、具体的な関心対象はまったく異
なっていて、ぜんぜん話が合わないという場合もある。
また、例えば、具体的な興味の対象として例えば同じ小
説を挙げていたとしても、一方は文学に興味がありその
中で特にその小説が好きであり、もう一方は文学には関
心がないが、アフリカに興味があり、その小説がアフリ
カを描いているために関心を持っている、というような
場合もある。このように、自分の関心を抽象度の違う語
で表すことにより、お互いの意味を補強し合うことにな
るため、個人の関心領域をより正確に表すには、固有語
は、単独のキーワードではなく、抽象度の異なるキーワ
ードの組で表す必要がある。
[0010] When choosing who is appropriate in discussions and problem solving, specific areas such as an abstract area of "what kind of area are you interested in?" Are needed together. Even if the interests are the same in the abstract domain, the specific objects of interest may be completely different, and the story may not match at all.
Also, for example, even if the same novel is cited as a specific object of interest, for example, one is interested in literature and particularly likes the novel, and the other is not interested in literature, Sometimes you are interested in Africa, and you are interested because the novel describes Africa. In this way, by expressing one's interests in terms of different levels of abstraction, one reinforces each other's meanings. Instead, they must be represented by a set of keywords with different levels of abstraction.

【0011】しかしながら、このような固有語を、ユー
ザ自身に列挙してもらうことは、ユーザにとって大きな
負担となり、その場ですべてを思いつくことはかなり困
難であり、また、抜けが多くなる。また、列挙してもら
ったとしても、列挙してもらった時の関心などに大きく
左右される結果になり、かなり恣意的なものとなってし
まう。さらに、関連する語句をまとめることも、ユーザ
にとって大きな負担となる。上述の例では単純化して
「文学」に関するものだけを示したが、具体的な関心事
は、複数の領域にまたがっていたりするため、非常に煩
雑である。
However, having the user enumerate such proper words puts a heavy burden on the user, and it is quite difficult to come up with everything on the spot, and there are many omissions. Also, even if they are enumerated, the result is greatly influenced by the interest at the time of enumeration, and it is quite arbitrary. In addition, putting together related phrases puts a heavy burden on the user. In the above example, only "literature" is shown for simplicity. However, specific interests are extremely complicated because they cover a plurality of areas.

【0012】ここで、このような語句の関連を表したも
のとしてシソーラスがあり、シソーラスを利用した自動
的な関連付けや階層化が考えられる。しかしながら、シ
ソーラスは基本的に語の上位−下位関係を表したもので
あるが、固有語間の関係は上下関係ではないものが多い
ため適用するに適していない。さらに、現在、入手でき
る既存のシソーラスでは、固有名詞は一部の地名など以
外記載されておらず、例え記載されているとしても、商
品名や番組名のような日々増えていく語句に対してサポ
ートされることは難しい。
Here, there is a thesaurus as a representation of such word / phrase association, and automatic association or hierarchization using the thesaurus can be considered. However, the thesaurus basically represents the superordinate-subordinate relation of words, but the relation between proper words is not suitable for application because many of them have no hierarchical relation. Furthermore, in the existing thesaurus that is currently available, proper nouns are not described except for some place names, etc., and even if they are listed, words that are increasing every day such as product names and program names It is difficult to be supported.

【0013】上記のような事情から、固有語の組をユー
ザに負担をかけることなく、自動的に抽出する方法が必
要である。そこで、実際には、図8に示したように、数
段階の階層関係を持つものもあるが、まず、特に重要で
ある最も下位にある具体的な固有語と、それより上の階
層にあるより抽象的な固有語という2段階の組の抽出を
考える。抽出する対象として、一般的にある人の関心が
表われているものとして、そのユーザが作成したテキス
ト情報が考えられる。ここでは、洩れを減らすため、論
文のようなオフィシャルなものから電子メイルのような
日常的、プライヴェートなものまで含む種々のテキスト
で、かつある程度長い期間の間に書かれた、大量のテキ
ストを想定する。
Under the circumstances described above, there is a need for a method of automatically extracting a set of proper words without burdening the user. Therefore, as shown in FIG. 8, there are actually some hierarchical relationships having several levels, but first, the most specific concrete words at the lowest level, which are particularly important, and Consider the extraction of a two-stage set of more abstract proper words. As an object to be extracted, text information created by the user can be considered as generally showing the interest of a certain person. Here, to reduce leakage, we assume a large amount of text written in various texts, from official ones such as dissertations to everyday and private ones such as e-mail, and for a certain period of time. I do.

【0014】従来、互いに関連を持つ語(以下、関連語
と呼ぶ)をテキストから自動的に抽出する方法として
は、語句の共出現頻度に基づくものがある。特開平6−
168272号公報には、あるキーワードに対する関連
語を作成するために、もとのキーワードを含む文書内に
現れる他の語のうち、文書データベース全体における出
現頻度に対して、もとのキーワードを含む文書内に現れ
る頻度の高いものをもとのキーワードの関連語とする発
明が開示されている。このような方法によれば、シソー
ラスにはない上下関係以外の関連語も抽出することがで
きる。しかしながら、このような関連語抽出方法は、情
報検索において、指定したキーワードを含む大量の文書
において、どのような関連語が使われているかを提示し
て、ユーザが結果を絞り込めるようにするためのもので
あり、結果の絞り込みにとっては有効な関連語でも、抽
象度の異なる語の組といった点を考慮したものではなか
った。
Conventionally, as a method for automatically extracting words having a relationship with each other (hereinafter referred to as related words) from text, there is a method based on the co-occurrence frequency of words and phrases. JP-A-6
Japanese Patent Publication No. 168272 discloses that, in order to create a related word for a certain keyword, a document containing the original keyword is compared with the appearance frequency in the entire document database among other words appearing in the document containing the original keyword. There is disclosed an invention in which a keyword that appears frequently in a keyword is related to the original keyword. According to such a method, it is also possible to extract related words other than the upper and lower relations that are not in the thesaurus. However, such a related word extraction method is used in an information search in order to show what related words are used in a large amount of documents including a specified keyword, and to enable a user to narrow down the results. However, even if it is a related word that is effective for narrowing down the results, it does not take into account such points as a set of words with different levels of abstraction.

【0015】本発明は、上記の事情に鑑みてなされたも
のであり、個人の知識領域の固有性を表す語句の組を正
確に抽出し、これを辞書に作成する個人関心事辞書作成
装置を提供することを目的としている。
The present invention has been made in view of the above circumstances, and provides a personal interest dictionary creating apparatus for accurately extracting a set of words representing the uniqueness of an individual's knowledge area and creating the same in a dictionary. It is intended to provide.

【0016】[0016]

【課題を解決するための手段】本発明に係る個人関心事
辞書作成装置は、文書中から当該文書を作成した特定個
人の具体的な関心を表す語を抽出して、辞書にまとめる
個人関心事辞書作成装置であって、情報記憶手段に記憶
されている特定個人によって作成されたテキストデータ
を含む文書を、テキスト解析手段で形態素解析等して語
句の単位に切り分け、共起解析手段によって、テキスト
データ中の予め定めたテキスト単位(例えば、文書毎や
段落等)中で固有名詞と共起する語を当該テキストデー
タを作成した特定個人の知識領域を表す抽象固有語候補
として抽出し、更に、当該固有名詞を抽出して各抽象固
有語候補との共起頻度をカウントする。そして、この共
起する固有名詞の共起頻度を基準として、抽象固有語抽
出手段で抽象固有語候補から抽象固有語を抽出し、更
に、具体固有語抽出手段により、抽出された抽象固有語
と共起する固有名詞を、当該抽象固有語が表す領域での
前記特定個人の具体的な関心を表す具体固有語として抽
出し、これら抽出された抽象固有語と具体固有語とを対
応付けて固有語辞書手段に保持する。
SUMMARY OF THE INVENTION A personal interest dictionary creating apparatus according to the present invention extracts words representing a specific interest of a specific individual who created the document from a document and summarizes the words in a dictionary. A dictionary creation device, which divides a document including text data created by a specific person stored in an information storage unit into phrasal units by morphological analysis or the like by a text analysis unit, and converts the text into text units by a co-occurrence analysis unit. A word that co-occurs with a proper noun in a predetermined text unit (for example, each document or paragraph) in the data is extracted as an abstract proper word candidate representing a knowledge area of a specific individual who created the text data. The proper noun is extracted and the co-occurrence frequency with each abstract proper word candidate is counted. Then, based on the co-occurrence frequency of the co-occurring proper noun, the abstract proper word extracting means extracts an abstract proper word from the abstract proper word candidate, and further, the specific proper word extracting means A co-occurring proper noun is extracted as a specific proper word indicating a specific interest of the specific individual in an area represented by the abstract proper word, and the extracted abstract proper word and the specific proper word are associated with each other to be unique. Stored in word dictionary means.

【0017】また、本発明に係る個人関心事辞書作成装
置では、共起解析手段が、テキストデータ中の予め定め
たテキスト単位中で固有名詞と共起する語を当該テキス
トデータを作成した特定個人の知識領域を表す抽象固有
語候補として抽出し、更に、当該固有名詞を抽出して個
数をカウントし、この抽出された固有名詞数を基準とし
て、抽象固有語抽出手段で抽象固有語候補から抽象固有
語を抽出し、更に、具体固有語抽出手段により、抽出さ
れた抽象固有語と共起する固有名詞を、当該抽象固有語
が表す領域での前記特定個人の具体的な関心を表す具体
固有語として抽出し、これら抽出された抽象固有語と具
体固有語とを対応付けて固有語辞書手段に保持する。
Further, in the personal interest dictionary creating apparatus according to the present invention, the co-occurrence analyzing means may identify a word which co-occurs with a proper noun in a predetermined text unit in the text data by a specific individual who has created the text data. And extract the proper nouns, count the number of proper nouns, and use the extracted proper nouns as a basis to extract abstract proper word candidates from the abstract proper word candidates. A specific noun is extracted, and a specific noun which co-occurs with the extracted abstract proper word is extracted by the specific proper word extracting means. The extracted abstract proper word and the specific proper word are associated with each other and stored in the proper word dictionary means.

【0018】このようにして作成された固有語辞書中の
固有語の組は、その個人にとっての関連語として捉える
ことができ、したがって、人選等における利用のみなら
ず、例えば、情報検索等においても、関連語情報として
その個人に合わせた検索の支援に用いることができる。
例えば、情報検索における関連語の利用には、クエリー
の拡張に用いられる場合と、結果の絞り込みに用いられ
る場合とがある。クエリー拡張の場合は、関連語によっ
てクエリーを拡張して検索することにより、より多くの
結果を得る。一方、結果の絞り込みの場合は、クエリー
の関連語としてどのような語が使われているかによっ
て、ユーザの検索意図に合ったものだけに絞り込む。
The set of proper words in the proper word dictionary created in this way can be regarded as related words for the individual, and therefore can be used not only in personal selection and the like but also in information retrieval and the like. It can be used as related word information to support a search tailored to the individual.
For example, the use of related words in information search may be used to expand a query or may be used to narrow down results. In the case of query expansion, more results are obtained by expanding and searching the query with related words. On the other hand, in the case of narrowing down the results, narrowing down to only those that match the user's search intention depending on what words are used as related words of the query.

【0019】本発明で抽出される固有語は、この両方の
用途に用いることができる。前者の場合には、固有名詞
のような具体的な語は、意味の特定性が高いため、クエ
リーの関連語である固有名詞が含まれている文書を検索
することにより、クエリーの語が含まれていなくても必
要な文書を検索することができる。また、後者の場合に
は、クエリーを満たす文書のうち、どのような固有名詞
が共起しているかによって、ユーザの意図する文書だけ
を検索することができる。更に、本発明で抽出される固
有語は、この他にも、個人の関心領域の情報を必要とす
る、個人の知的な活動を支援するようなあらゆるシステ
ムにおいて利用しうる。
The proper words extracted in the present invention can be used for both of these purposes. In the former case, specific words such as proper nouns have high specificity of meaning, so by searching for documents that contain proper nouns that are related words of the query, the words of the query are included. You can search for necessary documents even if they are not. In the latter case, only documents intended by the user can be searched according to what proper nouns co-occur with documents satisfying the query. Furthermore, the proper words extracted by the present invention can be used in any other system that supports the intellectual activity of the individual, which requires information on the region of interest of the individual.

【0020】[0020]

【発明の実施の形態】本発明の一実施形態を図面を参照
して説明する。図1には、本実施形態に係る個人関心事
辞書作成装置の構成を示してあり、この個人関心事辞書
作成装置は、情報記憶部1、テキスト解析部2、共起解
析部3、抽象固有語抽出部4、具体固有語抽出部5、固
有語登録部6、および固有語辞書7を備えている。な
お、本実施形態における各機能手段2〜6および後述す
る各機能手段21、22、31、32は、予めインスト
ールしたプログラムをコンピュータハードウエア資源を
用いて実行することにより構成される。
An embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows the configuration of a personal interest dictionary creation device according to the present embodiment. The personal interest dictionary creation device includes an information storage unit 1, a text analysis unit 2, a co-occurrence analysis unit 3, an abstract unique It includes a word extraction unit 4, a specific proper word extraction unit 5, a proper word registration unit 6, and a proper word dictionary 7. The function units 2 to 6 and the function units 21, 22, 31, and 32, which will be described later, in the present embodiment are configured by executing a program installed in advance using computer hardware resources.

【0021】情報記憶部1は、例えば、磁気ディスク装
置等といった情報を読み書き自在に記憶する装置を有
し、特定個人によって書かれたテキストデータを含む文
書を複数記憶する。なお、情報記憶部1は、テキスト解
析部2等からネットワーク上の離れた場所に設置しても
よく、また、複数の装置によって構成してもよい。ま
た、上記した文書にはテキストデータの他に絵や図形な
どのデータを含んでいてもよい。
The information storage unit 1 has a device such as a magnetic disk device for storing information in a readable and writable manner, and stores a plurality of documents including text data written by a specific individual. Note that the information storage unit 1 may be installed at a location on the network away from the text analysis unit 2 or the like, or may be configured by a plurality of devices. Further, the above-described document may include data such as a picture or a figure in addition to the text data.

【0022】テキスト解析部2は、情報記憶部1に記憶
されている文書中のテキストデータを解析し、テキスト
データ中の自立語(名詞、形容詞、動詞等)を切り出す
処理を行う。なお、本実施形態では、テキスト解析部2
は形態素解析部21と語処理部22とを備えており、テ
キストデータ中から名詞を切り出す処理を行う。形態素
解析部21は、情報記憶部1に記憶されている文書中の
テキストデータに対して形態素解析を行うことによって
単語に分割し、各単語に品詞情報を付与する処理を行
う。なお、形態素解析は、自然言語処理の基礎技術とし
て広く知られており、例えば「自然言語処理の基礎技
術」(野村浩郷著、社団法人電子情報通信学会、1988)
や「情報処理」(Vol.30, No.10, 1989)の「3.1形
態論」等に記載されている方法により、容易に実現する
ことができる。
The text analysis unit 2 analyzes text data in a document stored in the information storage unit 1 and cuts out independent words (nouns, adjectives, verbs, etc.) in the text data. In the present embodiment, the text analysis unit 2
Is provided with a morphological analysis unit 21 and a word processing unit 22, and performs a process of extracting a noun from text data. The morphological analysis unit 21 divides the text data in the document stored in the information storage unit 1 into words by performing morphological analysis, and performs a process of adding part of speech information to each word. Note that morphological analysis is widely known as a basic technology of natural language processing. For example, “Basic technology of natural language processing” (Hirogo Nomura, The Institute of Electronics, Information and Communication Engineers, 1988)
And information processing (Vol. 30, No. 10, 1989), “3.1 Morphology” and the like.

【0023】語処理部22は、形態素解析部21の解析
結果に基づき、未知語と複合語の処理を行う。例えば、
固有名詞には外来語や新語が多いため、未知語を固有名
詞とみなし、固有名詞の品詞情報を与える。また、漢字
の名詞の連続、カタカナの名詞の連続は複合語と考えら
れるので、まとめてひとつの名詞として品詞情報を与え
る。なお、本実施形態では、既存の形態素解析システム
を用いることを前提として上述のような構成としたが、
本発明はこれに限らず、形態素解析部21と語処理部2
2の処理を同時に行うようにしてもよい。この際、予め
定めたルールに基づいて、例えば、「 」や“ ”など
で囲まれた短い語句を固有名詞とするようにしてもよ
い。
The word processing unit 22 processes unknown words and compound words based on the analysis result of the morphological analysis unit 21. For example,
Since there are many foreign words and new words in proper nouns, unknown words are regarded as proper nouns, and part of speech information of proper nouns is given. In addition, since the continuation of kanji nouns and the continuation of katakana nouns are considered to be compound words, the part of speech information is given as one noun collectively. In the present embodiment, the above-described configuration is based on the premise that an existing morphological analysis system is used.
The present invention is not limited to this, and the morphological analysis unit 21 and the word processing unit 2
2 may be performed simultaneously. At this time, a short phrase surrounded by, for example, "" or "" may be used as a proper noun based on a predetermined rule.

【0024】また、テキスト解析部2に、形態素解析用
の辞書とは別に固有名詞辞書を設け、未知語や複合語を
この辞書中の固有名詞とマッチングして、マッチするも
のは固有名詞とするようにしてもよい。また、本実施形
態では、テキスト解析部2の解析内容として形態素解析
を用いたが、本発明はこれに限らず、共起解析部3で必
要とされる情報にしたがって、構文解析など、さらに深
い解析を行うようにしてもよい。
In addition, a proper noun dictionary is provided in the text analysis unit 2 in addition to the morphological analysis dictionary, and unknown words and compound words are matched with proper nouns in this dictionary, and those that match are proper nouns. You may do so. In the present embodiment, the morphological analysis is used as the analysis content of the text analysis unit 2. However, the present invention is not limited to this, and a deeper analysis such as syntax analysis is performed in accordance with information required by the co-occurrence analysis unit 3. Analysis may be performed.

【0025】共起解析部3は、あるテキスト単位毎に、
固有名詞と共起する語を文書データの作成者の知識領域
を表す抽象固有語候補として抽出し、それぞれの抽象固
有語候補に対して、共起する固有名詞の共起頻度をカウ
ントする。ここで、本実施形態において、「共起する」
とは、「同一テキスト単位中に共存する」ことを指すも
のとするが、本発明はこれに限らず、例えば、文法的な
係り受け関係をもつ場合を指すようにしてもよい。な
お、この場合には、テキスト解析部2において、構文解
析等のさらに深い解析を行うようにすればよい。
The co-occurrence analysis unit 3 provides, for each text unit,
A word co-occurring with a proper noun is extracted as an abstract proper word candidate representing the knowledge area of the creator of the document data, and the co-occurrence frequency of the co-occurring proper noun is counted for each abstract proper word candidate. Here, in the present embodiment, “co-occur”
Means "coexist in the same text unit". However, the present invention is not limited to this, and may refer to, for example, a case having a grammatical dependency relationship. In this case, the text analysis unit 2 may perform a deeper analysis such as a syntax analysis.

【0026】また、テキスト単位とは、本実施形態では
一文書としており、同じ文書内に共に存在していれば
「共起する」とみなす。なお、本発明はこれに限らず、
予め定めたテキスト単位であればどのような単位でもよ
く、例えば、一文、一段落などをテキスト単位としても
よい。また、情報記憶部1に記憶された文書が構造化文
書である場合には、特定のタグによって囲まれた範囲と
してもよい。また、構造的な特徴以外に、一定の行数、
文字数などとしてもよい。文法的な係り受け関係をもつ
場合に「共起する」とする場合には、テキスト単位とし
ては一文を用いるのが好ましい。
The text unit is one document in the present embodiment, and is regarded as “co-occurring” if both are present in the same document. The present invention is not limited to this,
Any unit may be used as long as it is a predetermined text unit. For example, one sentence, one paragraph, or the like may be used as a text unit. When the document stored in the information storage unit 1 is a structured document, the document may be a range surrounded by a specific tag. In addition to the structural features, a certain number of rows,
The number of characters may be used. When "co-occurrence" occurs when there is a grammatical dependency relationship, it is preferable to use one sentence as a text unit.

【0027】また、固有名詞と共起する語として、本実
施形態では名詞を考えており、ここでは、サ変動詞語幹
もサ変名詞とみなして、名詞の中に含め、一方、形式名
詞と固有名詞は除く。以後、本実施形態中の抽象固有語
候補について、断りなく名詞と書いた場合には、上述の
範囲の名詞を指すものとする。なお、本発明はこれに限
らず、要は、個人の固有語となり得る語であれば何でも
よく、例えば、広く自立語全般、名詞と動詞全部などと
してもよく、また、サ変動詞語幹などを含まない名詞の
みとしてもよく、また、目的に応じて形容詞や形容動詞
などとしてもよい。
In this embodiment, a noun is considered as a word co-occurring with a proper noun. In this embodiment, the stem of the sa variant is also regarded as a sa noun, and is included in the noun. Is excluded. Hereinafter, when an abstract proper word candidate in the present embodiment is written as a noun without notice, it refers to a noun in the above range. In addition, the present invention is not limited to this, and the point is that any word that can be an individual proper word may be used, for example, broadly independent words, all nouns and verbs, etc. It may be a noun only, or an adjective or an adjective depending on the purpose.

【0028】本実施形態では、共起解析部3は、単語抽
出部31と共起カウント部32とを備えている。単語抽
出部31は、一文書毎に、文書中の固有名詞と名詞を、
それぞれ重複を除いて抽出し、文書毎の固有名詞リスト
および抽象固有語候補リストを作成する。ここで、重複
を除くとは、例えば固有名詞リストの作成において、同
じ固有名詞が同一文書中に2回以上出てきた場合、2回
目以降は無視するということである。共起カウント部3
2は、全文書の固有名詞リストおよび抽象固有語候補リ
ストから、各抽象固有語候補毎に、共起する固有名詞の
共起頻度(本実施形態の場合、共出現文書数)をカウン
トし、共起リストを作成する。
In the present embodiment, the co-occurrence analysis unit 3 includes a word extraction unit 31 and a co-occurrence counting unit 32. The word extracting unit 31 extracts the proper noun and the noun in the document for each document,
Each list is extracted without duplication, and a proper noun list and an abstract proper word candidate list for each document are created. Here, eliminating duplicate means that, for example, in the creation of a proper noun list, if the same proper noun appears twice or more in the same document, the second and subsequent times are ignored. Co-occurrence counting section 3
2 counts the co-occurrence frequency of co-occurring proper nouns (the number of co-occurring documents in the present embodiment) for each abstract proper word candidate from the proper noun list and the abstract proper word candidate list of all documents, Create a co-occurrence list.

【0029】抽象固有語抽出部4は、共起する各固有名
詞の共起頻度に基づいて、共起リストの抽象固有語候補
の中から、文書の作成者固有の知識領域を表す語を選択
する。この選択の基準は、単純には、共起する固有名詞
が何個以上で、トータルの出現文書数がいくつ以上であ
るといったものである。また、これらの数値を含む評価
式を作り、その評価値が予め決めた値以上になるもの、
あるいは、評価値が大きい方から何%までといった基準
でもよい。また、後述するように共起する固有名詞の個
数や、各固有名詞の出現文書数以外の要素をさらに加味
してもよく、要は、共起する固有名詞の個数および各固
有名詞の出現文書数に基づくものならどのような方法で
もよい。
The abstract proper word extraction unit 4 selects a word representing a knowledge region unique to the creator of the document from the abstract proper word candidates in the co-occurrence list based on the co-occurrence frequency of each co-occurring proper noun. I do. The criterion for this selection is simply that the number of co-occurring proper nouns is more than one, and the total number of appearing documents is more than how many. In addition, an evaluation formula including these numerical values is created, and the evaluation value is equal to or greater than a predetermined value.
Alternatively, a criterion such as a percentage from a larger evaluation value to a percentage may be used. Further, factors other than the number of co-occurring proper nouns and the number of documents of each proper noun may be further added as described later. Any method based on numbers may be used.

【0030】具体固有語抽出部5は、抽象固有語抽出部
4で抽出された各抽象固有語に関連する具体固有語を選
択する。ここでは、選択の基準は、例えば、共起リスト
にある固有名詞のうち、共起頻度が予め決めた数より多
いものを選択する。この選択の基準は、この他に、共起
文書数が多いものからn個選ぶ、全体のn%選ぶなどで
もよく、また、共起頻度以外の基準を組み合わせて選択
するようにしてもよい。
The specific proper word extracting unit 5 selects a specific proper word related to each abstract proper word extracted by the abstract proper word extracting unit 4. Here, as a selection criterion, for example, among the proper nouns in the co-occurrence list, those whose co-occurrence frequency is greater than a predetermined number are selected. In addition, the selection criterion may be, for example, selecting n from the largest number of co-occurring documents, or selecting n% of the total, or a combination other than the co-occurrence frequency.

【0031】固有語登録部6は、抽出された抽象固有語
と具体固有語をセットにして、文書作成者の固有語辞書
7に登録する処理を行う。ここで、各固有名詞の頻度
や、抽象固有語抽出部4、具体固有語抽出部5で算出し
た評価値などを共に登録するようにしてもよい。固有語
辞書7は、例えば、磁気ディスク装置等といった情報を
読み書き自在に記憶する装置で構成されており、上記の
抽象固有語と具体固有語とのセットを個人毎の辞書とし
て記憶する。
The proper word registration unit 6 performs a process of registering the extracted abstract proper word and concrete proper word as a set in the proper word dictionary 7 of the document creator. Here, the frequency of each proper noun, the evaluation value calculated by the abstract proper word extraction unit 4 and the specific proper word extraction unit 5, and the like may be registered together. The proper word dictionary 7 is configured by a device such as a magnetic disk device that stores information in a readable and writable manner, and stores a set of the above-described abstract proper words and specific proper words as a dictionary for each individual.

【0032】次に、上記の個人関心事辞書作成装置によ
って行う、特定個人に対する固有語辞書を作成する処理
を図2〜図7を参照して説明する。なお、情報記憶部1
には、A氏によって作成されたN個の文書が記憶されて
いるものとする。まず、テキスト解析部2の形態素解析
部21において、情報記憶部1に記憶されている全文書
中のテキストデータを形態素解析する(ステップS
1)。すなわち、形態素解析部21は、まず、ある1つ
の文書D1からテキストデータを一文ずつ読み込んで単
語に分割し、各単語に品詞情報を付与する。例えば、テ
キスト中に「ペナンのチャイナタウンは、伝統的な景観
がかなり残されている。」という一文があった場合に
は、形態素解析によって図3に示すように、当該一文を
単語に切り分けてその品詞情報を付与する。このように
文書D1のすべての文の解析が終了すると、形態素解析
部21は次の文書D2に移って同様の解析を行う。
Next, a process of creating a unique word dictionary for a specific individual, which is performed by the personal interest dictionary creating device, will be described with reference to FIGS. The information storage unit 1
Is assumed to store N documents created by Mr. A. First, the morphological analysis unit 21 of the text analysis unit 2 morphologically analyzes text data in all documents stored in the information storage unit 1 (step S).
1). That is, the morphological analysis unit 21 first reads text data from a certain document D1 one sentence at a time, divides the sentence into words, and adds part of speech information to each word. For example, if there is a sentence in the text “Chinatown in Penang has a considerable traditional landscape.” As shown in FIG. 3, the sentence is divided into words by morphological analysis. The part of speech information is added. When the analysis of all the sentences of the document D1 is completed as described above, the morphological analysis unit 21 moves to the next document D2 and performs the same analysis.

【0033】そして、全文書Nについて形態素解析が終
了すると、語処理部22において、未知語と複合語の処
理を行う(ステップS2)。例えば、図3に示した解析
結果が得られた場合、語処理部22の処理が行われる
と、図4に示すように、未知語である「ペナン」が固有
名詞に、名詞の連続である「チャイナ」「タウン」がひ
とつにまとめられて「チャイナタウン」という名詞にな
る。なお、未知語、複合語の処理は、文書D1の先頭か
ら順番に文書DNまで行われる。
When the morphological analysis has been completed for all the documents N, the word processing unit 22 processes unknown words and compound words (step S2). For example, when the analysis result shown in FIG. 3 is obtained, when the processing of the word processing unit 22 is performed, as shown in FIG. 4, the unknown word “Penang” is a proper noun and a series of nouns. "China" and "town" are put together into a noun "Chinatown". The processing of unknown words and compound words is performed in order from the beginning of the document D1 to the document DN.

【0034】次いで、共起解析部3の単語抽出部31に
おいて、固有名詞リストおよび抽象固有語候補リストが
作成される(ステップS3)。単語抽出部31は、まず
最初の文書D1からすべての固有名詞と名詞を重複なく
抽出し、固有名詞リストPNL1および抽象固有語候補
リストAIL1を作成する。例えば、「ペナンのチャイ
ナタウンは、伝統的な景観がかなり残されている。ジョ
ージタウンの商店建築は、ショップハウスと呼ばれる、
住居と商店を兼ねた形式である。」というテキスト文章
のみからなる文書があった場合、固有名詞リストには
「ペナン」「ジョージタウン」という固有名詞が載せら
れ、抽象固有語候補リストには「「チャイナタウン」
「伝統」「景観」「商店建築」「ショップハウス」「住
居」「商店」「形式」という語が載せられる。このよう
に文書D1についてリストを作成すると、単語抽出部3
1は次の文書D2に移って同様にリストを作成し、すべ
ての文書Nについて、各リストを作成する。
Next, in the word extraction unit 31 of the co-occurrence analysis unit 3, a proper noun list and an abstract proper word candidate list are created (step S3). The word extracting unit 31 first extracts all proper nouns and nouns from the first document D1 without duplication, and creates a proper noun list PNL1 and an abstract proper word candidate list AIL1. For example, "Chinatown in Penang has a lot of traditional scenery. Georgetown's store architecture is called a shophouse.
It is a form that serves both as a residence and a store. ), The proper noun list contains the proper nouns "Penang" and "Georgetown", and the abstract proper word candidate list contains "" Chinatown "".
The words "tradition", "landscape", "store architecture", "shophouse", "house", "shop", and "form" are included. When the list is created for the document D1, the word extraction unit 3
1 moves to the next document D2 and similarly creates a list, and creates each list for all documents N.

【0035】次いで、共起カウント部32において、抽
象固有語候補毎に、共起する固有名詞をカウントし、共
起リストCOLを作成する(ステップS4)。この共起
カウント部32による動作を図5を参照して詳しく説明
すると、共起カウント部32は、まず、最初の文書D1
を取り出し(ステップS11、S12)、当該文書D1
の中小固有語候補リストに単語があるか否かを確認し
(ステップS13)、単語がない場合には次の文書D2
への処理へ移行する一方、単語がある場合には文書D1
の抽象固有語候補リストAIL1の先頭から一語(W)
取り出す(ステップS14)。
Next, the co-occurrence counting unit 32 counts co-occurring proper nouns for each abstract proper word candidate, and creates a co-occurrence list COL (step S4). The operation of the co-occurrence counting unit 32 will be described in detail with reference to FIG.
(Steps S11 and S12), and the document D1
It is determined whether or not there is a word in the small and medium proper word candidate list (step S13).
If there is a word, the document D1
(W) from the beginning of the abstract proper word candidate list AIL1
Take it out (step S14).

【0036】次いで、取り出した語Wが共起リストCO
Lにあるかを調べ(ステップS15)、ない場合には当
該語をリストに追加する一方(ステップS16)、ある
場合には文書D1の固有名詞リストPNL1に単語があ
るかを確認し(ステップS17)、単語がない場合には
次の抽象固有語への処理へ移行する一方、単語がある場
合には文書D1の固有名詞リストPNL1の先頭から一
語(PN)取り出す(ステップS18)。そして、この
語(PN)が共起リスト中のWの項の共起固有名詞中に
あるかどうかを調べ(ステップS19)、ない場合には
PNをリストに追加してその頻度を1とする一方(ステ
ップS20)、ある場合には、その頻度を+1加算する
(ステップS21)。
Next, the extracted word W is the co-occurrence list CO
L (step S15), and if not, the word is added to the list (step S16). If there is, the word is confirmed in the proper noun list PNL1 of the document D1 (step S17). If there is no word, the process proceeds to the next abstract proper word, while if there is a word, one word (PN) is extracted from the head of the proper noun list PNL1 of the document D1 (step S18). Then, it is checked whether or not this word (PN) is in the co-occurrence proper noun of the term W in the co-occurrence list (step S19). If not, the PN is added to the list and its frequency is set to 1 On the other hand (step S20), if there is, the frequency is incremented by +1 (step S21).

【0037】上記のような処理によって、固有名詞リス
トの全固有名詞についてリストの変更を終わると、抽象
固有語候補リストの次の語に移り、同様に固有名詞リス
トの先頭の語から順に、共起リストへの追加または頻度
の加算を行う。更に、文書D1の抽象固有語候補リスト
のすべての名詞についてこの処理が終了すると、次の文
書D2に移り、文書D2の抽象固有語候補リストAIL
2と固有名詞リストPNL2について同様の処理を行
う。以後同様に、文書Nまでの抽象固有語候補リストお
よび固有名詞リストを処理し、共起リストCOLを更新
する。例えば、文書D1と文書D2の抽象固有語候補リ
ストと固有名詞リストが図6(a)に示すものであった
場合、文書D1と文書D2についての処理を終わった時
点での共起リストCOLの一部を示すと図6(b)のよ
うになる。なお、図6(b)中に示す数字は頻度であ
る。
When the list of all proper nouns in the proper noun list is changed by the above-described processing, the process moves to the next word in the abstract proper noun candidate list, and similarly, from the first word in the proper noun list, Add to the starting list or add frequency. Further, when this processing is completed for all the nouns in the abstract proper word candidate list of the document D1, the process proceeds to the next document D2, and the abstract proper word candidate list AIL of the document D2 is executed.
2 and the proper noun list PNL2. Thereafter, similarly, the abstract proper word candidate list and the proper noun list up to the document N are processed, and the co-occurrence list COL is updated. For example, when the abstract proper word candidate list and the proper noun list of the document D1 and the document D2 are as shown in FIG. 6A, the co-occurrence list COL at the time when the processing on the document D1 and the document D2 is completed is completed. FIG. 6B shows a part thereof. The number shown in FIG. 6B is the frequency.

【0038】上記のようにして全文書Nに対する共起リ
ストCOLが作成されると(ステップS4)、抽象固有
語抽出部4において、各固有名詞の出現文書数に基づい
て、共起リスト中の抽象固有語候補の中から文書の作成
者固有の知識領域を表す語を選択する(ステップS
5)。そして、抽象固有語の抽出が終了すると、具体固
有語抽出部5において、選択された各抽象固有語に関連
する具体固有語を抽出する(ステップS6)。ここで
は、共起リストにある固有名詞のうち、共起頻度が予め
決めた数より多いものを選択する。例えば、図7(a)
に一部を示すような共起リストCOLが作成された場
合、例えば、しきい値を40として、図7(b)に示す
ような抽象固有語と具体固有語の組が、抽象固有語抽出
部4、具体固有語抽出部5の動作により抽出される。
When the co-occurrence list COL for all the documents N is created as described above (step S4), the abstract proper word extraction unit 4 uses the number of appearing documents of each proper noun in the co-occurrence list. A word representing a knowledge region unique to the creator of the document is selected from among the abstract proper word candidates (step S
5). When the extraction of the abstract proper words is completed, the specific proper word extracting unit 5 extracts the specific proper words related to each selected abstract proper word (step S6). Here, among the proper nouns in the co-occurrence list, those whose co-occurrence frequency is larger than a predetermined number are selected. For example, FIG.
When a co-occurrence list COL partially shown in FIG. 7 is created, for example, with a threshold value of 40, a set of an abstract proper word and a specific proper word as shown in FIG. It is extracted by the operation of the unit 4 and the specific proper word extracting unit 5.

【0039】このようにして具体固有語の選択が終了す
ると、固有語登録部6において、抽出された抽象固有語
と具体固有語をセットにして、文書の作成者の固有語辞
書7に登録し(ステップS7)、一連の辞書作成動作が
終了する。このようにして作成された固有語辞書7は、
例えば、個人の関心や知見に基づいて問題を解決してく
れる人を選んだり、興味の一致する人を紹介したりする
一種の人選システムにおいて、個人の関心領域を表す有
効な情報として利用することができる。なお、本実施形
態では本発明の個人関心事辞書作成装置を、情報を永続
的に記憶保持する辞書を作成するものとして説明した
が、この辞書は情報を一時的に保持するバッファ的なも
のとしてもよく、例えば、固有語を抽出した結果を永続
的な情報としては登録せずに、アプリケーション中で直
接的に利用するようにしてもよい。
When the selection of the specific proper word is completed in this way, in the proper word registration unit 6, the extracted abstract proper word and the specific proper word are set as a set and registered in the proper word dictionary 7 of the creator of the document. (Step S7), a series of dictionary creation operations ends. The proper word dictionary 7 created in this way is
For example, use as effective information that indicates the area of interest of a person in a sort of person selection system that selects people who solve problems based on individual interests and knowledge, and introduces people with similar interests Can be. In the present embodiment, the personal interest dictionary creating apparatus of the present invention has been described as creating a dictionary that permanently stores and retains information. However, this dictionary is used as a buffer that temporarily retains information. Alternatively, for example, the result of extracting the proper word may not be registered as permanent information but may be used directly in the application.

【0040】上記した実施形態では、共起カウント部3
2は、固有名詞リストおよび抽象固有語候補リストから
共起する固有名詞の共起頻度をカウントして共起リスト
を作成し、抽象固有語抽出部4は、各固有名詞の共起頻
度に基づいて、共起リストの抽象固有語候補の中から文
書の作成者固有の知識領域を表す語を選択するようにし
たが、本発明の他の実施態様として、共起カウント部3
2は、全文書の固有名詞リストおよび抽象固有語候補リ
ストから、各抽象固有語候補毎に、共起する固有名詞の
個数をカウントして共起リストを作成し、抽象固有語抽
出部4は、共起する固有名詞の個数に基づいて、共起リ
ストの抽象固有語候補の中から、文書の作成者固有の知
識領域を表す語を選択するようにしてもよい。すなわ
ち、抽象固有語に関連する固有名詞の数によって、登録
のために選択する抽象固有語を選択するようにしてもよ
い。
In the above embodiment, the co-occurrence counting unit 3
2, a co-occurrence list is created by counting the co-occurrence frequency of proper nouns co-occurring from the proper noun list and the abstract proper word candidate list, and the abstract proper word extraction unit 4 calculates the co-occurrence frequency based on the co-occurrence frequency of each proper noun. Thus, a word representing a knowledge area unique to the creator of the document is selected from the abstract proper word candidates in the co-occurrence list. However, as another embodiment of the present invention, the co-occurrence counting unit 3 is used.
2 generates a co-occurrence list by counting the number of co-occurring proper nouns for each abstract proper word candidate from the proper noun list and the abstract proper word candidate list of all the documents. Alternatively, a word representing a knowledge area unique to the creator of the document may be selected from abstract natural word candidates in the co-occurrence list based on the number of co-occurring proper nouns. That is, an abstract proper word to be selected for registration may be selected according to the number of proper nouns related to the abstract proper word.

【0041】[0041]

【発明の効果】以上説明したように、本発明によると、
固有名詞と共起する抽象固有語候補の中から、その固有
名詞の個数や共起頻度に基づいて、特定個人の具体的な
関心事を表す具体固有語として選定するようにしたた
め、個人の知識領域の固有性を表す語句の組を正確に抽
出し、これを辞書に作成することができる。このため、
この辞書を用いて、例えば、人選やメールの宛先選定を
適切に行うことができ、個人の知的活動に係わる業務を
円滑に実行することができる。
As described above, according to the present invention,
Individual candidate nouns are selected from among abstract proper word candidates that co-occur with proper nouns as specific proper words that express specific interests of a specific individual based on the number of the proper nouns and the co-occurrence frequency. A set of words representing the uniqueness of a region can be accurately extracted and created in a dictionary. For this reason,
Using this dictionary, for example, it is possible to appropriately select a person and an e-mail address, and to smoothly execute tasks related to personal intellectual activities.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一実施形態に係る個人関心事辞書作
成装置の構成図である。
FIG. 1 is a configuration diagram of a personal interest dictionary creation device according to an embodiment of the present invention.

【図2】 本発明の一実施形態に係る処理動作を説明す
るフローチャートである。
FIG. 2 is a flowchart illustrating a processing operation according to an embodiment of the present invention.

【図3】 本発明の一実施形態に係るテキスト解析部の
動作を説明する図である。
FIG. 3 is a diagram illustrating an operation of a text analysis unit according to an embodiment of the present invention.

【図4】 本発明の一実施形態に係るテキスト解析部の
動作を説明する図である。
FIG. 4 is a diagram illustrating an operation of a text analysis unit according to an embodiment of the present invention.

【図5】 本発明の一実施形態に係る共起カウント部の
動作を説明するフローチャートである。
FIG. 5 is a flowchart illustrating an operation of a co-occurrence counting unit according to an embodiment of the present invention.

【図6】 本発明の一実施形態に係る共起カウント部の
動作を説明する図である。
FIG. 6 is a diagram illustrating an operation of a co-occurrence counting unit according to an embodiment of the present invention.

【図7】 本発明の一実施形態に係る抽象固有語抽出部
および具体固有語抽出部の動作を説明する図である。
FIG. 7 is a diagram illustrating operations of an abstract proper word extraction unit and a specific proper word extraction unit according to an embodiment of the present invention.

【図8】 従来の課題を説明する図である。 1・・・情報記憶部、 2・・・テキスト解析部、 3
・・・共起解析部、4・・・抽象固有語抽出部、 5・
・・具体固有語抽出部、5・・・固有語登録部、 7・
・・固有語辞書、 21・・・形態素解析部、22・・
・語処理部、 31・・・単語抽出部、 32・・・共
起カウント部、
FIG. 8 is a diagram illustrating a conventional problem. 1 ... information storage unit 2 ... text analysis unit 3
... Co-occurrence analysis unit, 4 ... Abstract proper word extraction unit, 5.
..Specific proper word extraction unit, 5 ... proper word registration unit, 7
..Property dictionary, 21 ... morphological analyzer, 22 ..
・ Word processing unit, 31 ・ ・ ・ Word extraction unit, 32 ・ ・ ・ Co-occurrence counting unit,

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 文書中から当該文書を作成した特定個人
の具体的な関心を表す語を抽出して、辞書にまとめる個
人関心事辞書作成装置であって、 特定個人によって作成されたテキストデータを含む文書
を記憶する情報記憶手段と、 前記文書中のテキストデータを解析するテキスト解析手
段と、 前記テキストデータ中の予め定めたテキスト単位中で固
有名詞と共起する語を当該テキストデータを作成した特
定個人の知識領域を表す抽象固有語候補として抽出し、
更に、当該固有名詞を抽出して各抽象固有語との共起頻
度をカウントする共起解析手段と、 前記共起する固有名詞の共起頻度を基準として前記抽象
固有語候補から抽象固有語を抽出する抽象固有語抽出手
段と、 前記抽出された抽象固有語と共起する固有名詞を、当該
抽象固有語が表す領域での前記特定個人の具体的な関心
を表す具体固有語として抽出する具体固有語抽出手段
と、 前記抽出された抽象固有語と具体固有語とを対応付けて
保持する固有語辞書手段と、 を備えたことを特徴とする個人関心事辞書作成装置。
1. An apparatus for creating a personal interest dictionary that extracts, from a document, words representing specific interests of a specific individual who has created the document and compiles the words into a dictionary. An information storage unit that stores a document including the text, a text analysis unit that analyzes text data in the document, and a text that co-occurs with a proper noun in a predetermined text unit in the text data. It is extracted as an abstract proper word candidate representing the knowledge area of a specific individual,
Further, a co-occurrence analysis means for extracting the proper noun and counting the co-occurrence frequency with each abstract proper word, and extracting an abstract proper word from the abstract proper word candidate based on the co-occurrence frequency of the co-occurring proper noun. An abstract proper word extracting means for extracting, and a specific noun which co-occurs with the extracted abstract proper word as a specific proper word representing a specific interest of the specific individual in an area represented by the abstract proper word A personal interest dictionary creating apparatus, comprising: proper word extracting means; and proper word dictionary means for holding the extracted abstract proper words and concrete proper words in association with each other.
【請求項2】 文書中から当該文書を作成した特定個人
の具体的な関心を表す語を抽出して、辞書にまとめる個
人関心事辞書作成装置であって、 特定個人によって作成されたテキストデータを含む文書
を記憶する情報記憶手段と、 前記文書中のテキストデータを解析するテキスト解析手
段と、 前記テキストデータ中の予め定めたテキスト単位中で固
有名詞と共起する語を当該テキストデータを作成した特
定個人の知識領域を表す抽象固有語候補として抽出し、
更に、当該固有名詞を抽出して個数をカウントする共起
解析手段と、 前記抽出された固有名詞数を基準として前記抽象固有語
候補から抽象固有語を抽出する抽象固有語抽出手段と、 前記抽出された抽象固有語と共起する固有名詞を、当該
抽象固有語が表す領域での前記特定個人の具体的な関心
を表す具体固有語として抽出する具体固有語抽出手段
と、 前記抽出された抽象固有語と具体固有語とを対応付けて
保持する固有語辞書手段と、 を備えたことを特徴とする個人関心事辞書作成装置。
2. A personal interests dictionary creation device for extracting words indicating a specific interest of a specific individual who created the document from a document and compiling the extracted words into a dictionary, wherein text data created by the specific individual is An information storage unit that stores a document including the text, a text analysis unit that analyzes text data in the document, and a text that co-occurs with a proper noun in a predetermined text unit in the text data. It is extracted as an abstract proper word candidate representing the knowledge area of a specific individual,
A co-occurrence analyzing unit that extracts the proper noun and counts the number; an abstract proper word extracting unit that extracts an abstract proper word from the abstract proper word candidate based on the extracted proper noun number; Specific proper word extracting means for extracting a proper noun co-occurring with the abstract proper word as a specific proper word indicating a specific interest of the specific individual in a region represented by the abstract proper word; A personal word dictionary creating device, comprising: a proper word dictionary means for storing a proper word and a specific proper word in association with each other.
【請求項3】 請求項1又は請求項2に記載の個人関心
事辞書作成装置において、 前記情報記憶手段は同一の個人によって作成された複数
の文書を記憶しており、 前記テキスト解析手段、前記共起解析手段、前記抽象固
有語抽出手段、及び、前記具体固有語抽出手段は、同一
の個人に係る複数の文書に対して前記処理を施し、 前記固有語辞書手段には前記複数の文書中から抽出した
同一の個人に係る抽象固有語と具体固有語とが対応付け
て保持されることを特徴とする個人関心事辞書作成装
置。
3. The personal interest dictionary creating apparatus according to claim 1, wherein the information storage unit stores a plurality of documents created by the same individual, The co-occurrence analysis unit, the abstract proper word extraction unit, and the specific proper word extraction unit perform the processing on a plurality of documents related to the same individual. A personal interest dictionary creation device characterized in that an abstract proper word and a specific proper word relating to the same individual extracted from the same are held in association with each other.
JP9364535A 1997-12-18 1997-12-18 Device for preparing dictionary on individual concern Pending JPH11184890A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9364535A JPH11184890A (en) 1997-12-18 1997-12-18 Device for preparing dictionary on individual concern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9364535A JPH11184890A (en) 1997-12-18 1997-12-18 Device for preparing dictionary on individual concern

Publications (1)

Publication Number Publication Date
JPH11184890A true JPH11184890A (en) 1999-07-09

Family

ID=18482050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9364535A Pending JPH11184890A (en) 1997-12-18 1997-12-18 Device for preparing dictionary on individual concern

Country Status (1)

Country Link
JP (1) JPH11184890A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
JP2005242416A (en) * 2004-02-24 2005-09-08 Shogakukan Inc Natural language text search method and device
JP2006073012A (en) * 2004-09-02 2006-03-16 Microsoft Corp System and method of managing information by answering question defined beforehand of number decided beforehand
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
JP2010529714A (en) * 2007-05-15 2010-08-26 ソニー エリクソン モバイル コミュニケーションズ, エービー Method and apparatus for sharing a link between communication devices of common interest
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
US8548987B2 (en) 1999-09-24 2013-10-01 Thalveg Data Flow Llc System and method for efficiently providing a recommendation
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization
JP2005242416A (en) * 2004-02-24 2005-09-08 Shogakukan Inc Natural language text search method and device
JP2006073012A (en) * 2004-09-02 2006-03-16 Microsoft Corp System and method of managing information by answering question defined beforehand of number decided beforehand
JP2010529714A (en) * 2007-05-15 2010-08-26 ソニー エリクソン モバイル コミュニケーションズ, エービー Method and apparatus for sharing a link between communication devices of common interest
US8199734B2 (en) 2007-05-15 2012-06-12 Sony Mobil Communications AB Method and apparatus for sharing common interest links between communication devices

Similar Documents

Publication Publication Date Title
Fillmore et al. Building a large lexical databank which provides deep semantics
US10296584B2 (en) Semantic textual analysis
US6571240B1 (en) Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
Witten Text Mining.
US6584470B2 (en) Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
JP5252725B2 (en) System, method, and software for hyperlinking names
AU2004218705B2 (en) System for identifying paraphrases using machine translation techniques
US7516125B2 (en) Processor for fast contextual searching
US20020177991A1 (en) Method of finding answers to questions
US20030101182A1 (en) Method and system for smart search engine and other applications
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
Al-Taani et al. An extractive graph-based Arabic text summarization approach
KR20130036863A (en) Document classifying system and method using semantic feature
Archer What's in a word-list?: investigating word frequency and keyword extraction
US20020046019A1 (en) Method and system for acquiring and maintaining natural language information
JPH11184890A (en) Device for preparing dictionary on individual concern
JP3594701B2 (en) Key sentence extraction device
JPH10207910A (en) Related word dictionary preparing device
KR100669534B1 (en) Text Summarization Method and System with Sentence Abstraction and Abductive Rules, and Method for Text semantic analysis and expression
Wu et al. Domain Event Extraction and Representation with Domain Ontology.
Fujisaki et al. Principles and design of an intelligent system for information retrieval over the internet with a multimodal dialogue interface.
JP2004246491A (en) Text mining system and text mining program
Green An application of computerised corpus linguistics techniques to analyze texts–A personal construct theory perspective
KR100225855B1 (en) Schedule management method
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure