JP2009098809A - Technical literature classification system - Google Patents

Technical literature classification system Download PDF

Info

Publication number
JP2009098809A
JP2009098809A JP2007268287A JP2007268287A JP2009098809A JP 2009098809 A JP2009098809 A JP 2009098809A JP 2007268287 A JP2007268287 A JP 2007268287A JP 2007268287 A JP2007268287 A JP 2007268287A JP 2009098809 A JP2009098809 A JP 2009098809A
Authority
JP
Japan
Prior art keywords
document
technical
classification
text
needs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007268287A
Other languages
Japanese (ja)
Inventor
Kunitake So
国威 祖
Toshiyuki Kano
敏行 加納
Rumi Hayakawa
ルミ 早川
Hiroshi Taira
博司 平
Saori Kurata
早織 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007268287A priority Critical patent/JP2009098809A/en
Publication of JP2009098809A publication Critical patent/JP2009098809A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To extract a characteristic vector representing needs to automatically classify a technical literature similar to the characteristic vector by using pattern classification techniques such as automatic text classification and machine learning and to match the technical literature with a customer needs. <P>SOLUTION: A technical literature classification system comprises a document input means for learning used for inputting a needs text that is needs information to a VOC document including the needs information and a technical literature including a technical element for solving the needs information; a document characteristic information generation means for generating document characteristic information based on an appearance frequency in the VOC document of the input needs text; a classifier generation means for generating a characteristic pattern of a category of the VOC document; a document input means for classification used for inputting a technical text that is the technical element; a classification means for using an identification function to be executed for the input technical text; and a result output means for outputting the classified classification result. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、顧客のニーズ情報(VOC)を活用し、技術文献と顧客ニーズをマッチングす
るための技術文献分類システムに関する。
The present invention relates to a technical document classification system for matching technical documents with customer needs by utilizing customer needs information (VOC).

企業の研究成果は特許、技術報告書、学術論文などの技術文献に詳細に蓄積されている。
このような技術文献を効率的に調べやすくするため、従来、技術テーマ名及び技術に関す
るキーワードレベルで分類・整理する方法があったが、蓄積されている技術を事業化する
ために、どのように素早く企業が求めるニーズと結び付けるのかについては、依然として
課題として残されている。
The research results of companies are accumulated in detail in technical literature such as patents, technical reports and academic papers.
In order to make it easy to search such technical literature efficiently, there has been a method of classifying and organizing at the keyword level related to the technical theme name and technology, but how to put the accumulated technology into business? Whether it can be quickly linked to the needs of companies remains a challenge.

企業が求めるニーズはVOC情報から把握することができる。VOCは、「Voice of t
he Customer」の略であり、顧客の見方、ニーズを反映したデータ(苦情、アンケート結
果、コメント、市場調査等)のことである。多くの企業が企業戦略に顧客中心主義を打ち
出し、お客様の声をしっかりと聴き、企業活動に反映することが、生き残り・成長の鍵と
なり、その活かし方が重要だと認識されている。現状では、顧客から自動的にVOC情報
が収集できる方法及びツールがある(例えば、特許文献1参照)。
The needs of companies can be grasped from VOC information. VOC is “Voice of t
"He Customer" is data that reflects customer views and needs (complaints, questionnaire results, comments, market research, etc.). It is recognized that the key to survival and growth is how many companies put out customer-centric principles in their corporate strategy, listen to customers' opinions and reflect them in corporate activities, and how to use them is important. At present, there are methods and tools that can automatically collect VOC information from customers (see, for example, Patent Document 1).

しかし、自動収集されたデータは開発部門が持っている技術と、どのように結びつける
かは、技術が詳しく分からない営業部隊にとって、かなり悩んでいることである。従来の
解決方法として、中間斡旋機関を介して、研究部門が公開した技術情報を他の企業に公開
し、公開契約や実施契約に基づいて、研究成果の技術移転を行うサービスの提案があった
(例えば、特許文献2参照)。但し、欠点として、第三者を介することによって、技術及び
ニーズを社外に漏洩してしまうリスクがある。さらに、申し込み、登録、契約など手続き
が必要なので、手間及び費用がかかる。自社のニーズと技術をマッチングする場合、この
方法は不向きである。企業に対するニーズに素早く対応するために、自社の技術を発掘で
きる、手間がかからない、自動的なマッチング方法及びシステムが望まれている。
特表2004−503013号公報 特開2004−54608号公報
However, how to link the automatically collected data with the technology possessed by the development department is quite a problem for sales teams who do not know the technology in detail. As a conventional solution, there has been a proposal for a service to transfer the technical information released by the research department to other companies through an intermediary agency, and to transfer the technology of the research results based on the public contract and the implementation contract.
(For example, refer to Patent Document 2). However, as a drawback, there is a risk of leaking technology and needs outside the company through a third party. Furthermore, since procedures such as application, registration and contract are necessary, it takes time and money. This method is not suitable when matching your company's needs and technology. In order to quickly respond to the needs of companies, there is a demand for an automatic matching method and system that can find out the technology of the company and that does not require a lot of effort.
Japanese translation of PCT publication No. 2004-503013 JP 2004-54608 A

企業の顧客対応部門から収集されたVOC情報に基づいて、市場のニーズが判断できる。し
かし、ニーズを解決するために、どのような技術が使えるのかを調べるのは、技術に精通
していない営業部隊にとっては、かなり難しいことである。
Market needs can be determined based on VOC information collected from corporate customer service departments. However, investigating what technologies can be used to solve a need is quite difficult for a sales force that is not tech savvy.

その一方、企業が持っている技術は特許、技術報告書、学術論文などの技術文献を介して
公開されている。顧客との接触が少ない技術者にとっては、開発した技術がどのようなニ
ーズに応用できるのかは、把握しにくい。
On the other hand, technologies possessed by companies are disclosed through technical literature such as patents, technical reports, and academic papers. For engineers with little contact with customers, it is difficult to grasp what needs the developed technology can be applied to.

市場ニーズに素早く対応するため、研究成果は迅速に生かすため、自動的にニーズと技術
をマッチングし、該当技術が分かる技術者と結び付けるものが求められている。
In order to quickly respond to market needs, research results must be utilized quickly, and there is a need for a technology that automatically matches needs and technologies and connects them to engineers who understand the technology.

この発明は、上述の課題を解決するためのものであり、テキスト自動分類、機械学習など
のパターン分類技術を用いて、ニーズを代表できる特徴ベクトルを抽出し、その特徴ベク
トルと類似の技術文献を自動分類し、顧客ニーズと技術文献をマッチングするものである
。さらに、社員DBなどの人間情報を活用し、該当技術を誰が分かるのか、というノウハウ
情報との連携ができ、ニーズを持っている人とニーズを解決できる人と結び付けるもので
ある。
The present invention is for solving the above-mentioned problems, and by using a pattern classification technique such as automatic text classification and machine learning, a feature vector that can represent a need is extracted, and a technical literature similar to the feature vector is extracted. Automatic classification to match customer needs and technical literature. Furthermore, using human information such as employee DB, it is possible to link with know-how information on who knows the corresponding technology, and connect with people who have needs and people who can solve the needs.

上記課題を解決するために、本発明の第1の発明は、ニーズ情報を含むVOC文書と当該
ニーズ情報を解決するための技術要素を含む技術文献に対して、前記ニーズ情報であるニ
ーズテキストを入力する学習用文書入力手段と、前記学習用文書入力手段により入力され
たニーズテキストの前記VOC文書における出現頻度に基づいた文書特徴情報を生成する
文書特徴情報生成手段と、前記VOC文書のカテゴリの特徴パターンを生成する分類器作
成手段と、前記技術要素である技術テキストを入力する分類用文書入力手段と、前記分類
用文書入力手段により入力された技術テキストに対して実行する識別関数を用いる分類手
段と、前記分類手段によって分類された分類結果を出力する結果出力手段とを具備するこ
とを特徴とする。
In order to solve the above-mentioned problem, the first invention of the present invention provides a needs text as the needs information for a VOC document including the needs information and a technical document including a technical element for solving the needs information. Learning document input means for inputting, document feature information generating means for generating document feature information based on the appearance frequency of the need text input by the learning document input means in the VOC document, and category of the VOC document Classifier creation means for generating a feature pattern, classification document input means for inputting technical text as the technical element, and classification using an identification function executed for the technical text input by the classification document input means And a result output means for outputting the classification result classified by the classification means.

本発明の第2の発明は前記入力される各種テキストのデータを前処理するデータ前処理手
段をさらに具備することを特徴とする
本発明の第3の発明は前記入力される技術テキストの執筆者である技術者情報を検索する
技術者情報検索手段を具備することを特徴とする。
The second invention of the present invention further comprises data pre-processing means for pre-processing the data of the various input texts. The third invention of the present invention is the author of the technical texts to be input. Engineer information search means for searching for engineer information is provided.

本発明の第4の発明は、前記データ前処理手段は、前記入力された各種テキストデータに
対して形態素解析を行った上で、省略文を補完し、同義語を統一することを特徴とするこ
とを特徴とする。
The fourth invention of the present invention is characterized in that the data preprocessing means performs morphological analysis on the inputted various text data, complements abbreviations, and unifies synonyms. It is characterized by that.

本発明の第5の発明は、前記特徴抽出手段は、主成分分析を用いて特徴を抽出することを
特徴とする。
The fifth aspect of the present invention is characterized in that the feature extraction means extracts features using principal component analysis.

本発明によれば、顧客ニーズを含むVOCテキストと技術を含む技術テキストのみを用意す
るだけで、ニーズテキストは学習データとして、特徴ベクトルを作成し、各カテゴリ(ニ
ーズの類目)の特徴パターンを生成し、類似の技術テキストに該当ニーズのラベルを付与
することにより、ニーズ情報と技術情報を自動的にマッチングできるので、ニーズに素早
く対応できる。
According to the present invention, only a VOC text including customer needs and a technical text including technology are prepared, and the feature text is generated as learning data, and the feature pattern of each category (class of needs) is obtained. By generating and assigning the label of the corresponding needs to similar technical texts, the needs information and the technical information can be automatically matched, so that the needs can be quickly met.

以下、本発明の各実施形態について図面を用いて説明する。なお、以下の各装置は、それ
ぞれハードウェア構成、又はハードウェア資源とソフトウェアとの組み合わせ構成のいず
れでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又
は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を
実現させるためのプログラムが用いられる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. Each of the following devices can be implemented with either a hardware configuration or a combination configuration of hardware resources and software. As the software of the combined configuration, a program that is installed in advance on a computer of a corresponding device from a network or a storage medium and that realizes the function of the corresponding device is used.

〔第一の実施例〕
以下、図面を参照し、第一の実施例を説明する。図1は本発明における実施例の全体構成
を示したものである。
[First Example]
The first embodiment will be described below with reference to the drawings. FIG. 1 shows the overall configuration of an embodiment of the present invention.

本実施例における技術文献分類システム100は、学習用文書入力部101、分類用文書
入力部102、データ前処理部103、特徴生成部104、特徴抽出部105、分類器作
成部106、分類部107、結果出力部108とから構成される。
The technical document classification system 100 in this embodiment includes a learning document input unit 101, a classification document input unit 102, a data preprocessing unit 103, a feature generation unit 104, a feature extraction unit 105, a classifier creation unit 106, and a classification unit 107. And a result output unit 108.

以下、第一の実施例における技術文献分類システム100の動作を説明する(図3参照)
Hereinafter, the operation of the technical document classification system 100 in the first embodiment will be described (see FIG. 3).
.

1.学習用文書入力部101は、ニーズテキストをニーズDB10から読み込み、学習用テ
キストとして入力する。学習用テキストは、例えば、営業部門が収集した顧客の苦情、ア
ンケート結果、コメント、市場調査等VOCテキストである(図5参照)。この実施例の説
明においては、学習データとしてアンケート結果を対象とする。
1. The learning document input unit 101 reads a needs text from the needs DB 10 and inputs it as a learning text. The learning text is, for example, VOC text such as customer complaints, questionnaire results, comments, and market research collected by the sales department (see FIG. 5). In the description of this embodiment, a questionnaire result is targeted as learning data.

ニーズテキストはあらかじめ、いくつかのカテゴリ(たとえば、「特許マップを自動作成
したい」、「検索効率を向上したい」、「システム安全性を向上したい」等)に分けてお
く。各カテゴリに対して、ある数のテキストをそれぞれ学習データとして入力する(図5
参照)。
The needs text is divided into several categories in advance (for example, “I want to create a patent map automatically”, “I want to improve search efficiency”, “I want to improve system security”, etc.). A certain number of texts are input as learning data for each category (FIG. 5).
reference).

2.分類用文書入力部102は、技術テキストを技術文書DB11から読み込み、分類用テ
キストとして入力する(図6参照)。分類用テキストは、特許、技術報告、学術論文など
の技術文献のテキストである。テキストの全文をそのまま用いることができるが、コスト
を減らすために、課題と技術ポイントを表す部分だけ(特許の場合、技術分野、発明が解
決しようとする課題、発明の効果などの部分を指す)用いてもよい。この実施例の説明に
おいては、技術データとしての特許を対象とする。
2. The classification document input unit 102 reads the technical text from the technical document DB 11 and inputs it as the classification text (see FIG. 6). The classification text is a text of a technical document such as a patent, a technical report, or an academic paper. The entire text can be used as it is, but to reduce costs, only the part that represents the problem and technical points (in the case of a patent, the technical field, the problem to be solved by the invention, the effect of the invention, etc.) It may be used. In the description of this embodiment, a patent as technical data is targeted.

3.データ前処理部103は、自然言語解析の技術を用いて、入力テキストに対して、省
略文補完、同義語参照、形態素解析の処理を行い、文書を形態素レベルで区切る。これら
の処理について、公知の手法を用いる。入力テキストに対して、形態素解析の処理のみを
行うことにしてもよい。それに加えて省略文補完や同義語参照などを行ってもよい。一般
には、文書の表現が統一されていないので、分類効果が劣化する可能性がある。例えば、
図7で示した例文は、「楽にしたい」というニーズがあるが、主語が省略されたため、特
徴の抽出はできない。省略文補完処理により、前後文の内容から、省略された主語「パテ
ント図の生成」を見つけ、文を補完する。さらに、「パテント図」と「特許マップ」のよ
うな表現の揺らぎは、書き方が違うが、意味が同じである。それを避けるために、同義語
辞書を用いて、同じ意味の用語の統一処理を行う。
3. The data preprocessing unit 103 performs abbreviated sentence complement, synonym reference, and morpheme analysis on the input text using a natural language analysis technique, and divides the document at the morpheme level. A known method is used for these processes. Only the process of morphological analysis may be performed on the input text. In addition, abbreviation completion and synonym reference may be performed. In general, since the expression of the document is not unified, the classification effect may be deteriorated. For example,
In the example sentence shown in FIG. 7, there is a need for “I want to make it easy”, but since the subject is omitted, the feature cannot be extracted. Through the abbreviated sentence completion process, the abbreviated subject “Generate patent diagram” is found from the contents of the preceding and following sentences, and the sentence is complemented. Furthermore, fluctuations in expressions such as “patent diagram” and “patent map” have the same meaning, although they are written differently. In order to avoid this, a synonym dictionary is used to unify terms with the same meaning.

4.特徴作成部104は、データ前処理部103の処理(3.)で区切った全てのテキス
トに対して、形態素リストを作成する。作成された形態素リストにある形態素の出現頻度
を個々の学習用テキスト及び分類用テキストに対して求め、特徴ベクトルを生成する(図
8参照)。
4). The feature creation unit 104 creates a morpheme list for all the texts delimited by the process (3.) of the data preprocessing unit 103. The appearance frequency of morphemes in the created morpheme list is obtained for each learning text and classification text, and a feature vector is generated (Fig.
8).

特徴ベクトルの成分として形態素の出現頻度のかわりに、不要語リストによる機能語の除
去、文書の長さに依存しない相対出現頻度の使用、対称性が改善されるベキ変換などを行
った結果を用いてもよい。
Instead of the appearance frequency of the morpheme as the component of the feature vector, use the result of the removal of the function word from the unnecessary word list, the use of the relative appearance frequency independent of the document length, the power transformation that improves the symmetry, etc. May be.

ここで生成した特徴ベクトルを、そのまま分類器生成部106及び分類部107に送信し
ても、自動分類を行うことができる。但し、分類精度を向上し、コストを減らすために、
下記の特徴抽出処理(5.)を用いることができる。
Even if the feature vector generated here is transmitted as it is to the classifier generation unit 106 and the classification unit 107, automatic classification can be performed. However, to improve classification accuracy and reduce costs,
The following feature extraction process (5.) can be used.

5.特徴抽出部105は、特徴作成部104で生成した特徴ベクトルを対象として、分類
効果がよい特徴を自動的に抽出し、分離性が優れる特徴の順で新特徴ベクトルを生成する
5). The feature extraction unit 105 automatically extracts features having a good classification effect for the feature vectors generated by the feature creation unit 104, and generates new feature vectors in the order of features having excellent separability.

この実施例の説明において、特徴抽出方法とする主成分分析を利用するが、それ以外、特
徴ベクトルを別の空間に写像するLSI法(latent semantic indexing-LSI)を用いてもよい
In the description of this embodiment, principal component analysis is used as a feature extraction method, but otherwise, an LSI method (latent semantic indexing-LSI) that maps feature vectors to another space may be used.

主成分分析法による特徴抽出の手順を以下に示す(図9参照)
Step1:入力文書の特徴ベクトルの集合χ={X1、X2Λ、XN}から,次式によって平均ベ
クトルMhat及び標本共分散行列Σhatを計算する。Xlは入力文書lの特徴ベクトルである。
The procedure for feature extraction by principal component analysis is shown below (see Figure 9).
Step 1: Calculate a mean vector Mhat and a sample covariance matrix Σhat from the set of feature vectors χ = {X1, X2Λ, XN} of the input document according to the following equations. Xl is a feature vector of the input document l.

〔数1〕
Mhat=(1/N)ΣX(X∈χ)
〔数2〕
Σhat=(1/N)Σ(X-Mhat)(X-Mhat)^T(X∈χ)
ここでNは標本の大きさ(学習文書の数)である。Tはベクトルの転置を表す。
[Equation 1]
Mhat = (1 / N) ΣX (X∈χ)
[Equation 2]
Σhat = (1 / N) Σ (X-Mhat) (X-Mhat) ^ T (X∈χ)
Here, N is the sample size (number of learning documents). T represents the transpose of the vector.

Step2:得られた標本共分散行列に対して,次式を満たす固有値λiと固有ベクトルΦiを
求める。
Step 2: Obtain the eigenvalue λi and eigenvector Φi that satisfy the following equation for the obtained sample covariance matrix.

〔数3〕
ΣhatΦi=λiΦi(i=1,2,,Λ,n)
ここで、λ1≧λ2≧Λ≧Λnとする。
[Equation 3]
ΣhatΦi = λiΦi (i = 1,2,, Λ, n)
Here, λ1 ≧ λ2 ≧ Λ ≧ Λn.

Step3:特徴ベクトルXに対して,大きいものからm個(m≦n)の固有値に対する主成分 を
次式により求める。
Step3: For the feature vector X, find the principal components for m (m ≦ n) eigenvalues from the largest.

〔数4〕
zi=Φ{from i to T}X(i=1,2,,Λ,n)
Step4:m個の主成分を要素とするm次元特徴ベクトルを抽出された新たな特徴ベクトルと
する。
[Equation 4]
zi = Φ {from i to T} X (i = 1,2, Λ, n)
Step 4: An m-dimensional feature vector having m principal components as elements is set as a new extracted feature vector.

特徴抽出前の特徴ベクトルの次元数nは、特徴作成部104で生成した特徴ベクトルの要
素数であり,特徴抽出後の特徴ベクトルの次元数mは〔数4〕で得られる主成分の個数で
ある。主成分分析による特徴抽出では,新たな特徴ベクトルの次元数mを利用者が自由に
選択することができる。
The dimension number n of the feature vector before the feature extraction is the number of elements of the feature vector generated by the feature creation unit 104, and the dimension number m of the feature vector after the feature extraction is the number of principal components obtained by [Equation 4]. is there. In feature extraction by principal component analysis, the user can freely select the dimension number m of a new feature vector.

6.分類器作成部106は、特徴抽出部105で生成した学習テキストの特徴ベクトルを
用いて、各カテゴリのパターンを生成する。
6). The classifier creating unit 106 uses the feature vector of the learning text generated by the feature extraction unit 105 to generate a pattern for each category.

この実施例の説明において、各カテゴリのパターンとは各カテゴリの学習母集団の平均ベ
クトル〔数1〕であるが、共分散行列などを用いてもよい〔数2〕。
In the description of this embodiment, the pattern of each category is the average vector [Equation 1] of the learning population of each category, but a covariance matrix or the like may be used [Equation 2].

7.分類部107は、特徴抽出部105で生成した分類用ベクトルを用いて、それと各カ
テゴリのパターンベクトルとの距離(類似度)を計算し、距離が最も小さい(類似度が最
も高い)カテゴリに分類し、分類結果DB12に登録し、結果出力部108に送信する。
7). The classification unit 107 calculates the distance (similarity) between the classification vector generated by the feature extraction unit 105 and the pattern vector of each category, and classifies the category into the category with the smallest distance (highest similarity). Then, it is registered in the classification result DB 12 and transmitted to the result output unit 108.

この実施例の説明においては、最も単純な識別関数―ユックリッド距離を用いるが、他に
、内積、Dice係数、コサイン係数、線形識別関数などの識別関数を使ってもよい。(2乗
)ユークリッド距離(Euclidean distance)は特徴ベクトルの各特徴量の差の2乗和で二つ
のベクトルの距離を評価する尺度である。入力文書の特徴ベクトルXは、カテゴリlとのユ
ークリッド距離 は次式のように求める。
In the description of this embodiment, the simplest discriminant function-ycklid distance is used, but discriminant functions such as inner product, Dice coefficient, cosine coefficient, and linear discriminant function may be used. The (square) Euclidean distance is a scale for evaluating the distance between two vectors by the sum of squares of the difference between the feature amounts of the feature vectors. For the feature vector X of the input document, the Euclidean distance from the category l is obtained as follows.

〔数5〕
gl(X)=(X-Mlhat)^T(X-Mlhat)=||X-Mlhat||^2
ここで,Mlhatは第 l カテゴリの平均ベクトルである。
[Equation 5]
gl (X) = (X-Mlhat) ^ T (X-Mlhat) = || X-Mlhat || ^ 2
Here, Mlhat is the average vector of the lth category.

図11の例で示したように、入力テキストXは各カテゴリ学習集団の中心部とのユークリッ
ド距離が最も小さいカテゴリ2に分類される。
As shown in the example of FIG. 11, the input text X is classified into category 2 having the smallest Euclidean distance from the center of each category learning group.

この実施例の説明において、入力技術テキストを予め決められたニーズカテゴリに分類す
ることを対象としているが、ニーズテキストが分類されてない場合でも、技術テキストと
ともに入力し、クラスタリング方法でテキストをグルップ化するマッチング方法も使える
。クラスタリング分類の場合、上記分類器作成部106が不要になる。クラスタリングは
公知の手法を用いることができる。
In the explanation of this embodiment, it is intended to classify input technical texts into predetermined needs categories. However, even if the needs text is not classified, it is input together with the technical text and the text is grouped by the clustering method. You can also use matching method. In the case of clustering classification, the classifier creating unit 106 is not necessary. A known method can be used for clustering.

8.結果表示部108は、分類部107で分類された結果を利用者に分かりやすい形(例
えば、図12の形式)で出力する。
8). The result display unit 108 outputs the results classified by the classification unit 107 in a form that is easy for the user to understand (for example, the format shown in FIG. 12).

以上のように、この発明によれば、技術文献にニーズカテゴリに分類することによって、
ニーズ情報と技術情報を手間がかからなく、自動的に結び付けることが可能になる。
As described above, according to the present invention, by classifying into the needs category in the technical literature,
Need information and technical information can be linked automatically and without any hassle.

〔第二の実施例〕
本発明の第二の実施例を以下に説明する。図2は、第二の実施例の全体構成を示したもの
である。本実施例における技術文献分類システムは、第一の実施例の構成要素に、ノウハ
ウ情報検索部209を加えた要素から構成される。
[Second Example]
A second embodiment of the present invention will be described below. FIG. 2 shows the overall configuration of the second embodiment. The technical literature classification system in the present embodiment is composed of elements obtained by adding a know-how information search unit 209 to the constituent elements of the first embodiment.

以下、第二の実施例における技術文献分類システムの動作を説明する(図4参照)。 Hereinafter, the operation of the technical literature classification system in the second embodiment will be described (see FIG. 4).

学習用文書入力部201による学習データの読み込みから、結果表示部208が、分類結
果を利用者に出力するところまでは、第一の実施例と同じである。
The process from the reading of learning data by the learning document input unit 201 until the result display unit 208 outputs the classification result to the user is the same as in the first embodiment.

結果表示部208は特許の発明者を特許番号とともに表示されている(図12参照)。発明
者の名前をクリックすると、発明者の名前を検索のキーワードとして、ノウハウ情報検索
部209に送信する。この実施例の説明においては、特許文献の発明者を対象とするが、
他の技術文献の場合、著者、作成者などを対象とする。
The result display unit 208 displays the inventor of the patent together with the patent number (see FIG. 12). When the inventor's name is clicked, the inventor's name is transmitted to the know-how information search unit 209 as a search keyword. In the description of this embodiment, the inventor of the patent document is targeted.
In the case of other technical literature, the author, creator, etc. are targeted.

ノウハウ情報検索部209は、結果表示部208から送信された発明者の名前を用いて、
ノウハウ DBを検索する。検索された結果を結果表示部208に送信し、結果表示部20
8によって利用者に出力する(図13参照)。この実施例の説明においては、ノウハウ DB
は社員情報DBを対象とするが、他の人的情報DBを使ってもよい。
The know-how information search unit 209 uses the inventor's name transmitted from the result display unit 208,
Search the know-how database. The retrieved result is transmitted to the result display unit 208, and the result display unit 20
8 to the user (see FIG. 13). In the explanation of this embodiment, the know-how DB
Targets the employee information DB, but other personal information DBs may be used.

このようにして、第一の実施例の効果に加えて、ニーズを解決しようとする人とニーズを
解決できる人を繋げ、企業の営業部隊と研究部隊の連携を一層効率的に支援できる。
In this way, in addition to the effect of the first embodiment, the person who can solve the needs and the person who can solve the needs can be connected, and the cooperation between the sales team and the research team of the company can be supported more efficiently.

このように本発明の各実施形態によれば、顧客ニーズを含むVOCテキストと技術を含む技
術テキストのみを用意するだけで、ニーズテキストは学習データとして、特徴ベクトルを
作成し、各カテゴリ(ニーズの類目)の特徴パターンを生成し、類似の技術テキストに該
当ニーズのラベルを付与することにより、ニーズ情報と技術情報を自動的にマッチングで
きるので、ニーズに素早く対応できる。
As described above, according to each embodiment of the present invention, only a VOC text including customer needs and a technical text including technology are prepared. The feature information of the category) is generated, and the label of the corresponding needs is assigned to the similar technical text, so that the needs information and the technical information can be automatically matched, so that the needs can be quickly met.

さらに、テキストの前処理、特徴の正規化、分離性が高い特徴の抽出などの処理によって
、精度が高い分類効果が得られる。
Furthermore, a high-precision classification effect can be obtained by processing such as text preprocessing, feature normalization, and feature extraction with high separability.

全ての処理に人間の関与がほとんどないため、全自動化が実現でき、手間がかからない。
また、個人の判断に依存しないので、分類結果の統一性を保持できる。
Since there is almost no human involvement in all processing, full automation can be realized and it does not take time.
Moreover, since it does not depend on individual judgment, the uniformity of the classification result can be maintained.

上記に加えて、ニーズテキストは技術文献の著者、発明者のノウハウ情報との連携によっ
て、営業部隊と研究部隊の間のコミュニケーションを支援する効果を有する
なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラ
ムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光
ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの
記憶媒体に格納して頒布することもできる。
In addition to the above, the needs text has the effect of supporting communication between the sales unit and the research unit by cooperating with the authors of the technical literature and the know-how information of the inventor. As a program that can be executed, the program is stored in a storage medium such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a magneto-optical disk (MO), or a semiconductor memory. It can also be distributed.

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能
な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
In addition, as long as the storage medium can store a program and can be read by a computer, the storage format may be any form.

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピ
ュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト
、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処
理の一部を実行しても良い。
In addition, an OS (operating system) running on a computer based on an instruction of a program installed in the computer from a storage medium, MW (middleware) such as database management software, network software, and the like realize the above-described embodiment. A part of each process may be executed.

さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやイ
ンターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記
憶媒体も含まれる。
Furthermore, the storage medium in the present invention is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN or the Internet is downloaded and stored or temporarily stored.

また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される
場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
Further, the number of storage media is not limited to one, and the case where the processing in the above embodiment is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.

尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実
施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の
装置がネットワーク接続されたシステム等の何れの構成であっても良い。
The computer according to the present invention executes each process in the above-described embodiment based on a program stored in a storage medium, and is a single device such as a personal computer or a system in which a plurality of devices are connected to a network. Any configuration may be used.

また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演
算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能
な機器、装置を総称している。
In addition, the computer in the present invention is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. .

なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその
要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示さ
れている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形
態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態
に亘る構成要素を適宜組合せてもよい。
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

第一実施例におけるシステム全体構成を示す図。The figure which shows the whole system structure in a 1st Example. 第二実施例におけるシステム全体構成を示す図。The figure which shows the whole system structure in a 2nd Example. 第一実施例における処理の流れを示す図。The figure which shows the flow of the process in a 1st Example. 第二実施例における処理の流れを示す図。The figure which shows the flow of a process in 2nd Example. 学習テキスト入力を示す図。The figure which shows learning text input. 分類用テキスト入力を示す図。The figure which shows the text input for a classification | category. データ前処理装置の動作を示す図。The figure which shows operation | movement of a data pre-processing apparatus. 特徴作成装置の動作を示す図。The figure which shows operation | movement of the feature preparation apparatus. 特徴抽出装置の動作を示す図。The figure which shows operation | movement of a feature extraction apparatus. 分類器生成装置の動作を示す図。The figure which shows operation | movement of a classifier production | generation apparatus. 分類装置の動作を示す図。The figure which shows operation | movement of a classification device. 分類結果を示す図。The figure which shows a classification result. ノウハウ検索結果を示す図。The figure which shows a know-how search result.

符号の説明Explanation of symbols

100、200…技術文献分類システム,101、201…学習用文書入力部,102
、202…分類用文書入力部,103、203…データ前処理部,104、204…特徴
作成部,105、205…特徴抽出部,106、206…分類器作成部,107、207
…分類部,108、208…結果出力部、209…ノウハウ情報検索部,10…ニーズD
B,11、21…技術文書DB,12、23…分類結果DB,24…ノウハウDB。
100, 200 ... technical document classification system, 101, 201 ... learning document input unit, 102
202, classification document input unit, 103, 203 ... data preprocessing unit, 104, 204 ... feature creation unit, 105, 205 ... feature extraction unit, 106, 206 ... classifier creation unit, 107, 207
... Classification part, 108, 208 ... Result output part, 209 ... Know-how information search part, 10 ... Needs D
B, 11, 21 ... technical document DB, 12, 23 ... classification result DB, 24 ... know-how DB.

Claims (5)

ニーズ情報を含むVOC文書と当該ニーズ情報を解決するための技術要素を含む技術文
献に対して、
前記ニーズ情報であるニーズテキストを入力する学習用文書入力手段と、
前記学習用文書入力手段により入力されたニーズテキストの前記VOC文書における出
現頻度に基づいた文書特徴情報を生成する文書特徴情報生成手段と、
前記VOC文書のカテゴリの特徴パターンを生成する分類器作成手段と、
前記技術要素である技術テキストを入力する分類用文書入力手段と、
前記分類用文書入力手段により入力された技術テキストに対して実行する識別関数を用
いる分類手段と、
前記分類手段によって分類された分類結果を出力する結果出力手段と、
を具備することを特徴とする技術文献分類システム。
For technical documents that include technical elements for solving VOC documents containing needs information and the needs information,
A learning document input means for inputting a needs text as the needs information;
Document feature information generating means for generating document feature information based on the appearance frequency of the need text input by the learning document input means in the VOC document;
Classifier creating means for generating a feature pattern of a category of the VOC document;
Document input means for classification for inputting technical text as the technical element;
Classification means using an identification function executed on the technical text input by the classification document input means;
A result output means for outputting a classification result classified by the classification means;
The technical literature classification system characterized by comprising.
前記入力される各種テキストのデータを前処理するデータ前処理手段と、を
をさらに具備することを特徴とする請求項1記載の技術文献分類システム。
2. The technical document classification system according to claim 1, further comprising data preprocessing means for preprocessing the input various text data.
前記入力される技術テキストの執筆者である技術者情報を検索する技術者情報検索手段
と、を具備することを特徴とする請求項1または2記載の技術文献分類システム。
The technical document classification system according to claim 1 or 2, further comprising engineer information search means for searching for engineer information as a writer of the input technical text.
前記データ前処理手段は、前記入力された各種テキストデータに対して省略文を補完し
、同義語を統一した上で形態素解析を行うことを特徴とする請求項2または3記載の技術
文献分類システム。
4. The technical document classification system according to claim 2, wherein the data preprocessing means complements abbreviations for the various input text data and unifies synonyms and performs morphological analysis. .
前記特徴抽出手段は、主成分分析を用いて特徴を抽出することを特徴とする請求項4記
載の技術文献分類システム。
5. The technical document classification system according to claim 4, wherein the feature extraction means extracts features using principal component analysis.
JP2007268287A 2007-10-15 2007-10-15 Technical literature classification system Withdrawn JP2009098809A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007268287A JP2009098809A (en) 2007-10-15 2007-10-15 Technical literature classification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007268287A JP2009098809A (en) 2007-10-15 2007-10-15 Technical literature classification system

Publications (1)

Publication Number Publication Date
JP2009098809A true JP2009098809A (en) 2009-05-07

Family

ID=40701774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007268287A Withdrawn JP2009098809A (en) 2007-10-15 2007-10-15 Technical literature classification system

Country Status (1)

Country Link
JP (1) JP2009098809A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (en) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd Document classification system, document classification program, and document classification method
KR101328646B1 (en) * 2011-12-14 2013-11-14 한국지질자원연구원 Calculation method of indicators indicating degrees corresponding with customer's demands and investment requirements for technologies
JP2015176511A (en) * 2014-03-18 2015-10-05 日本電信電話株式会社 Document classification device, document classification method and document classification program
JP6321874B1 (en) * 2017-10-05 2018-05-09 株式会社発明通信社 Server device
CN113239201A (en) * 2021-05-20 2021-08-10 国网上海市电力公司 Scientific and technological literature classification method based on knowledge graph

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (en) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd Document classification system, document classification program, and document classification method
KR101328646B1 (en) * 2011-12-14 2013-11-14 한국지질자원연구원 Calculation method of indicators indicating degrees corresponding with customer's demands and investment requirements for technologies
JP2015176511A (en) * 2014-03-18 2015-10-05 日本電信電話株式会社 Document classification device, document classification method and document classification program
JP6321874B1 (en) * 2017-10-05 2018-05-09 株式会社発明通信社 Server device
JP2019067330A (en) * 2017-10-05 2019-04-25 株式会社発明通信社 Server device
CN113239201A (en) * 2021-05-20 2021-08-10 国网上海市电力公司 Scientific and technological literature classification method based on knowledge graph

Similar Documents

Publication Publication Date Title
Jung Semantic vector learning for natural language understanding
Kaushik et al. A comprehensive study of text mining approach
Kumar Gupta et al. Pso-asent: Feature selection using particle swarm optimization for aspect based sentiment analysis
Kumar et al. Exploration of sentiment analysis and legitimate artistry for opinion mining
Sleeman et al. Topic modeling for RDF graphs
Jihan et al. Multi-domain aspect extraction using support vector machines
Saini et al. Multi-view ensemble learning using rough set based feature ranking for opinion spam detection
Sandhu et al. Enhanced Text Mining Approach for Better Ranking System of Customer Reviews
JP2009098809A (en) Technical literature classification system
Cristani et al. A multimodal approach to relevance and pertinence of documents
Konstantinidis et al. Knowledge-driven unsupervised skills extraction for graph-based talent matching
George et al. Comparison of LDA and NMF topic modeling techniques for restaurant reviews
He et al. Temporal representations of citations for understanding the changing roles of scientific publications
Qasem et al. Leveraging contextual features to enhanced machine learning models in detecting COVID-19 fake news
Samsir et al. BERTopic modeling of natural language processing abstracts: Thematic structure and trajectory
Nazir et al. Idea plagiarism detection with recurrent neural networks and vector space model
Sariki et al. A book recommendation system based on named entities
Van Tran et al. Active learning-based approach for named entity recognition on short text streams
Wei et al. Motif-based hyponym relation extraction from wikipedia hyperlinks
Jahanbakhsh Gudakahriz et al. Opinion texts clustering using manifold learning based on sentiment and semantics analysis
Tran et al. A named entity recognition approach for tweet streams using active learning
Kumar et al. Ontology-based full-text searching using named entity recognition
Pushpalatha et al. A tree based representation for effective pattern discovery from multimedia documents
Kulkarni et al. An in-depth survey of techniques employed in construction of emotional lexicon
Oufaida et al. A coherence model for sentence ordering

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110104