JP4332161B2 - 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 - Google Patents
語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 Download PDFInfo
- Publication number
- JP4332161B2 JP4332161B2 JP2006085915A JP2006085915A JP4332161B2 JP 4332161 B2 JP4332161 B2 JP 4332161B2 JP 2006085915 A JP2006085915 A JP 2006085915A JP 2006085915 A JP2006085915 A JP 2006085915A JP 4332161 B2 JP4332161 B2 JP 4332161B2
- Authority
- JP
- Japan
- Prior art keywords
- domain
- vocabulary
- category
- vector
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)学習器を用いて正解データ(特許文書)から分類ルールを作成する
(2)分類ルールを用いて論文を分類する
2.IPCを論文に付与したものを正解データとする場合
(1)論文をIPCに従い、人手で分類する
(2)学習器を用いて正解データ(論文)から分類ルールを作成する
(3)分類ルールを用いて論文を分類する
(1)ドメインBのうちの少数の文書をドメインAのカテゴリに従って人手で分類する。
(2)(1)で分類したドメインBの文書およびドメインAのカテゴリで分類したドメインAの文書を用いて、ドメインAで用いられている語彙をドメインBで用いられている語彙に変換する語彙変換ルール(座標変換ルール)Mを計算する。
(3)Mを用いてドメインAの文書を、ドメインBの文書に変換する。この変換で得られた文書は、分類体系はドメインAのもの、語彙はドメインBのもの、になっている。
(4)(3)で変換された文書を正解として学習させることで、ドメインBの文書をドメインAの分類体系へ分類する分類ルールを得る。
(5)(4)で得た分類ルールを用いてドメインBの文書をドメインAのカテゴリに分類する。
Q=MP
となるMがその座標変換ルールになる。
M=QP-1=Q(PTP)-1PT
ここで、Tは転置(Transpose)を表し、行列Pの転置行列PTでは、各要素pijがPのpjiに一致する。例えば、
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成手順と、
前記分類規則生成手順により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類手順と、
をコンピュータに実行させることを特徴とする文書分類プログラム。
前記変換規則計算手順により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換手順とをさらにコンピュータに実行させ、
前記分類規則生成手順は、前記変換手順により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記1に記載の文書分類プログラム。
前記特徴抽出手順により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算手順とをさらにコンピュータに実行させ、
前記変換規則計算手順は、前記代表特徴ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記2に記載の文書分類プログラム。
前記分類規則生成手順は、前記変換手順により第2のドメインに変換された複数の特徴ベクトルを用いることによって、第2のドメインから直接抽出された特徴ベクトルより多くの数の特徴ベクトルを用いて、第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記3、4または5に記載の文書分類プログラム。
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算手順と、
前記代表ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とするベクトル変換プログラム。
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手順と、
前記語彙抽出手順により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成工程と、
前記分類規則生成工程により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類工程と、
を含んだことを特徴とする文書分類方法。
前記変換規則計算工程により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換工程とをさらに含み、
前記分類規則生成工程は、前記変換工程により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記9に記載の文書分類方法。
前記特徴抽出工程により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算工程とをさらに含み、
前記変換規則計算工程は、前記代表特徴ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記10に記載の文書分類方法。
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算工程と、
前記代表ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換工程と、
を含んだことを特徴とするベクトル変換方法。
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出工程と、
前記語彙抽出工程により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、
を含んだことを特徴とする語彙ねじれ解消方法。
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成手段と、
前記分類規則生成手段により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類手段と、
を備えたことを特徴とする文書分類装置。
前記変換規則計算手段により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換手段とをさらに備え、
前記分類規則生成手段は、前記変換手段により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記15に記載の文書分類装置。
前記特徴抽出手段により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算手段とをさらに備え、
前記変換規則計算手段は、前記代表特徴ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記16に記載の文書分類装置。
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算手段と、
前記代表ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換手段と、
を備えことを特徴とするベクトル変換装置。
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。
111 特徴抽出部
112 特徴ベクトル記憶部
113 カテゴリ代表点計算部
114 カテゴリ代表点記憶部
115 座標変換ルール計算部
116 座標変換ルール記憶部
117 座標変換部
118 分類ルール生成部
119 分類ルール記憶部
120 カテゴリ判定部
200 コンピュータ
210 RAM
211 文書分類プログラム
220 CPU
221 文書分類プロセス
230 HDD
240 LANインタフェース
250 入出力インタフェース
260 DVDドライブ
Claims (3)
- 複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出手順と、
前記語彙抽出手順により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算手順と、
前記変換規則計算手順により格納された変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。 - 複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置による語彙ねじれ解消方法であって、
前記語彙ねじれ解消装置が、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出工程と、
前記語彙抽出工程により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算工程と、
前記変換規則計算工程により格納された変換規則を記憶装置から読み出して第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、
を実行することを特徴とする語彙ねじれ解消方法。 - 複数のカテゴリに分類される第1のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006085915A JP4332161B2 (ja) | 2006-03-27 | 2006-03-27 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006085915A JP4332161B2 (ja) | 2006-03-27 | 2006-03-27 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005122298A Division JP4332129B2 (ja) | 2005-04-20 | 2005-04-20 | 文書分類プログラム、文書分類方法および文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006302269A JP2006302269A (ja) | 2006-11-02 |
JP4332161B2 true JP4332161B2 (ja) | 2009-09-16 |
Family
ID=37470429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006085915A Expired - Fee Related JP4332161B2 (ja) | 2006-03-27 | 2006-03-27 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4332161B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5164209B2 (ja) * | 2008-06-20 | 2013-03-21 | 日本電信電話株式会社 | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
KR102045574B1 (ko) * | 2018-02-13 | 2019-11-18 | 고려대학교 산학협력단 | 기술 문서 키워드를 도출하는 장치 및 방법 |
-
2006
- 2006-03-27 JP JP2006085915A patent/JP4332161B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006302269A (ja) | 2006-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4332129B2 (ja) | 文書分類プログラム、文書分類方法および文書分類装置 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
US7099819B2 (en) | Text information analysis apparatus and method | |
JP5755655B2 (ja) | 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
US20100324883A1 (en) | Trans-lingual representation of text documents | |
Dulá | An algorithm for data envelopment analysis | |
JP4711761B2 (ja) | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 | |
CN110795525A (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
JP4170296B2 (ja) | 事例分類装置および方法 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
JPWO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
JP4332161B2 (ja) | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
CN117195877A (zh) | 一种电子病历的词向量生成方法、系统、设备及存储介质 | |
JP6436086B2 (ja) | 分類辞書生成装置、分類辞書生成方法及びプログラム | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models | |
CN116030295A (zh) | 物品识别方法、装置、电子设备及存储介质 | |
JP2011008634A (ja) | パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2006302268A (ja) | ベクトル変換プログラム、ベクトル変換方法およびベクトル変換装置 | |
CN112990383A (zh) | 对抗样本的生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090616 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090619 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |