JP2006302269A - 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 - Google Patents
語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 Download PDFInfo
- Publication number
- JP2006302269A JP2006302269A JP2006085915A JP2006085915A JP2006302269A JP 2006302269 A JP2006302269 A JP 2006302269A JP 2006085915 A JP2006085915 A JP 2006085915A JP 2006085915 A JP2006085915 A JP 2006085915A JP 2006302269 A JP2006302269 A JP 2006302269A
- Authority
- JP
- Japan
- Prior art keywords
- domain
- vocabulary
- category
- vector
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】特徴抽出部111が特許ドメインおよび論文ドメインにおいて特徴ベクトルを生成し、カテゴリ代表点計算部113が特許ドメインおよび論文ドメインにおいて各カテゴリの代表特徴ベクトルを計算し、座標変換ルール計算部115が特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに変換する座標変換ルールを代表特徴ベクトルを用いて生成し、座標変換部117が座標変換ルールを用いて特許ドメインの特徴ベクトルを論文ドメインに変換し、分類ルール生成部118が論文ドメインに変換された特許ドメインの特徴ベクトルを用いて分類ルールを作成し、カテゴリ判定部120が論文ドメインに変換された特許ドメインの特徴ベクトルを用いて作成された分類ルールに基づいて判定対象論文のカテゴリを判定するよう構成する。
【選択図】 図1
Description
(1)学習器を用いて正解データ(特許文書)から分類ルールを作成する
(2)分類ルールを用いて論文を分類する
2.IPCを論文に付与したものを正解データとする場合
(1)論文をIPCに従い、人手で分類する
(2)学習器を用いて正解データ(論文)から分類ルールを作成する
(3)分類ルールを用いて論文を分類する
(1)ドメインBのうちの少数の文書をドメインAのカテゴリに従って人手で分類する。
(2)(1)で分類したドメインBの文書およびドメインAのカテゴリで分類したドメインAの文書を用いて、ドメインAで用いられている語彙をドメインBで用いられている語彙に変換する語彙変換ルール(座標変換ルール)Mを計算する。
(3)Mを用いてドメインAの文書を、ドメインBの文書に変換する。この変換で得られた文書は、分類体系はドメインAのもの、語彙はドメインBのもの、になっている。
(4)(3)で変換された文書を正解として学習させることで、ドメインBの文書をドメインAの分類体系へ分類する分類ルールを得る。
(5)(4)で得た分類ルールを用いてドメインBの文書をドメインAのカテゴリに分類する。
Q=MP
となるMがその座標変換ルールになる。
M=QP-1=Q(PTP)-1PT
ここで、Tは転置(Transpose)を表し、行列Pの転置行列PTでは、各要素pijがPのpjiに一致する。例えば、
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成手順と、
前記分類規則生成手順により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類手順と、
をコンピュータに実行させることを特徴とする文書分類プログラム。
前記変換規則計算手順により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換手順とをさらにコンピュータに実行させ、
前記分類規則生成手順は、前記変換手順により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記1に記載の文書分類プログラム。
前記特徴抽出手順により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算手順とをさらにコンピュータに実行させ、
前記変換規則計算手順は、前記代表特徴ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記2に記載の文書分類プログラム。
前記分類規則生成手順は、前記変換手順により第2のドメインに変換された複数の特徴ベクトルを用いることによって、第2のドメインから直接抽出された特徴ベクトルより多くの数の特徴ベクトルを用いて、第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記3、4または5に記載の文書分類プログラム。
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算手順と、
前記代表ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とするベクトル変換プログラム。
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手順と、
前記語彙抽出手順により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成工程と、
前記分類規則生成工程により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類工程と、
を含んだことを特徴とする文書分類方法。
前記変換規則計算工程により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換工程とをさらに含み、
前記分類規則生成工程は、前記変換工程により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記9に記載の文書分類方法。
前記特徴抽出工程により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算工程とをさらに含み、
前記変換規則計算工程は、前記代表特徴ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記10に記載の文書分類方法。
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算工程と、
前記代表ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換工程と、
を含んだことを特徴とするベクトル変換方法。
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出工程と、
前記語彙抽出工程により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、
を含んだことを特徴とする語彙ねじれ解消方法。
複数の第1のドメインの文書からそれぞれ抽出されて第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成する分類規則生成手段と、
前記分類規則生成手段により生成された分類規則を用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類手段と、
を備えたことを特徴とする文書分類装置。
前記変換規則計算手段により計算された変換規則を用いて前記複数の第1のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第2のドメインの複数の特徴ベクトルに変換する変換手段とをさらに備え、
前記分類規則生成手段は、前記変換手段により第2のドメインに変換された複数の特徴ベクトルを用いて第2のドメインの文書を第1のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記15に記載の文書分類装置。
前記特徴抽出手段により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表特徴ベクトル計算手段とをさらに備え、
前記変換規則計算手段は、前記代表特徴ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第1のドメインの特徴ベクトルを第2のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記16に記載の文書分類装置。
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表ベクトル計算手段と、
前記代表ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインのベクトルを第2のドメインのベクトルに変換する変換手段と、
を備えことを特徴とするベクトル変換装置。
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。
111 特徴抽出部
112 特徴ベクトル記憶部
113 カテゴリ代表点計算部
114 カテゴリ代表点記憶部
115 座標変換ルール計算部
116 座標変換ルール記憶部
117 座標変換部
118 分類ルール生成部
119 分類ルール記憶部
120 カテゴリ判定部
200 コンピュータ
210 RAM
211 文書分類プログラム
220 CPU
221 文書分類プロセス
230 HDD
240 LANインタフェース
250 入出力インタフェース
260 DVDドライブ
Claims (3)
- 複数のカテゴリに分類される第1のドメインの語彙ベクトルを該複数のカテゴリに分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手順と、
前記語彙抽出手順により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。 - 複数のカテゴリに分類される第1のドメインの語彙ベクトルを該複数のカテゴリに分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消方法であって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出工程と、
前記語彙抽出工程により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換工程と、
を含んだことを特徴とする語彙ねじれ解消方法。 - 複数のカテゴリに分類される第1のドメインの語彙ベクトルを該複数のカテゴリに分類される第2のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、
前記第1のドメインおよび第2のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第1のドメインおよび第2のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第1のドメインおよび第2のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第1のドメインの語彙ベクトルを第2のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006085915A JP4332161B2 (ja) | 2006-03-27 | 2006-03-27 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006085915A JP4332161B2 (ja) | 2006-03-27 | 2006-03-27 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005122298A Division JP4332129B2 (ja) | 2005-04-20 | 2005-04-20 | 文書分類プログラム、文書分類方法および文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006302269A true JP2006302269A (ja) | 2006-11-02 |
JP4332161B2 JP4332161B2 (ja) | 2009-09-16 |
Family
ID=37470429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006085915A Expired - Fee Related JP4332161B2 (ja) | 2006-03-27 | 2006-03-27 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4332161B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010003106A (ja) * | 2008-06-20 | 2010-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
KR20190097669A (ko) * | 2018-02-13 | 2019-08-21 | 고려대학교 산학협력단 | 기술 문서 키워드를 도출하는 장치 및 방법 |
-
2006
- 2006-03-27 JP JP2006085915A patent/JP4332161B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010003106A (ja) * | 2008-06-20 | 2010-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
KR20190097669A (ko) * | 2018-02-13 | 2019-08-21 | 고려대학교 산학협력단 | 기술 문서 키워드를 도출하는 장치 및 방법 |
KR102045574B1 (ko) | 2018-02-13 | 2019-11-18 | 고려대학교 산학협력단 | 기술 문서 키워드를 도출하는 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4332161B2 (ja) | 2009-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4332129B2 (ja) | 文書分類プログラム、文書分類方法および文書分類装置 | |
WO2010061813A1 (ja) | 能動計量学習装置、能動計量学習方法および能動計量学習プログラム | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
US20190370274A1 (en) | Analysis Method Using Graph Theory, Analysis Program, and Analysis System | |
Dulá | An algorithm for data envelopment analysis | |
CN110795525A (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
WO2021248492A1 (en) | Semantic representation of text in document | |
JP4170296B2 (ja) | 事例分類装置および方法 | |
US20220358379A1 (en) | System, apparatus and method of managing knowledge generated from technical data | |
JP2007018389A (ja) | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JPWO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
JP4332161B2 (ja) | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 | |
CN117195877A (zh) | 一种电子病历的词向量生成方法、系统、设备及存储介质 | |
TW201506650A (zh) | 文件分類系統及方法 | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models | |
WO2015040860A1 (ja) | 分類辞書生成装置、分類辞書生成方法及び記録媒体 | |
CN116030295A (zh) | 物品识别方法、装置、电子设备及存储介质 | |
CN114970467A (zh) | 基于人工智能的作文初稿生成方法、装置、设备及介质 | |
Guo et al. | The rise of nonnegative matrix factorization: algorithms and applications | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2006302268A (ja) | ベクトル変換プログラム、ベクトル変換方法およびベクトル変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090616 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090619 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |