JP2005084859A - 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 - Google Patents
共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 Download PDFInfo
- Publication number
- JP2005084859A JP2005084859A JP2003315129A JP2003315129A JP2005084859A JP 2005084859 A JP2005084859 A JP 2005084859A JP 2003315129 A JP2003315129 A JP 2003315129A JP 2003315129 A JP2003315129 A JP 2003315129A JP 2005084859 A JP2005084859 A JP 2005084859A
- Authority
- JP
- Japan
- Prior art keywords
- partial character
- frequency
- character string
- information
- common pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000003860 storage Methods 0.000 title description 8
- 238000000605 extraction Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 16
- 230000003252 repetitive effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 13
- 108090000623 proteins and genes Proteins 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Abstract
【解決手段】本発明は、各テキスト情報から部分文字列を抽出する部分文字列取り出し手段11と、抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段12と、同一頻度ごとに部分文字列取り出し手段11が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段13と、頻度と異なる部分文字列の数との積を計算する総数計算手段14と、総数計算手段14によって計算された積と頻度との関係から、ピンポイントで出現するピークに位置の頻度を探すピーク発見手段15と、ピークが存在するとき該ピークの位置で頻度がカウントされた部分文字列を含むテキスト情報を抽出する情報抽出手段16とを備えたことを主要な特徴とする。
【選択図】図7
Description
以下、本発明の実施の形態1における共通パターン発見装置と、そのプログラム、またそれを記録したコンピュータ読み取り可能な記録媒体、さらにその共通パターン発見方法について説明する。実施の形態1の共通パターン発見装置と共通パターン発見方法、プログラム等は、情報間で、共通のパターンを示す定型部分を有する情報と、このような部分を有していない情報とを、情報に含まれる異なる部分文字列の数とその頻度とを利用して抽出するものである。複数の情報間の場合を説明するが、単数の情報内で繰り返しパターンを抽出することもできる。図1は定型部分を有していない情報の部分文字列が出現する頻度f、異なる部分文字列の数V(f)、部分文字列長さnの3次元説明図、図2は定型部分を有している情報の部分文字列が出現する頻度f、異なる部分文字列の数V(f)、部分文字列長さnの3次元説明図、図3は定型部分を有していない情報の異なる部分文字列の数V(f)と頻度fの2次元説明図、図4は定型部分を有している情報の異なる部分文字列の数V(f)と頻度fの2次元説明図、図5は定型部分を有していない情報の頻度fと部分文字列の総数F(f)の関係図、図6は定型部分を有している情報の頻度fと部分文字列の総数F(f)の関係図、図7(a)は本発明における実施の形態1における共通パターン発見装置の構成図、図7(b)は(a)の共通パターン発見装置のプログラム構成図、図8は取り出す部分文字列の採取パターンを示す説明図、図9は本発明の実施の形態1における共通パターン発見装置が行う処理のフローチャートである。
さて、実施例4の共通パターン発見装置と共通パターン発見方法は、このように記述された遺伝子の塩基配列データを解析対象とする。A,T,C,Gの4文字で記述された塩基配列データから、所定の文字数(n=1,・・)の部分文字列を抽出し、同一の部分文字列ごとに出現回数の和をとって頻度fをカウントするとともに、頻度fに対して異なる部分文字列の数V(f)をカウントする。次いで頻度fと異なる部分文字列の数V(f)の積F(f)をとり、頻度fとF(f)の関係からピンポイントのピークが出現するか否かを検討する。ピークがある場合、共通のパターンの情報を得るため、ピークの位置で頻度をカウントした部分文字列を識別可能に表示して該当する情報を抽出する。SNPsのように数塩基しか異ならない配列であれば、高精度で類似配列を抽出することができる。
2 記憶部
3 入力手段
4 表示手段
5 通信制御部
6 ネットワークサーバ部
11 部分文字列取り出し手段
12 頻度カウント手段
13 部分文字列種類数カウント手段
14 総数計算手段
15 ピーク発見手段
16 情報抽出手段
17 ノイズ情報除去手段
Claims (12)
- 複数のテキスト情報を対象として、各テキスト情報から最大長さまでのすべての長さの部分文字列を抽出する部分文字列取り出し手段と、前記部分文字列取り出し手段が抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段と、同一頻度ごとに前記部分文字列取り出し手段が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段と、前記頻度カウント手段がカウントした頻度と前記部分文字列種類数カウント手段がカウントした異なる部分文字列の数との積を計算する総数計算手段と、前記総数計算手段によって計算された積と前記頻度との関係から、ピンポイントでピークが出現する位置の頻度を探すピーク発見手段と、ピークが存在するとき該ピークの位置の頻度がカウントされた部分文字列を含むテキスト情報を抽出する情報抽出手段とを備え、複数のテキスト情報の中からピークの存在で共通のパターンを有す情報を発見することを特徴とする共通パターン発見装置。
- 共通のパターンを有しないテキスト情報を除去するノイズ情報除去手段が設けられたことを特徴とする請求項1記載の共通パターン発見装置。
- 前記情報抽出手段が、共通のパターンを示す部分文字列を識別可能に表示して該部分文字列を含むテキスト情報を抽出することを特徴とする請求項1または2記載の共通パターン発見装置。
- 請求項1〜3のいずれかに記載の共通パターン発見装置において、複数のテキスト情報を対象として部分文字列を抽出するのに代えて、単数のテキスト情報、複数の塩基配列情報または画像情報を対象としてそれぞれ繰り返しパターン、部分塩基配列または部分画素列を抽出することを特徴とする共通パターン発見装置。
- コンピュータを、複数のテキスト情報を対象として各テキスト情報から最大長さまでのすべての長さの部分文字列を抽出する部分文字列取り出し手段、前記部分文字列取り出し手段が抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段、同一頻度ごとに前記部分文字列取り出し手段が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段、前記頻度カウント手段がカウントした頻度と前記部分文字列種類数カウント手段がカウントした異なる部分文字列の数との積を計算する総数計算手段、前記総数計算手段によって計算された積と前記頻度との関係から、ピンポイントでピークが出現する位置の頻度を探すピーク発見手段、ピークが存在するとき該ピークの位置の頻度がカウントされた部分文字列を含むテキスト情報を抽出する情報抽出手段として機能させるためのプログラムであって、複数のテキスト情報の中からピークの存在で共通のパターンを有す情報を発見することを特徴とするプログラム。
- コンピュータを、共通のパターンを有しないテキスト情報を除去するノイズ情報除去手段として機能させることを特徴とする請求項5記載のプログラム。
- 前記情報抽出手段が、共通のパターンを示す部分文字列を識別可能に表示して該部分文字列を含むテキスト情報を抽出することを特徴とする請求項5または6記載のプログラム。
- 請求項5〜7のいずれかに記載のプログラムにおいて、複数のテキスト情報を対象として部分文字列を抽出するのに代えて、単数のテキスト情報、複数の塩基配列情報または画像情報を対象としてそれぞれ繰り返しパターン、部分塩基配列または部分画素列を抽出することを特徴とするプログラム。
- 請求項5〜8のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 複数のテキスト情報を対象として各テキスト情報から最大長さまでのすべての長さの部分文字列を抽出し、同一の部分文字列ごとに出現回数の和をとって頻度とするとともに該頻度を有する異なる部分文字列の数をカウントし、前記頻度と前記異なる部分文字列の数との積を計算し、該積と前記頻度との関係からピンポイントでピークが出現する位置の頻度を探し、ピークが存在するとき該ピークの位置の頻度がカウントされた部分文字列を含むテキスト情報を抽出して、複数のテキスト情報の中から共通のパターンを有す情報を発見することを特徴とする共通パターン発見方法。
- 共通のパターンを有しないテキスト情報を除去するノイズ情報除去手段が設けられたことを特徴とする請求項10記載の共通パターン発見方法。
- 請求項10または11に記載された共通パターン発見方法において、複数のテキスト情報を対象とするのに代えて、単数のテキスト情報、複数の塩基配列情報または画像情報を対象とすることを特徴とする共通パターン発見方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003315129A JP4385119B2 (ja) | 2003-09-08 | 2003-09-08 | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003315129A JP4385119B2 (ja) | 2003-09-08 | 2003-09-08 | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084859A true JP2005084859A (ja) | 2005-03-31 |
JP4385119B2 JP4385119B2 (ja) | 2009-12-16 |
Family
ID=34415486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003315129A Expired - Lifetime JP4385119B2 (ja) | 2003-09-08 | 2003-09-08 | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4385119B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334769A (ja) * | 2006-06-16 | 2007-12-27 | Institute Of Physical & Chemical Research | 配列抽出装置、配列抽出方法、プログラムおよび記録媒体 |
KR100832825B1 (ko) | 2006-09-29 | 2008-05-28 | 후지쯔 가부시끼가이샤 | 기판 정보 취득 변환 방법 및 기판 정보 취득 변환 장치 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5963310B2 (ja) | 2013-01-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、情報処理プログラム |
-
2003
- 2003-09-08 JP JP2003315129A patent/JP4385119B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334769A (ja) * | 2006-06-16 | 2007-12-27 | Institute Of Physical & Chemical Research | 配列抽出装置、配列抽出方法、プログラムおよび記録媒体 |
KR100832825B1 (ko) | 2006-09-29 | 2008-05-28 | 후지쯔 가부시끼가이샤 | 기판 정보 취득 변환 방법 및 기판 정보 취득 변환 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP4385119B2 (ja) | 2009-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9031935B2 (en) | Search system, search method, and program | |
JP2005085285A5 (ja) | ||
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
JP2009031931A (ja) | 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体 | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
JP2003271609A (ja) | 情報監視装置及び情報監視方法 | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN105574004B (zh) | 一种网页去重方法和设备 | |
JP4385119B2 (ja) | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 | |
JP4606349B2 (ja) | 話題画像抽出方法及び装置及びプログラム | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP4544047B2 (ja) | Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2007188427A (ja) | 話題画像選出方法及び装置及プログラム | |
JP2940488B2 (ja) | 文書グループ化装置および文書グループ化方法 | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 | |
JP5389764B2 (ja) | マイクロブログテキスト分類装置及び方法及びプログラム | |
JP2008269106A (ja) | スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体 | |
JP2010092108A (ja) | 類似文章抽出プログラム、方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060822 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060825 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090901 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4385119 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |