JP4385119B2 - 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 - Google Patents
共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 Download PDFInfo
- Publication number
- JP4385119B2 JP4385119B2 JP2003315129A JP2003315129A JP4385119B2 JP 4385119 B2 JP4385119 B2 JP 4385119B2 JP 2003315129 A JP2003315129 A JP 2003315129A JP 2003315129 A JP2003315129 A JP 2003315129A JP 4385119 B2 JP4385119 B2 JP 4385119B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- partial character
- character string
- information
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000003860 storage Methods 0.000 title description 8
- 238000000605 extraction Methods 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 108090000623 proteins and genes Proteins 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明の実施の形態1における共通パターン発見装置と、そのプログラム、またそれを記録したコンピュータ読み取り可能な記録媒体、さらにその共通パターン発見方法について説明する。実施の形態1の共通パターン発見装置と共通パターン発見方法、プログラム等は、情報間で、共通のパターンを示す定型部分を有する情報と、このような部分を有していない情報とを、情報に含まれる異なる部分文字列の数とその頻度とを利用して抽出するものである。複数の情報間の場合を説明するが、単数の情報内で繰り返しパターンを抽出することもできる。図1は定型部分を有していない情報の部分文字列が出現する頻度f、異なる部分文字列の数V(f)、部分文字列長さnの3次元説明図、図2は定型部分を有している情報の部分文字列が出現する頻度f、異なる部分文字列の数V(f)、部分文字列長さnの3次元説明図、図3は定型部分を有していない情報の異なる部分文字列の数V(f)と頻度fの2次元説明図、図4は定型部分を有している情報の異なる部分文字列の数V(f)と頻度fの2次元説明図、図5は定型部分を有していない情報の頻度fと部分文字列の総数F(f)の関係図、図6は定型部分を有している情報の頻度fと部分文字列の総数F(f)の関係図、図7(a)は本発明における実施の形態1における共通パターン発見装置の構成図、図7(b)は(a)の共通パターン発見装置のプログラム構成図、図8は取り出す部分文字列の採取パターンを示す説明図、図9は本発明の実施の形態1における共通パターン発見装置が行う処理のフローチャートである。
さて、実施例4の共通パターン発見装置と共通パターン発見方法は、このように記述された遺伝子の塩基配列データを解析対象とする。A,T,C,Gの4文字で記述された塩基配列データから、所定の文字数(n=1,・・)の部分文字列を抽出し、同一の部分文字列ごとに出現回数の和をとって頻度fをカウントするとともに、頻度fに対して異なる部分文字列の数V(f)をカウントする。次いで頻度fと異なる部分文字列の数V(f)の積F(f)をとり、頻度fとF(f)の関係からピンポイントのピークが出現するか否かを検討する。ピークがある場合、共通のパターンの情報を得るため、ピークの位置で頻度をカウントした部分文字列を識別可能に表示して該当する情報を抽出する。SNPsのように数塩基しか異ならない配列であれば、高精度で類似配列を抽出することができる。
2 記憶部
3 入力手段
4 表示手段
5 通信制御部
6 ネットワークサーバ部
11 部分文字列取り出し手段
12 頻度カウント手段
13 部分文字列種類数カウント手段
14 総数計算手段
15 ピーク発見手段
16 情報抽出手段
17 ノイズ情報除去手段
Claims (4)
- 電子化された複数又は単数のテキスト情報を対象としてこのテキスト情報の中から最大長さまでのすべての長さの部分文字列を抽出する部分文字列取り出し手段と、前記部分文字列取り出し手段が抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段と、同一頻度ごとに前記部分文字列取り出し手段が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段と、前記頻度カウント手段がカウントした頻度と前記部分文字列種類数カウント手段がカウントした異なる部分文字列の数との積を計算する総数計算手段と、前記総数計算手段によって計算された積と前記頻度との関係から、変化率が閾値以上のピークが出現する位置の頻度を探すピーク発見手段と、ピークが存在するとき該ピークの位置の頻度と同一頻度の部分文字列を含むテキスト情報を抽出する情報抽出手段とを備え、
前記テキスト情報に同一の部分文字列が存在する場合に、この部分文字列の頻度の大きさに比例して前記積の値の大きさを増し、頻度に関してピークを形成する分布にして、このピークの位置の頻度を有する部分文字列を基に前記複数又は単数のテキスト情報間で共通する配列をもつ文字列情報を発見することを特徴とする共通パターン発見装置。 - コンピュータを、電子化された複数又は単数のテキスト情報を対象としてこのテキスト情報の中から最大長さまでのすべての長さの部分文字列を抽出する部分文字列取り出し手段、前記部分文字列取り出し手段が抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段、同一頻度ごとに前記部分文字列取り出し手段が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段、前記頻度カウント手段がカウントした頻度と前記部分文字列種類数カウント手段がカウントした異なる部分文字列の数との積を計算する総数計算手段、前記総数計算手段によって計算された積と前記頻度との関係から、変化率が閾値以上のピークが出現する位置の頻度を探すピーク発見手段、ピークが存在するとき該ピークの位置の頻度と同一頻度の部分文字列を含むテキスト情報を抽出する情報抽出手段として機能させるためのプログラムであって、
前記テキスト情報に同一の部分文字列が存在する場合に、この部分文字列の頻度の大きさに比例して前記積の値の大きさを増し、頻度に関してピークを形成する分布にして、前記情報抽出手段によって抽出された該ピークの位置の頻度を有する部分文字列を基に前記複数又は単数のテキスト情報間で共通する配列をもつ文字列情報を発見することを特徴とするプログラム。 - 請求項2記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 電子化された複数又は単数のテキスト情報を対象としてこのテキスト情報の中から部分文字列取り出し手段によって最大長さまでのすべての長さの部分文字列を抽出し、頻度カウント手段によって同一の部分文字列ごとに出現回数の和をとって頻度とするとともに該頻度を有する異なる部分文字列の数を部分文字列種類数カウント手段によってカウントし、総数計算手段によって前記頻度と前記異なる部分文字列の数との積を計算し、更にピーク発見手段によって前記積と前記頻度との関係から変化率が閾値以上のピークが出現する位置の頻度を探し、ピークが存在するとき情報抽出手段によって該ピークの位置の頻度と同一頻度の部分文字列を含むテキスト情報を抽出する共通パターン発見方法であって、
前記テキスト情報に同一の部分文字列が存在する場合に、この部分文字列の頻度の大きさに比例して前記積の値の大きさを増し、頻度に関してピークを形成する分布にして、前記情報抽出手段によって抽出された該ピークの位置の頻度を有する部分文字列を基に前記複数又は単数のテキスト情報間で共通する配列をもつ文字列情報を発見することを特徴とする共通パターン発見方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003315129A JP4385119B2 (ja) | 2003-09-08 | 2003-09-08 | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003315129A JP4385119B2 (ja) | 2003-09-08 | 2003-09-08 | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084859A JP2005084859A (ja) | 2005-03-31 |
JP4385119B2 true JP4385119B2 (ja) | 2009-12-16 |
Family
ID=34415486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003315129A Expired - Lifetime JP4385119B2 (ja) | 2003-09-08 | 2003-09-08 | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4385119B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904663B2 (en) | 2013-01-30 | 2018-02-27 | International Business Machines Corporation | Information processing apparatus, information processing method, and information processing program |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5247009B2 (ja) * | 2006-06-16 | 2013-07-24 | 独立行政法人理化学研究所 | 配列抽出装置、配列抽出方法、プログラムおよび記録媒体 |
JP4980684B2 (ja) | 2006-09-29 | 2012-07-18 | 富士通株式会社 | 基板情報取得変換方法とそのプログラムおよび装置 |
-
2003
- 2003-09-08 JP JP2003315129A patent/JP4385119B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904663B2 (en) | 2013-01-30 | 2018-02-27 | International Business Machines Corporation | Information processing apparatus, information processing method, and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP2005084859A (ja) | 2005-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9031935B2 (en) | Search system, search method, and program | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
JP2006350656A (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN105574004B (zh) | 一种网页去重方法和设备 | |
JP4385119B2 (ja) | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP4606349B2 (ja) | 話題画像抽出方法及び装置及びプログラム | |
JP5206296B2 (ja) | 類似文章抽出プログラム、方法、装置 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
García-Mondeja et al. | Discovering Author Groups using a β-compact graph-based clustering. | |
JP5389764B2 (ja) | マイクロブログテキスト分類装置及び方法及びプログラム | |
JP2008269106A (ja) | スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体 | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
KR101448803B1 (ko) | 버로우즈-휠러 변환과 fm-인덱스를 이용한 초고속 유사구간 탐색 장치 및 방법 | |
JP4385697B2 (ja) | 概念検索方法およびシステム | |
JP2003099445A (ja) | 分類キーワード生成方法および分類キーワード生成プログラムと該プログラムを記録した記録媒体 | |
JP4173857B2 (ja) | 情報フィルタリング装置および情報フィルタリング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060822 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060825 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090901 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4385119 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |