JP2020173779A - 文書における見出しのシーケンスの識別 - Google Patents
文書における見出しのシーケンスの識別 Download PDFInfo
- Publication number
- JP2020173779A JP2020173779A JP2019237067A JP2019237067A JP2020173779A JP 2020173779 A JP2020173779 A JP 2020173779A JP 2019237067 A JP2019237067 A JP 2019237067A JP 2019237067 A JP2019237067 A JP 2019237067A JP 2020173779 A JP2020173779 A JP 2020173779A
- Authority
- JP
- Japan
- Prior art keywords
- list
- chain
- candidate
- headings
- heading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000012634 fragment Substances 0.000 claims abstract description 360
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 21
- 230000000694 effects Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
●4.1
●4.2.1
●4.3.1
●1.
●i.
●a)
● 特定のランクにおけるすべてのチェーンフラグメントを信頼度により降順でソートして、最も信頼度の高いチェーンフラグメントを最初に処理する。
● ソート済みリストのそれぞれのチェーンフラグメントについて以下を行う、
a.チェーンフラグメントが潜在的に入りうる、すべての親チェーンフラグメントのリストを生成する(potential_parents)。検索する各親チェーンフラグメントは現在のチェーンフラグメントのランクよりひとつ高いランクのものである。よって、ひとつ高いランクのチェーンフラグメントにあるそれぞれの親チェーンフラグメントについて、チェーンフラグメントが親チェーンフラグメントに潜在的に入りうる場合、当該親チェーンフラグメントとその前にくる親見出しの位置(parent_pos)がpotential_parentsのリストに追加される。つまり、当該親見出しは候補見出しとして、子チェーンフラグメントはこの後に挿入されることで合わせられうる。後述のFitsWithin()という機能を用いる。
b.potential_parentsに含まれるそれぞれのフラグメントについて、parent_posから子チェーンフラグメントの最初の候補見出しの位置までの距離を識別し、最大距離をmax_disとして記録する。
c.potential_parentsのうち、最高の親チェーンフラグメントを識別する。これは近接性とチェーンフラグメントの信頼度とを組み合わせて判断する。それぞれの親チェーンフラグメントにScoreFit()機能を適用して最も高い点数の親チェーンフラグメントを選択する。
d.チェーンフラグメントを最高の親チェーフラグメントと合わせる。具体的に、チェーンフラグメントのうちのそれぞれの候補見出しは最高の親チェーンフラグメントへ移動され、空白となったチェーンフラグメントは消去される。
● 親チェーンフラグメントにおけるそれぞれの見出しについて以下の行程を実行する。
a.もし存在する場合、現在の親見出しの後の、親チェーンフラグメントにおける次の見出しを識別し、これをnext_headingとして指定する。
b.子チェーンフラグメントについてplacement_fitを識別する。子チェーンフラグメントの最初の見出し位置が現在の親見出し位置parent_posよりも大きくかつ、1)next_headingが存在せず又は2)next_headingが存在し、子チェーンフラグメントの最後の見出し位置がnext_headingの位置よりも少ない場合、placement_fitは真である。
c.子チェーンフラグメントについてsequence_fitを識別する。子チェーンフラグメントの最初の見出し位置が現在の親見出しのシーケンス文字に続く場合に、sequence_fitは真である。例えば、2.3及び2.2.1は2.2に続き、ともにシーケンスに合うものとして適格であるが、2.2.2及び2.4は2.2に続くものではなく、シーケンスに合わず、不適格である。ある候補見出しが他の候補見出しに続くかについてのチェックは後述の機能Follows()で扱う。
d.現在の親見出しについてplacement_fit及びsequence_fitの両方が存在する場合、この親フラグメント及び、子チェーンフラグメントを挿入する位置の前の親見出し(parent_pos)を識別し、ループを離れる。
● 親フラグメントを識別した場合、親フラグメントが子チェーンフラグメントの最初の見出しのシーケンス文字と一致するシーケンス文字を含まないことを確認する。つまり、追加する予定の子チェーンフラグメントがすでに親チェーンフラグメントに存在しないことを確認する。すでに存在する場合又は適切な親見出しが検出されない場合、親フラグメントについて「NULL」と返し、parent_posについて「−1」を返す。その他の場合は親フラグメント及びparent_posに対して参照を返す。
● 子チェーンフラグメントから親チェーンフラグメントまでの距離に基づく距離の点数を計算する。例えば、dist_score=1.0−(子チェーンフラグメントの最初の見出しの位置とparent_posの差)/max_dist。
● 親チェーンフラグメントのすべての見出しについての信頼度の平均としてconfidence_scoreを計算する。
● dist_scoreとconfidence_scoreとの間の重み付平均を返す。final_scoreとして。例えば、final_score=0.75*dist_score+0.25*confidence_score。
● aとbと両方に対応する数字レベルの配列を形成する。配列の大きさは見出しのランクに等しく、配列のそれぞれの値はシーケンスにおけるそれぞれの文字に等しい数字である。ここにいくつかの異なるシーケンス見出しについての数字レベルの例をいくつか示す。
● bの数字レベル配列に含まれる各値について以下を繰り返す。
a.この値の位置を識別し、entry_numと称する。
b.found_an_incrementが真である場合、偽を返す。(根拠:インクリメントがすでに検出される場合、bの数字レベル配列に他に値が存在しないはずである。例えば:4.2.1.1は4.2に続かない。)
c.値の数字がaの数字レベル配列の大きさより小さい場合、次に、
i.entry_numのbの数字レベル配列がentry_numのaの数字レベル配列よりも小さい場合、偽を返す。(例:4.2.1は4.2.3に続かない、なぜなら1が3よりも小さいからである。)
ii.entry_numのbの数字レベル配列がentry_numに1を足したaの数字レベル配列と等しい場合、found_an_incrementは真に設定する。その他の場合は、entry_numのbの数字レベル配列がentry_numでのaの数字レベル配列に等しくない場合、偽を返す。(根拠:bの値がaの対応する値より1大きい場合、インクリメントが検出される。その他の場合は、現在の対応する値が等しい場合は数字レベル配列の次の値へと続くのみである。例:4.2.2は4.2.1に続く。)
d.その他、数値がaの数字レベル配列の大きさと等しい場合、次に、
i.entry_numでのbの数字レベル配列が1と等しい場合、found_an_incrementは真に設定する。(例:4.2.1は4.2に続く。)
● found_an_incrementを返す。
Claims (21)
- 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論する方法であって、
コンピュータープロセッサーによって、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
コンピュータープロセッサーによって、候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
コンピュータープロセッサーによって、所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。 - EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
スタイル属性の特有性の値に基づいて、候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項1に記載の方法。 - 候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、セクション見出しのシーケンスを推論するためにチェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項2に記載の方法。 - 前記複数の候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成するステップは、シーケンス文字のネストレベルに基づいて候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項1に記載の方法。 - 前記チェーンフラグメントのリストを生成するステップは、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項4に記載の方法。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項4に記載の方法。 - 前記少なくとも二つのチェーンフラグメントを合わせるステップは、
チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項4に記載の方法。 - 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するためのコンピューター読取可能なプログラムコードを記憶する非一時的なコンピューター読取可能な記憶媒体であって、前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、
所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。 - 前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、
EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
スタイル属性の特有性の値に基づいて、候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項8に記載のコンピューター読取可能な記憶媒体。 - 前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、
候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、セクション見出しのシーケンスを推論するためにチェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項9に記載のコンピューター読取可能な記憶媒体。 - 前記複数の候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項8に記載のコンピューター読取可能な記憶媒体。 - 前記チェーンフラグメントのリストを生成する機能は、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項11に記載のコンピューター読取可能な記憶媒体。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項11に記載のコンピューター読取可能な記憶媒体。 - 前記少なくとも二つのチェーンフラグメントを合わせる機能は、
チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項11に記載のコンピューター読取可能な記憶媒体。 - 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するシステムであって、前記システムは、
メモリーと、
メモリーと接続するコンピュータープロセッサーと、
を備え、
前記コンピュータープロセッサーは、以下の機能を実行する、
所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。 - 前記コンピュータープロセッサーは、
EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
スタイル属性の特有性の値に基づいて、候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項15に記載のシステム。 - 前記コンピュータープロセッサーは、
候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、セクション見出しのシーケンスを推論するためにチェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項16に記載のシステム。 - 前記複数の候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項15に記載のシステム。 - 前記チェーンフラグメントのリストを生成する機能は、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項18に記載のシステム。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項18に記載のシステム。 - 前記少なくとも二つのチェーンフラグメントを合わせる機能は、
チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項18に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/370,724 | 2019-03-29 | ||
US16/370,724 US11468346B2 (en) | 2019-03-29 | 2019-03-29 | Identifying sequence headings in a document |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020173779A true JP2020173779A (ja) | 2020-10-22 |
JP2020173779A5 JP2020173779A5 (ja) | 2022-06-27 |
JP7493937B2 JP7493937B2 (ja) | 2024-06-03 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
US20200311571A1 (en) | 2020-10-01 |
CN111753534B (zh) | 2024-01-26 |
CN111753534A (zh) | 2020-10-09 |
US11468346B2 (en) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
US10832001B2 (en) | Machine learning to identify opinions in documents | |
US9514216B2 (en) | Automatic classification of segmented portions of web pages | |
US20210209421A1 (en) | Method and apparatus for constructing quality evaluation model, device and storage medium | |
US20200104359A1 (en) | System and method for comparing plurality of documents | |
US9477756B1 (en) | Classifying structured documents | |
US20150100308A1 (en) | Automated Formation of Specialized Dictionaries | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
WO2022222300A1 (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
CN111753534B (zh) | 标识文档中的序列标题 | |
EP4248301A1 (en) | Automatic document sketching | |
US9195706B1 (en) | Processing of document metadata for use as query suggestions | |
CN113408660A (zh) | 图书聚类方法、装置、设备和存储介质 | |
US11886809B1 (en) | Identifying templates based on fonts | |
US20200311059A1 (en) | Multi-layer word search option | |
KR102560521B1 (ko) | 지식 그래프 생성 방법 및 장치 | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
CN111625579A (zh) | 一种信息处理方法、装置及系统 | |
US11868313B1 (en) | Apparatus and method for generating an article | |
US11868737B2 (en) | Method and server for processing text sequence for machine processing task | |
US20230205910A1 (en) | Information processing device, confidentiality level determination program, and method | |
CN113656393B (zh) | 数据处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240215 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240522 |