JP7493937B2 - 文書における見出しのシーケンスの識別方法、プログラム及びシステム - Google Patents
文書における見出しのシーケンスの識別方法、プログラム及びシステム Download PDFInfo
- Publication number
- JP7493937B2 JP7493937B2 JP2019237067A JP2019237067A JP7493937B2 JP 7493937 B2 JP7493937 B2 JP 7493937B2 JP 2019237067 A JP2019237067 A JP 2019237067A JP 2019237067 A JP2019237067 A JP 2019237067A JP 7493937 B2 JP7493937 B2 JP 7493937B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- list
- chain
- sequence
- chain fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 26
- 239000012634 fragment Substances 0.000 claims description 385
- 230000006870 function Effects 0.000 claims description 17
- 230000014509 gene expression Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
より高いランクのチェーンフラグメントにおけるより低いランクのチェーンフラグメントが挿入される点と、より低いランクのチェーンフラグメントの最初の見出し候補と、の段落番号の差と対応する近接性及び前記候補見出しのスタイルの特有性の値と対応する信頼度を含む所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを前記ランク又は前記分類に応じて結合してセクション見出しのシーケンスを生成する。
●4.1
●4.2.1
●4.3.1
●1.
●i.
●a)
● 特定のランクにおけるすべてのチェーンフラグメントを信頼度により降順でソートして、最も信頼度の高いチェーンフラグメントを最初に処理する。
● ソート済みリストのそれぞれのチェーンフラグメントについて以下を行う、
a.チェーンフラグメントが潜在的に入りうる、すべての親チェーンフラグメントのリストを生成する(potential_parents)。検索する各親チェーンフラグメントは現在のチェーンフラグメントのランクよりひとつ高いランクのものである。よって、ひとつ高いランクのチェーンフラグメントにあるそれぞれの親チェーンフラグメントについて、チェーンフラグメントが親チェーンフラグメントに潜在的に入りうる場合、当該親チェーンフラグメントとその前にくる親見出しの位置(parent_pos)がpotential_parentsのリストに追加される。つまり、当該親見出しは候補見出しとして、子チェーンフラグメントはこの後に挿入されることで合わせられうる。後述のFitsWithin()という機能を用いる。
b.potential_parentsに含まれるそれぞれのフラグメントについて、parent_posから子チェーンフラグメントの最初の候補見出しの位置までの距離を識別し、最大距離をmax_disとして記録する。
c.potential_parentsのうち、最高の親チェーンフラグメントを識別する。これは近接性とチェーンフラグメントの信頼度とを組み合わせて判断する。それぞれの親チェーンフラグメントにScoreFit()機能を適用して最も高い点数の親チェーンフラグメントを選択する。
d.チェーンフラグメントを最高の親チェーフラグメントと合わせる。具体的に、チェーンフラグメントのうちのそれぞれの候補見出しは最高の親チェーンフラグメントへ移動され、空白となったチェーンフラグメントは消去される。
● 親チェーンフラグメントにおけるそれぞれの見出しについて以下の行程を実行する。
a.もし存在する場合、現在の親見出しの後の、親チェーンフラグメントにおける次の見出しを識別し、これをnext_headingとして指定する。
b.子チェーンフラグメントについてplacement_fitを識別する。子チェーンフラグメントの最初の見出し位置が現在の親見出し位置parent_posよりも大きくかつ、1)next_headingが存在せず又は2)next_headingが存在し、子チェーンフラグメントの最後の見出し位置がnext_headingの位置よりも少ない場合、placement_fitは真である。
c.子チェーンフラグメントについてsequence_fitを識別する。子チェーンフラグメントの最初の見出し位置が現在の親見出しのシーケンス文字に続く場合に、sequence_fitは真である。例えば、2.3及び2.2.1は2.2に続き、ともにシーケンスに合うものとして適格であるが、2.2.2及び2.4は2.2に続くものではなく、シーケンスに合わず、不適格である。ある候補見出しが他の候補見出しに続くかについてのチェックは後述の機能Follows()で扱う。
d.現在の親見出しについてplacement_fit及びsequence_fitの両方が存在する場合、この親フラグメント及び、子チェーンフラグメントを挿入する位置の前の親見出し(parent_pos)を識別し、ループを離れる。
● 親フラグメントを識別した場合、親フラグメントが子チェーンフラグメントの最初の見出しのシーケンス文字と一致するシーケンス文字を含まないことを確認する。つまり、追加する予定の子チェーンフラグメントがすでに親チェーンフラグメントに存在しないことを確認する。すでに存在する場合又は適切な親見出しが検出されない場合、親フラグメントについて「NULL」と返し、parent_posについて「-1」を返す。その他の場合は親フラグメント及びparent_posに対して参照を返す。
● 子チェーンフラグメントから親チェーンフラグメントまでの距離に基づく距離の点数を計算する。例えば、dist_score=1.0-(子チェーンフラグメントの最初の見出しの位置とparent_posの差)/max_dist。
● 親チェーンフラグメントのすべての見出しについての信頼度の平均としてconfidence_scoreを計算する。
● dist_scoreとconfidence_scoreとの間の重み付平均を返す。final_scoreとして。例えば、final_score=0.75*dist_score+0.25*confidence_score。
● aとbと両方に対応する数字レベルの配列を形成する。配列の大きさは見出しのランクに等しく、配列のそれぞれの値はシーケンスにおけるそれぞれの文字に等しい数字である。ここにいくつかの異なるシーケンス見出しについての数字レベルの例をいくつか示す。
● bの数字レベル配列に含まれる各値について以下を繰り返す。
a.この値の位置を識別し、entry_numと称する。
b.found_an_incrementが真である場合、偽を返す。(根拠:インクリメントがすでに検出される場合、bの数字レベル配列に他に値が存在しないはずである。例えば:4.2.1.1は4.2に続かない。)
c.値の数字がaの数字レベル配列の大きさより小さい場合、次に、
i.entry_numのbの数字レベル配列がentry_numのaの数字レベル配列よりも小さい場合、偽を返す。(例:4.2.1は4.2.3に続かない、なぜなら1が3よりも小さいからである。)
ii.entry_numのbの数字レベル配列がentry_numに1を足したaの数字レベル配列と等しい場合、found_an_incrementは真に設定する。その他の場合は、entry_numのbの数字レベル配列がentry_numでのaの数字レベル配列に等しくない場合、偽を返す。(根拠:bの値がaの対応する値より1大きい場合、インクリメントが検出される。その他の場合は、現在の対応する値が等しい場合は数字レベル配列の次の値へと続くのみである。例:4.2.2は4.2.1に続く。)
d.その他、数値がaの数字レベル配列の大きさと等しい場合、次に、
i.entry_numでのbの数字レベル配列が1と等しい場合、found_an_incrementは真に設定する。(例:4.2.1は4.2に続く。)
● found_an_incrementを返す。
Claims (20)
- コンピュータープロセッサーによって、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを識別する方法であって、
所定のセクション見出しパターンと一致するEDの複数の文字から、前記所定のセクション見出しパターンに応じた一以上のシーケンス文字をそれぞれ有する複数の候補見出しからなるEDの候補見出しのリストを生成するステップと、
前記候補見出しのリストに基づいて、前記候補見出しのシーケンス文字において句読点によって区切られるシーケンス文字の数に対応するシーケンス文字のネストレベルに基づくランク及び前記シーケンス文字の文字種に基づく分類が同一の前記候補見出しからなるチェーンフラグメントを生成し、当該チェーンフラグメントをランクに応じてソートすることで、セクション見出しのシーケンスの一部を識別するためのチェーンフラグメントのリストを生成するステップと、
より高いランクのチェーンフラグメントにおけるより低いランクのチェーンフラグメントが挿入される点と、より低いランクのチェーンフラグメントの最初の見出し候補と、の段落番号の差と対応する近接性及び前記候補見出しのスタイルの特有性の値と対応する信頼度を含む所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを前記ランク又は前記分類に応じて結合してセクション見出しのシーケンスを生成するステップと、を含む文書における見出しのシーケンスの識別方法。 - EDの文字についての内容、レイアウト及びスタイルに関する情報を抽出することで、抽出された内容に基づいて符号化された、EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成するステップと、
ED内の文字の総数に対する、前記候補見出しのリストのそれぞれの候補見出しの特定の共通スタイルである文字の数である前記スタイル属性の特有性の値の割合に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断するステップと、を含む
請求項1に記載の文書における見出しのシーケンスの識別方法。 - 前記候補見出しのリストのそれぞれの候補見出しの信頼度の平均に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断するステップと、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを識別するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外するステップと、を含む
請求項2に記載の文書における見出しのシーケンスの識別方法。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項1から3のいずれか一項に記載の文書における見出しのシーケンスの識別方法。 - 前記チェーンフラグメントのリストを生成するステップは、
最初のシーケンス文字を始まりとする前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから最初のシーケンス文字を始まりとする前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項4に記載の文書における見出しのシーケンスの識別方法。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項4又は5に記載の文書における見出しのシーケンスの識別方法。 - 前記少なくとも二つのチェーンフラグメントを結合するステップは、
前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
前記より高いランクのチェーンフラグメントと前記より低いチェーンフラグメントとの間の近接性の値と前記より高いランクのチェーンフラグメントのすべての見出しの信頼度の平均の設定された重み付に基づく重み付平均に基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに結合する前記より高いランクのチェーンフラグメントを選択する、
請求項4から6のいずれか一項に記載の文書における見出しのシーケンスの識別方法。 - 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを識別するためのコンピュータープロセッサーに、
所定のセクション見出しパターンと一致するEDの複数の文字から、前記所定のセクション見出しパターンに応じた一以上のシーケンス文字をそれぞれ有する複数の候補見出しからなるEDの候補見出しのリストを生成する機能と、
前記候補見出しのリストに基づいて、前記候補見出しのシーケンス文字において句読点によって区切られるシーケンス文字の数に対応するシーケンス文字のネストレベルに基づくランク及び前記シーケンス文字の文字種に基づく分類が同一の前記候補見出しからなるチェーンフラグメントを生成し、当該チェーンフラグメントをランクに応じてソートすることで、セクション見出しのシーケンスの一部を識別するためのチェーンフラグメントのリストを生成する機能と、
より高いランクのチェーンフラグメントにおけるより低いランクのチェーンフラグメントが挿入される点と、より低いランクのチェーンフラグメントの最初の見出し候補と、の段落番号の差と対応する近接性及び前記候補見出しのスタイルの特有性の値と対応する信頼度を含む所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを前記ランク又は前記分類に応じて結合してセクション見出しのシーケンスを生成する機能と、を実行させるプログラム。 - EDの文字についての内容、レイアウト及びスタイルに関する情報を抽出することで、抽出された内容に基づいて符号化された、EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成する機能と、
ED内の文字の総数に対する、前記候補見出しのリストのそれぞれの候補見出しの特定の共通スタイルである文字の数である前記スタイル属性の特有性の値の割合に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する機能と、
を実行させる請求項8に記載のプログラム。 - 前記候補見出しのリストのそれぞれの候補見出しの信頼度の平均に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断する機能と、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを識別するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する機能と、
を実行させる請求項9に記載のプログラム。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項8から10のいずれか一項に記載のプログラム。 - 前記チェーンフラグメントのリストを生成する機能は、
最初のシーケンス文字を始まりとする前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから最初のシーケンス文字を始まりとする前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項11に記載のプログラム。 - 前記少なくとも二つのチェーンフラグメントを結合する機能は、
前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
前記より高いランクのチェーンフラグメントと前記より低いチェーンフラグメントと間の近接性の値と、前記より高いランクのチェーンフラグメントのすべての見出しの信頼度の平均の設定された重み付に基づく重み付平均に基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに結合する前記より高いランクのチェーンフラグメントを選択する、
請求項11又は12に記載のプログラム。 - 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを識別するシステムであって、
メモリーと、
メモリーと接続するコンピュータープロセッサーと、
を備え、
前記コンピュータープロセッサーは、
所定のセクション見出しパターンと一致するEDの複数の文字から、前記所定のセクション見出しパターンに応じた一以上のシーケンス文字をそれぞれ有する複数の候補見出しからなるEDの候補見出しのリストを生成し、
前記候補見出しのリストに基づいて、前記候補見出しのシーケンス文字において句読点によって区切られるシーケンス文字の数に対応するシーケンス文字のネストレベルに基づくランク及び前記シーケンス文字の文字種に基づく分類が同一の前記候補見出しからなるチェーンフラグメントを生成し、当該チェーンフラグメントをランクに応じてソートすることで、セクション見出しのシーケンスの一部を識別するためのチェーンフラグメントのリストを生成し、
より高いランクのチェーンフラグメントにおけるより低いランクのチェーンフラグメントが挿入される点と、より低いランクのチェーンフラグメントの最初の見出し候補と、の段落番号の差と対応する近接性及び前記候補見出しのスタイルの特有性の値と対応する信頼度を含む所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを前記ランク又は前記分類に応じて結合してセクション見出しのシーケンスを生成するシステム。 - 前記コンピュータープロセッサーは、
EDの文字についての内容、レイアウト及びスタイルに関する情報を抽出することで、抽出された内容に基づいて符号化された、EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
ED内の文字の総数に対する、前記候補見出しのリストのそれぞれの候補見出しの特定の共通スタイルである文字の数である前記スタイル属性の特有性の値の割合に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項14に記載のシステム。 - 前記コンピュータープロセッサーは、
前記候補見出しのリストのそれぞれの候補見出しの信頼度の平均に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを識別するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項15に記載のシステム。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項14から16のいずれか一項に記載のシステム。 - 前記チェーンフラグメントのリストを生成する機能は、
最初のシーケンス文字を始まりとする前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから最初のシーケンス文字を始まりとする前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項17に記載のシステム。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項17又は18に記載のシステム。 - 前記少なくとも二つのチェーンフラグメントを結合する機能は、
前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
前記より高いランクのチェーンフラグメントと前記より低いチェーンフラグメントとの間の近接性の値と前記より高いランクのチェーンフラグメントのすべての見出しの信頼度の平均の設定された重み付に基づく重み付平均に基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに結合する前記より高いランクのチェーンフラグメントを選択する、
請求項17から19のいずれか一項に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/370,724 | 2019-03-29 | ||
US16/370,724 US11468346B2 (en) | 2019-03-29 | 2019-03-29 | Identifying sequence headings in a document |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020173779A JP2020173779A (ja) | 2020-10-22 |
JP2020173779A5 JP2020173779A5 (ja) | 2022-06-27 |
JP7493937B2 true JP7493937B2 (ja) | 2024-06-03 |
Family
ID=72606019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019237067A Active JP7493937B2 (ja) | 2019-03-29 | 2019-12-26 | 文書における見出しのシーケンスの識別方法、プログラム及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11468346B2 (ja) |
JP (1) | JP7493937B2 (ja) |
CN (1) | CN111753534B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956731B1 (en) * | 2019-10-09 | 2021-03-23 | Adobe Inc. | Heading identification and classification for a digital document |
US10949604B1 (en) | 2019-10-25 | 2021-03-16 | Adobe Inc. | Identifying artifacts in digital documents |
CN112329548A (zh) * | 2020-10-16 | 2021-02-05 | 北京临近空间飞行器系统工程研究所 | 一种文档章节分割方法、装置及存储介质 |
CN113705210A (zh) * | 2021-08-06 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种文章大纲生成方法、装置和用于生成文章大纲的装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012160000A (ja) | 2011-01-31 | 2012-08-23 | Internatl Business Mach Corp <Ibm> | 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム |
JP2013206261A (ja) | 2012-03-29 | 2013-10-07 | Toshiba Corp | 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム |
JP2014075032A (ja) | 2012-10-04 | 2014-04-24 | Nippon Steel & Sumitomo Metal | 情報処理装置、タイトル抽出方法及びプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62256075A (ja) * | 1986-04-30 | 1987-11-07 | Hitachi Ltd | 辞書検索方式 |
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
MXPA04011507A (es) * | 2002-05-20 | 2005-09-30 | Tata Infotech Ltd | Identificador de estructura de documento. |
US8706475B2 (en) | 2005-01-10 | 2014-04-22 | Xerox Corporation | Method and apparatus for detecting a table of contents and reference determination |
US7743327B2 (en) * | 2006-02-23 | 2010-06-22 | Xerox Corporation | Table of contents extraction with improved robustness |
US7873950B2 (en) * | 2006-03-23 | 2011-01-18 | Oracle America, Inc. | Graph theory-based approach to XML data binding |
US7991709B2 (en) * | 2008-01-28 | 2011-08-02 | Xerox Corporation | Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers |
US7937338B2 (en) * | 2008-04-30 | 2011-05-03 | International Business Machines Corporation | System and method for identifying document structure and associated metainformation |
US8352857B2 (en) * | 2008-10-27 | 2013-01-08 | Xerox Corporation | Methods and apparatuses for intra-document reference identification and resolution |
US9135249B2 (en) * | 2009-05-29 | 2015-09-15 | Xerox Corporation | Number sequences detection systems and methods |
JP5663866B2 (ja) * | 2009-08-20 | 2015-02-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2011070558A (ja) * | 2009-09-28 | 2011-04-07 | Konica Minolta Business Technologies Inc | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
AU2012281166B2 (en) * | 2011-07-11 | 2017-08-24 | Paper Software LLC | System and method for processing document |
US9001390B1 (en) * | 2011-10-06 | 2015-04-07 | Uri Zernik | Device, system and method for identifying sections of documents |
US9058374B2 (en) | 2013-09-26 | 2015-06-16 | International Business Machines Corporation | Concept driven automatic section identification |
US20150169676A1 (en) | 2013-12-18 | 2015-06-18 | International Business Machines Corporation | Generating a Table of Contents for Unformatted Text |
TWI549003B (zh) * | 2014-08-18 | 2016-09-11 | 葆光資訊有限公司 | 自動切割章節方法 |
US9946924B2 (en) * | 2015-06-10 | 2018-04-17 | Accenture Global Services Limited | System and method for automating information abstraction process for documents |
US10108695B1 (en) * | 2015-08-03 | 2018-10-23 | Amazon Technologies, Inc. | Multi-level clustering for associating semantic classifiers with content regions |
CN105302778A (zh) * | 2015-10-23 | 2016-02-03 | 北京奇虎科技有限公司 | 文章章节生成方法、系统和电子书阅读器 |
US10565444B2 (en) * | 2017-09-07 | 2020-02-18 | International Business Machines Corporation | Using visual features to identify document sections |
US10726198B2 (en) * | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
US10691937B2 (en) * | 2018-07-30 | 2020-06-23 | Wipro Limited | Method and system for determining structural blocks of a document |
-
2019
- 2019-03-29 US US16/370,724 patent/US11468346B2/en active Active
- 2019-12-26 JP JP2019237067A patent/JP7493937B2/ja active Active
-
2020
- 2020-03-24 CN CN202010210764.9A patent/CN111753534B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012160000A (ja) | 2011-01-31 | 2012-08-23 | Internatl Business Mach Corp <Ibm> | 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム |
JP2013206261A (ja) | 2012-03-29 | 2013-10-07 | Toshiba Corp | 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム |
JP2014075032A (ja) | 2012-10-04 | 2014-04-24 | Nippon Steel & Sumitomo Metal | 情報処理装置、タイトル抽出方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111753534A (zh) | 2020-10-09 |
US11468346B2 (en) | 2022-10-11 |
JP2020173779A (ja) | 2020-10-22 |
US20200311571A1 (en) | 2020-10-01 |
CN111753534B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US11989512B2 (en) | Patent document creating device, method, computer program, computer-readable recording medium, server and system | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
US20150339288A1 (en) | Systems and Methods for Generating Summaries of Documents | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
US20150100308A1 (en) | Automated Formation of Specialized Dictionaries | |
JP5664174B2 (ja) | 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
US20130318124A1 (en) | Computer product, retrieving apparatus, and retrieval method | |
US11520835B2 (en) | Learning system, learning method, and program | |
EP4248301A1 (en) | Automatic document sketching | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
US9195706B1 (en) | Processing of document metadata for use as query suggestions | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
US11494555B2 (en) | Identifying section headings in a document | |
CN107908792B (zh) | 信息推送方法和装置 | |
US20200311059A1 (en) | Multi-layer word search option | |
US20230205910A1 (en) | Information processing device, confidentiality level determination program, and method | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
JP2008293070A (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2023003467A (ja) | 支援装置、支援システム、支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7493937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |