JP7189125B2 - 電子記録のタグ付けのためのシステム及び方法 - Google Patents

電子記録のタグ付けのためのシステム及び方法 Download PDF

Info

Publication number
JP7189125B2
JP7189125B2 JP2019507786A JP2019507786A JP7189125B2 JP 7189125 B2 JP7189125 B2 JP 7189125B2 JP 2019507786 A JP2019507786 A JP 2019507786A JP 2019507786 A JP2019507786 A JP 2019507786A JP 7189125 B2 JP7189125 B2 JP 7189125B2
Authority
JP
Japan
Prior art keywords
classification
template
electronic record
unit
proximity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019507786A
Other languages
English (en)
Other versions
JP2019530063A (ja
Inventor
モスクウィンスキー,マイケル
フィールディング,アレックス
ホール,ケビン,クリストファー
レンボ,キンバリー
Original Assignee
リップコード インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by リップコード インコーポレイテッド filed Critical リップコード インコーポレイテッド
Publication of JP2019530063A publication Critical patent/JP2019530063A/ja
Application granted granted Critical
Publication of JP7189125B2 publication Critical patent/JP7189125B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Burglar Alarm Systems (AREA)

Description

関連出願の相互参照
[0001] 本出願は、2016年8月9日付けで出願された米国仮特許出願第62/372,556号の利益を主張するものであり、この出願は、引用により、そのすべてが本明細書に包含される。
発明の背景
[0002] 情報は、多くの場合に、物理的な文書ファイル上において保存することができる。但し、このような物理的保存システムは、不定の持続時間にわたる極めて大容量の空間の利用可能性を必要としうる。例えば、物理的文書ファイルは、記録保管所、倉庫、図書館、及び/又は貯蔵所内において、離れた状態で、梱包される場合がある。また、物理的文書は、一旦保存されたら、文書の損傷、破壊、又は劣化(例えば、自然な劣化)を防止するなどのために、定期的な保守を必要としうる。更には、物理的文書ファイル上において保存されている情報のアクセスには、費用及び時間を所要しうる。物理的文書は、発見及び搬送が困難でありうるのみならず、物理的文書が識別された後の、物理的ファイルからの情報の抽出にも、時間を所要しうる。
[0003] 代替肢として、物理的文書からの情報は、電子媒体に転送することができると共に、メモリ内において保存することができる。いくつかの例においては、情報は、電子的に生成及び保存することができる。この結果、保存の際の保存空間及び保守に対するニーズを除去することができる。情報は、このような電子記録から電子的にサーチすることができる。例えば、ユーザーによって提供されるサーチクエリに応答してサーチ結果を検索することができる。
発明の概要
[0004] 電子記録として保存されている場合にも、ソート対象であるその他の電子ファイルが無数に存在している際には、特定の情報及び/又は文書を検出及び隔離するのが困難となりうる。例えば、最大で数千万件以上の記録を保持しうる大規模な記録管理システムの場合には、記録を分類法のコンポーネントに対して手作業でマッピングするなどの、従来の分類方法は、非常に非効率的なものとなりうる。本明細書においては、効率的且つ正確な分類及び電子記録のタグ付け、並びに、その後のその正確な検索のためのシステム及び方法に対するニーズが認識されている。
[0005] 電子記録の特定のエリア又は領域から抽出及び分析された情報を使用することにより、記録管理システム内において記録を分類及びタグ付けするためのシステム及び方法が提供されている。いくつかの例においては、電子記録を分類及びタグ付けすることができる。いくつかの例においては、電子記録内の特定のエリア又は領域を分類及びタグ付けすることができる。記録分類法の1つ又は複数の要素により、記録及び/又はエリア又は領域を分類及びタグ付けすることができる。このような分類及びタグ付けは、自然言語に少なくとも部分的に基づいたものであってもよく、且つ、これと互換性を有することができる。このような分類及びタグ付けは、ユーザー活動及び/又は記録活動に少なくとも部分的に基づいたものであってもよく、且つ、これと互換性を有することができる。有益には、本明細書において提供されているシステム及び方法を使用して分類及びタグ付けされた記録は、その後に、例えば、サーチキーワードよりも大きな文脈的関連性を提供しうるユーザー活動及び/又は記録活動に基づいて検索することができる。本明細書におけるシステム及び方法は、教師なしの且つ自動化されたタグ付けのための記録管理システムのトレーニングを許容することができる。
[0006] 一態様においては、電子記録を分類するコンピュータ実装された方法が提供されており、方法は、1つ又は複数のコンピュータプロセッサの支援により、分類テンプレートのライブラリにアクセスすることであって、分類テンプレートのライブラリのそれぞれの分類テンプレートは、1つ又は複数のタグ及び1つ又は複数の分類ユニットを有しており、分類ユニットは、(i)電子記録のエリア又は領域及び(ii)分類方法を有する、ことと、電子記録を分類テンプレートのライブラリの第1の分類テンプレートとマッチングさせることと、電子記録用の第1の分類テンプレートのテンプレート近接性スコアを判定することであって、テンプレート近接性スコアは、電子記録内のエリア又は領域内において配設されたコンテンツに適用された分類方法に少なくとも部分的に基づいている、ことと、テンプレート近接性スコアに少なくとも部分的に基づいて、第1の分類テンプレートの1つ又は複数のタグを電子記録に割り当てるステップと、を有する。
[0007] いくつかの実施形態においては、方法は、分類テンプレートのライブラリの第2の分類テンプレートについて上述の内容を反復することを更に有することができる。
[0008] いくつかの実施形態においては、テンプレート近接性スコアが既定の閾値スコア超である場合に、第1の分類テンプレートの1つ又は複数のタグが電子記録に割り当てられている。
[0009] いくつかの実施形態においては、少なくとも2つの分類テンプレートが同一の分類ユニットを共有している。
[0010] いくつかの実施形態においては、方法は、第1の分類テンプレート内においてそれぞれの分類ユニットごとにユニット近接性スコアを判定することを更に有することが可能であり、ユニット近接性スコアは、電子記録内の分類ユニットのエリア又は領域内において配設されたコンテンツに適用された分類ユニットの分類方法に少なくとも部分的に基づいており、且つ、テンプレート近接性スコアは、それぞれの分類ユニットごとに判定されたユニット近接性スコアの集合体である。
[0011] いくつかの実施形態においては、分類方法は、(i)正規表現のパターン、(ii)品詞のパターン、及び(iii)1つ又は複数の分類アルゴリズムからなる群の少なくとも1つの構成要素である。
[0012] いくつかの実施形態においては、ユニット近接性スコアは、2値である。
[0013] いくつかの実施形態においては、方法は、ユーザーから、第1のタグを電子記録に割り当てるための命令を受け取ることと、第1のタグを電子記録に割り当てることと、1つ又は複数のデータベース内において、第1のタグとして分類するためのトレーニング教材として電子記録のコンテンツを保存することと、トレーニング教材から、第1のタグとしての電子記録の分類方法を学習することと、を更に有することができる。
[0014] いくつかの実施形態においては、分類テンプレートのライブラリは、グラフデータベースからアクセスされており、グラフデータベースは、分類テンプレートのライブラリと、分類ユニットのライブラリと、を有する。
[0015] いくつかの実施形態においては、電子記録を分類テンプレートのライブラリの第1の分類テンプレートとマッチングさせることは、第1の分類テンプレートのそれぞれの分類ユニットごとに、分類方法を電子記録のエリア又は領域内において配設されたコンテンツに適用することを有する。
[0016] 別の態様においては、電子記録を分類するコンピュータシステムが提供されており、システムは、1つ又は複数のプロセッサと、電子記録を分類する方法を実装するべく、個々に又は集合的に、1つ又は複数のプロセッサによって実行可能である命令を含む、1つ又は複数のプロセッサに通信自在に結合されたメモリと、を有し、方法は、ユーザーから、コンピュータネットワーク上において、分類テンプレートの定義を受け取ることであって、分類テンプレートは、1つ又は複数のタグ及び1つ又は複数の分類ユニットによって定義されており、分類ユニットは、少なくとも(i)電子記録のエリア又は領域及び(ii)分類方法によって定義されている、ことと、電子記録を分類テンプレートとマッチングさせることと、電子記録用の分類テンプレートのテンプレート近接性スコアを判定することであって、テンプレート近接性スコアは、電子記録のエリア又は領域内において配設されたコンテンツに適用された分類方法に少なくとも部分的に基づいている、ことと、テンプレート近接性スコアに少なくとも部分的に基づいて分類テンプレートの1つ又は複数のタグを電子記録に割り当てることと、を有する。
[0017] いくつかの実施形態においては、方法は、分類テンプレート内のそれぞれの分類ユニットごとに、ユニット近接性スコアを判定することを反復することを更に有し、ユニット近接性スコアは、電子記録内の分類ユニットのエリア又は領域内において配設されたコンテンツに適用された分類ユニットの分類方法に少なくとも部分的に基づいており、且つ、テンプレート近接性スコアは、それぞれの分類ユニットごとに判定されたユニット近接性スコアの集合体である。
[0018] いくつかの実施形態においては、テンプレート近接性スコアが既定の閾値スコア超である場合に、第1の分類テンプレートの1つ又は複数のタグが電子記録に割り当てられている。
[0019] いくつかの実施形態においては、分類ユニットは、ページインデックス及び寸法を更に有する。
[0020] いくつかの実施形態においては、方法は、グラフィカルユーザーインターフェイス上において電子記録の1つ又は複数のページを表示することを更に有する。
[0021] いくつかの実施形態においては、定義は、グラフィカルユーザーインターフェイスから受け取られている。
[0022] いくつかの実施形態においては、電子記録のエリア又は領域の定義は、グラフィカルユーザーインターフェイス上の電子記録の1つ又は複数のページ上において表示されている。
[0023] いくつかの実施形態においては、分類方法は、(i)正規表現のパターン、(ii)品詞のパターン、及び(iii)1つ又は複数の分類アルゴリズムからなる群の少なくとも1つの構成要素である。
[0024] いくつかの実施形態においては、方法は、ユーザーから、第1のタグを電子記録に割り当てるための命令を受け取ることと、第1のタグを電子記録に割り当てることと、1つ又は複数のデータベース内において、第1のタグとして分類するためのトレーニング教材として電子記録のコンテンツを保存することと、トレーニング教材から、第1のタグとしての電子記録の分類方法を学習することと、を更に有する。
[0025] いくつかの実施形態においては、分類テンプレートのライブラリは、グラフデータベースからアクセスされており、グラフデータベースは、分類テンプレートのライブラリと、分類ユニットのライブラリと、を有する。
[0026] 本開示の更なる態様及び利点については、本開示の例示用の実施形態のみが図示及び記述されている以下の詳細な説明から、当業者に容易に明らかとなろう。理解されるように、本開示は、その他の且つ異なる実施形態を有する能力を有しており、且つ、本開示を逸脱することなしに、様々な明白な観点において、そのいくつかの詳細事項を変更することができる。従って、図面及び説明は、その特性が、限定ではなく、例示を目的としているものと見なされたい。
引用による包含
[0027] 本明細書において言及されているすべての出版物、特許、及び特許出願は、それぞれの個々の出版物、特許、又は特許出願が引用によって包含されることが具体的に且つ個別に示されているのと同程度に、引用により、本明細書に包含される。引用によって包含された出版物及び特許又は特許出願が本明細書において含まれている開示と矛盾している場合には、本明細書が、すべてのそのような矛盾する記述に取って代わる及び/又はそれらよりも優先するものと解釈されたい。
図面の簡単な説明
[0028] 本発明の新規の特徴については、添付の請求項において詳細事項を伴って記述されている。本発明の特徴及び利点の更に十分な理解は、本発明の原理が利用されている例示用の実施形態について記述する以下の詳細な説明を参照することにより、得られることになるが、添付図面(本明細書においては、「図(Figure)」及び「図(FIG.)とも表現されている」)は、以下のとおりである。
[0029]記録管理システム内において記録を分類及びタグ付けする方法の概略フローチャートを示す。 [0030]電子記録内のエリア又は領域の一例を示す。 [0031]品詞のタグの例を示す。 [0032]分類テンプレートライブラリ及び分類ユニットライブラリ用のグラフデータベースの一例を示す。 [0033]個々の分類ユニットからのユニット近接性スコアを微細チューニングするためのフィードバックループを示す。 [0034]本開示の方法を実装するようにプログラミングされるコンピュータ制御システムを示す。
本発明の詳細な説明
[0035] 本明細書には、本発明の様々な実施形態が図示及び記述されているが、当業者には、このような実施形態は、例として提供されているに過ぎないことが明らかとなろう。本発明を逸脱することなしに、当業者は、多数の変形、変更、及び置換を想起することができる。本明細書において記述されている本発明の実施形態の様々な代替肢が利用されうることを理解されたい。
[0036] 政府機関とプライベート及びパブリックエンティティの両方により、膨大な量の情報を物理的文書上において保存することができる。このような文書は、巨大な記録保管所、倉庫、図書館、及び/又は貯蔵所内において保管することができる。但し、物理的文書は、手作業による発見、アクセス、サーチ、及び/又は操作が困難でありうる。更には、このような物理的文書からの情報の発見、アクセス、サーチ、及び/又は抽出も、困難でありうる。手作業による方法は、費用を所要し、非効率的であり、信頼性が低く、及び/又はプライバシーの懸念を有する可能性がある。例えば、大量の文書の人間による取扱いは、低速となる場合があり、エラーが発生しやすい場合があり、文書内の化学物質に対する曝露及び留め具に対する曝露に起因して人間の健康を損なう場合があり、文書を損なう場合があり、及び/又は機密情報を含む文書が関係している際にはセキュリティ漏洩を起こす場合がある。特定の文書の発見及び/又はそのような文書の搬送は、骨が折れると共に費用を所要する場合がある。また、物理的文書上における情報の保存は、物理的文書が失われた際などに、失われやすい場合があり、損なわれる場合があり、さもなければ、実質的に劣化する場合があり(例えば、インキの薄れ、シートの完全性の弱化など)、破壊される場合があり、及び/又は誤ったラベルが付与される場合がある。少なくとも本明細書において記述されている理由に起因し、物理的文書上において保存されている情報の抽出は、困難であり、これにより、保存されている膨大な量の情報に対するアクセスが妨げられる又は妨害される場合がある。
[0037] 物理的文書上において保存されている情報をデジタル情報に変換することにより、情報をデジタルサーチを通じて容易にアクセス可能なものにすることができる。例えば、物理的文書は、カメラ又はその他の撮像装置又は光学センサなどにより、デジタル的にスキャンすることが可能であり、或いは、その他の方法で撮像することができる。いくつかの例においては、自動化された又は半自動化されたシステム及び方法を介して、大量の(例えば、数百万個の)物理的文書を電子記録に変換することができる。このような自動化された又は半自動化されたシステム及び方法は、物理的文書の電子記録への変換において、さもなければ手作業で実行される、1つ又は複数のプロセス(例えば、組織化されていない文書スタックをソートする、文書スタックからシートを隔離する、1つ又は複数のシートに付着した留め具を取り外す、文書を装置に供給する、文書をスキャンする、文書を方向付けする、スキャンされた文書を処分するなど)を自動化するなどにより、大量の物理的文書を効率的に且つ高度な均一性を伴って処理するように、構成することができる。本明細書において記述されているシステム及び方法は、電子記録への物理的文書の変換、後続の分類、及び電子記録のタグ付けを伴う自動化されたエンドツーエンドプロセスの一部分でありうる。
[0038] いくつかの例においては、デジタル化された情報は、テキスト認識(例えば、光学文字認識(OCR:Optical Character Recognition))を経験するなどのように、更に処理することができる。デジタル化された情報は、安全な場所におけるオンサイトの又は遠隔地のサーバー内において保存することが可能であり、及び/又は要求に応じて容易に且つ確実に複製することができる。情報のデジタル化により、信頼性を改善することが可能であり、費用を低減することが可能であり、及び/又は機密情報の曝露を回避することができる。但し、デジタル情報は、物理的文書上において保存されている情報よりも容易にサーチすることができると共に、デジタル化の後にターゲット宛先に容易に送信することができる一方で、電子記録である場合にも、ソートするべき無数のその他の電子記録が存在している際には、特定の情報及び/又は文書を発見及び隔離することが困難でありうる。
[0039] 電子記録管理システム又はさもなければ電子文書管理システム内における分類及びタグ付けを促進するシステム及び方法が提供されている。本明細書において記述されているシステム及び方法は、物理ファイルから変換された(例えば、デジタル的にスキャニングされた、或いは、その他の方法で撮像された)電子記録及び電子ファイルとして生成及び保存された電子記録の両方に対して適用可能である。本明細書において記述されているシステム及び方法は、任意の電子記録又は電子文書に対して適用可能である。
[0040] 電子記録の特定のエリア又は領域から抽出及び分析された情報を使用することにより、記録管理システム内において記録を分類及びタグ付けするためのシステム及び方法が提供されている。いくつかの例においては、電子記録を分類及びタグ付けすることができる。いくつかの例においては、電子記録内の特定のエリア又は領域を分類及びタグ付けすることができる。記録及び/又はエリア又は領域は、記録分類法の1つ又は複数の要素によって分類及びタグ付けすることができる。このような分類及びタグ付けは、自然言語に少なくとも部分的に基づいたものであってもよく、且つ、これと互換性を有することができる。このような分類及びタグ付けは、ユーザー活動及び/又は記録活動に少なくとも部分的に基づいたものであってもよく、且つ、これと互換性を有することができる。有益には、本明細書において提供されているシステム及び方法を使用して分類及びタグ付けされた記録は、その後に、例えば、サーチキーワードよりも大きな文脈的関連性を提供しうるユーザー活動及び/又は記録活動に基づいて取得することができる。本明細書におけるシステム及び方法は、教師なしの且つ自動化されたタグ付けのための記録管理システムのトレーニングを許容することができる。
[0041] 図1は、記録管理システム内において記録を分類及びタグ付けするための方法の概略フローチャートを示している。
[0042] 記録管理システム内において電子記録を分類及びタグ付けする方法は、一般に、分類テンプレートを定義する動作110と、定義された分類テンプレートに照らして電子記録をマッチングさせる動作120と、マッチングに基づいて電子記録をタグ付けする動作130と、を有することができる。以下、これらの動作について詳細に説明することとする。
[0043] 記録管理システムは、複数の電子記録を有することができる。本明細書において記述されている記録管理システムは、任意の数の電子記録を有することができる。例えば、記録管理は、少なくとも1つ、10個、100個、10個、10個、10個、10個、10個、10個、10個、1012個、1015個、又はこれらを上回る数の電子記録を有することができる。電子記録は、例えば、テキスト及び/又は画像などの、情報を含む任意のデジタル記録でありうる。電子記録は、電子文書又は電子文書からの抜粋(例えば、単語、フレーズ、文章、段落、節、章、ページ、その他のセグメントなど)でありうる。電子記録は、物理的文書の、或いは、物理的文書からの抜粋の、デジタル画像でありうる。電子記録は、オフライン及び/又はオンラインで(例えば、インターネット上において)電子的に入手可能である、投稿、リスト、コメント、注記、パンフレット、ガイド、マニュアル、写真、絵、画像、グラフィック、グラフ、表、チャート、ブログ、ウェブサイト、記事、任意のテキスト、及び/又は画像、任意のその他の情報、及び/又はこれらの組合せでありうる。
[0044] 分類テンプレートは、ユーザーによって生成及び/又は定義することができる。ユーザーは、記録管理システムのユーザーであってもよく、或いは、そうでなくてもよい。例えば、ユーザーは、記録管理システムの操作者であってもよく、管理者であってもよく、或いは、アドミニストレータであってもよい。ユーザーは、記録管理システムの顧客であってもよい。ユーザーは、記録管理システムに対する文書及び/又は記録の提供者であってもよい。ユーザーは、記録管理システムに対する文書及び/又は記録の生成者であってもよい。ユーザーは、個人であってもよい。ユーザーは、エンティティであってもよい。ユーザーは、複数の個人であってもよい。ユーザーは、複数のエンティティであってもよい。いくつかの例においては、記録管理システムは、一意の識別子(例えば、ユーザー名、ユーザーアカウント、ユーザーIDなど)により、ユーザーを識別することができる。
[0045] いくつかの例においては、分類テンプレートは、分類テンプレートライブラリ内において保存することができる。分類テンプレートライブラリは、1つ又は複数のデータベース内などのように、コンピュータシステム(例えば、サーバー)のメモリ内において保存することができる。分類テンプレートライブラリは、更に後述するように、グラフデータベース内において保存することができる。例えば、ユーザーによって生成された任意の分類テンプレートは、システム(例えば、記録管理システム)によって使用されるように、分類テンプレートライブラリ内において保存及び保管することができる。分類テンプレートは、1つ又は複数のタグ111に対応することが可能であり、且つ、1つ又は複数の分類ユニット112によって定義することができる。
[0046] タグは、電子記録を記述するべく使用されるラベルでありうる。タグは、共通主題を有する異なる電子記録をグループ化するべく使用されるラベルでありうる。タグは、テキストストリングでありうる。タグは、数値でありうる。タグは、キーワード及び/又はフレーズでありうる。タグは、名称でありうる。タグは、レーティングでありうる。タグは、カテゴリ、グループ、トピック、及び/又はタイプでありうる。タグは、注記でありうる。タグは、構造化されていない分類法の1つ又は複数のコンポーネントでありうる。タグは、標準化された情報でありうる。タグは、電子記録又はファイル用の任意のメタデータフィールドでありうる。タグは、電子記録に割り当てられる際などに、電子記録用のメタデータフィールドとして保存することができる。いくつかの例においては、タグは、2値(例えば、はい/いいえ、○/×、0/1など)でありうる。タグは、電子記録に割り当て可能でありうる及び/又はこれから除去可能でありうる。タグは、電子記録をインデックス付けするべく使用されてもよい。タグは、記録のグループを識別するべく使用されてもよい。タグは、電子記録を分類するべく使用されてもよい。タグは、電子記録をサーチ及びフィルタリングするべく使用されてもよい。タグは、変更されてもよく、修正されてもよく、及び/又はその他の方法で更新されてもよい。いくつかの例においては、タグは、1つ又は複数の電子記録に割り当てられている間に、変更されてもよく、修正されてもよく、及び/又はその他の方式で更新されてもよい。
[0047] 分類テンプレートは、1つ又は複数のタグ111に対応することができる。いくつかの例においては、分類テンプレートは、1つのタグにのみ対応することができる。いくつかの例においては、分類テンプレートは、少なくとも、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、或いは、これ以上のタグに対応することができる。いくつかの例においては、分類テンプレートは、最大で100個、50個、45個、40個、35個、30個、25個、20個、15個、10個、9つ、8つ、7つ、6つ、5つ、4つ、3つ、2つ、或いは、1つのタグに対応することができる。いくつかの例においては、それぞれのタグに対応する少なくとも1つの分類テンプレートが存在しうる。複数の分類テンプレートが同一のタグ及び/又は同一のタグのグループに対応することができる。例として、第1の分類テンプレートは、「スポーツ」、「健康なライフスタイル」、及び「食品」というタグに対応することが可能であり、第2の分類テンプレートは、「竹」というタグに対応することが可能であり、且つ、第3の分類テンプレートは、「木」、「竹」、「オリーブ」、及び「食品」というタグに対応することができる。別の例においては、特定の供給者又は商人の電子記録には、電子記録のタイプを識別するタグ(例えば、請求書)、顧客を識別するタグ(例えば、顧客名)、コンテンツを識別するタグ(例えば、販売された製品)、記録生成の時刻を識別するタグ(例えば、年、月、日、時刻など)、及びその他のタグ、というタグを割り当てることができる。
[0048] 分類テンプレートは、1つ又は複数の分類ユニット112によって定義することができる。分類ユニットは、電子記録内のエリア又は領域113、ページインデックス114、寸法115、及び分類方法116によって定義することができる。分類ユニットは、ユーザーにより、生成及び/又は定義することができる。ユーザーは、記録管理システムのユーザーであってもよく、或いは、そうでなくてもよい。いくつかの例においては、分類ユニットは、分類ユニットライブラリ内において保存することができる。分類ユニットライブラリは、1つ又は複数のデータベース内などのように、コンピュータシステム(例えば、サーバー)のメモリ内において保存することができる。分類ユニットライブラリは、更に後述するように、グラフデータベース内において保存することができる。同一のデータベースが分類ユニットライブラリ及び分類テンプレートライブラリを保存していてもよい。例えば、ユーザーによって生成された任意の分類ユニットは、システム(例えば、記録管理システム)によって使用されるように、分類ユニットライブラリ内において保存及び保管することができる。同一の分類ユニットが異なる分類テンプレートを定義することができる。
[0049] いくつかの例においては、分類テンプレートは、1つの分類ユニットのみによって定義することができる。いくつかの例においては、分類テンプレートは、少なくとも、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、或いは、これ以上の分類ユニットにより、定義することができる。いくつかの例においては、分類テンプレートは、最大で、100個、50個、45個、40個、35個、30個、25個、20個、15個、10個、9つ、8つ、7つ、6つ、5つ、4つ、3つ、2つ、或いは、1つの分類ユニットによって定義することができる。
[0050] エリア又は領域113は、電子記録の任意のページ又はその他のサブユニット(例えば、章、節、段落、文など)上に位置しうる。電子記録内のエリア又は領域は、任意の形状を有することができる。例えば、エリア又は領域は、矩形又は円形であってもよい。エリア又は領域は、多角形であってもよく、或いは、任意のその他の自由な形状を有することができる。いくつかの例においては、ユーザーは、電子記録のページ上においてエリア又は領域を定義するべく、予め提供された形状(例えば、矩形、平行四辺形、円形、台形、六角形など)を選択することができる。いくつかの例においては、ユーザーは、形状のための座標、寸法、及び/又は計測値を提供することができる。いくつかの例においては、座標、寸法、及び/又は計測値は、基準点又は寸法との関係におけるものであってもよい(例えば、コーナー、エッジ、エッジの中間点、ページ又はサブユニットの中心、幅、長さ、斜辺、直径、半径、境界線、対角線、面積、幅の百分率、長さの百分率、斜辺の百分率、直径の百分率、半径の百分率、境界線の百分率、対角線の百分率、面積の百分率など)。いくつかの例においては、エリア又は領域は、ライン番号(例えば、ライン5~17)又はページのその他の単位(例えば、列2~4、行3~5など)との関係において定義することができる。いくつかの例においては、エリア又は領域は、ページの全体であってもよい。いくつかの例においては、エリア又は領域は、複数のページにわたって跨ることができる。いくつかの例においては、エリア又は領域は、1ページ未満であってもよい。
[0051] いくつかの例においては、ユーザーは、カスタム形状を描画することができる。いくつかの例においては、ユーザーは、ページ又はその他のサブユニット上のエリア又は領域の形状のアウトラインを事前観察するなどにより、エリア又は領域が定義される電子記録のページ又はその他のサブユニットを表示するグラフィカルユーザーインターフェイス上において、エリア又は領域を定義することができる。グラフィカルユーザーインターフェイスは、電子記録の1つのページ、複数のページ、又はその他のサブユニットをユーザーに表示することができる。グラフィカルユーザーインターフェイス上において、ユーザーは、予め定義された形状をドラッグ及びドロップすること、形状を描画するべくクリック及びドラッグすること、及び/又は、利用可能なその他のユーザーのやり取りの方法(例えば、クリック、タッチ、タップ、ドラッグ、ホールド、ドロップ、スワイプ、ダブルクリック、トリプルクリック、スクロール、エクスパンド、ピンチなど)などにより、エリア又は領域を選択することができる及び/又は手作業で描画することができる。いくつかの例においては、グラフィカルユーザーインターフェイスは、利用可能なアクション(例えば、形状テンプレートの選択、形状の描画、編集の開始、編集の終了など)のツールボックス、ツールバー、サイドバー、メニュー、選択肢、又はこれらに類似したものをユーザーに表示することができる。
[0052] いくつかの例においては、ユーザーは、ウェブに基づいたインターフェイス上において分類テンプレート及び/又は分類ユニットを定義することができる。ユーザーは、電子ファイル(例えば、PDFファイル、docファイル、jpegファイルなど)をシステムにアップロードすることができる。ユーザーは、エリア又は領域を定義するべく、上述のものなどの、ツールを使用して形状を描画することができる、及び/又はその他の定義を追加することができる。エリア又は領域が定義されたら、ユーザーは、分類方法を定義するなどにより、継続して分類ユニットを定義してもよく、或いは、形状が画面上において描画されたら、ユーザーは、分類の方法又は既定の閾値スコアなどの、分類ユニットのその他のプロパティを定義することができるが、これらについては、後述することとする。
[0053] 図2は、電子記録内のエリア又は領域の一例を示している。電子記録のページ202は、第1の矩形の領域又はエリアを有する第1の分類ユニット204及び第2の矩形の領域又はエリアを有する第2の分類ユニット206という2つの分類ユニットを有することができる。
[0054] ページインデックス114は、エリア又は領域113を含む電子記録のページのインデックスであってもよい。いくつかの例においては、ページインデックスは、英数字であってもよい。いくつかの例においては、ページインデックスは、電子記録のページ番号であってもよい。いくつかの例においては、ページインデックスは、ページの順序であってもよい(例えば、電子記録の5番目のページは、ページ番号が11である場合にも、5というページインデックスを有することができる)。分類テンプレートは、異なるページ上においてエリア又は領域を定義する分類ユニットを有することができる。例えば、3つの分類ユニットを有する分類テンプレートは、電子記録の(例えば、3というページインデックスを有する)3番目のページ上において2つの異なるエリア又は領域を定義する第1の及び第2の分類ユニット、並びに、(例えば、17というページインテックスを有する)17番目のページ上において異なるエリア又は領域を定義する第3の分類を有することができる。更に後述するように、電子記録が分類テンプレートに照らしてマッチングされる際には、電子記録の同一のページ上に位置しているのか又は異なるページ上に位置しているのかについて、分類テンプレート内の分類ユニットによって定義されているそれぞれのエリア又は領域を分析することができる。
[0055] 寸法115は、上述したように、エリア又は領域113の寸法であってもよい。寸法は、任意の単位(例えば、インチ、フィート、センチメートル、メートル、センチメートル、ミリメートル、1/4インチなど)を有することができる。
[0056] 分類ユニットは、分類方法116によって定義することができる。分類方法は、正規表現のパターンを利用することができる。分類方法は、品詞によってタグ付けされたテキストのパターンを利用することができる。分類方法は、1つ又は複数のその他の分類アルゴリズム(例えば、ラベル付与アルゴリズム、情報抽出アルゴリズム、縮小型の正規表現、単純ベイズ、最大エントロピー、ブーストツリー、ランダムフォレストなど)を利用することができる。分類方法は、上述のものの組合せを利用することができる。分類方法は、自然言語処理(NLP:natual language processing)分類方法及び/又はアルゴリズムを使用することができる。有益には、複数の分類ユニットを有する分類テンプレートが異なる分類方法を使用して電子記録を分類することができる。
[0057] 分類テンプレートが、更に後述するように、電子記録に照らしてマッチングされる際には120、分類方法を分類テンプレートの分類ユニットのエリア又は領域に適用することにより、分類ユニットのユニット近接性スコアを判定することができる121。いくつかの例においては、ユニット近接性スコアは、そのユニットの最小閾値スコアに少なくとも部分的に基づいたものであってもよい。最小閾値スコアは、ユーザー定義することができる及び/又は事前プログラミングすることができる。分類テンプレートのテンプレート近接性スコアを判定するべく、分類テンプレートのユニット近接性スコアを組み合わせることができる122。電子記録に照らしてマッチングされた分類テンプレートについて判定されたテンプレート近接性スコアにより、その分類テンプレートに対応する1つ又は複数のタグが、電子記録に割り当てられているかどうかを判定することができる。
[0058] 分類方法は、正規表現のパターンを利用することができる。正規表現のパターン(例えば、regexやregexpなど)は、サーチパターンを記述する特別なテキストストリングであってもよい。正規表現は、特定量のテキストを記述するパターンであってもよい。例として、「\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,}\b」というパターンは、電子メールアドレスを記述することができる。このパターンは、テキスト内の電子メールアドレス又は電子メールアドレスに似たストリングを見出するために、テキスト(例えば、ストリング、文字ストリング)を通じてサーチするべく利用することができる。正規表現のパターンを利用する分類方法が分類ユニットに適用される際には、正規表現のパターンのストリングについて、分類ユニットの規定されたエリア又は領域内において位置決めされている又はその他の方法で配設されているテキストをサーチすることができる。いくつかの例においては、正規表現のパターンを利用する分類方法に基づいたスコアリングは、少なくとも1つのマッチが存在している(1つ又は複数の電子メールアドレスが見出される)際に、1というスコアが判定されるように、且つ、マッチが存在していない(例えば、電子メールアドレスが見出されない)際には、0のスコアが判定されるように、2値(例えば、0又は1)であってもよい。或いは、この代わりに、又はこれに加えて、正規表現のパターンを利用する分類方法に基づいたスコアリングは、マッチの頻度、百分率又は分数において最大数値から外れている(例えば、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、1000などから外れている)スコア、又は任意のその他のスコアリングシステムなどの、非2値スケールに基づいたものであってもよい。例えば、ユニット近接性スコアは、相対的に小さな頻度(例えば、2つの電子メールアドレス)を有する正規表現のパターンを有するストリングを含む分類ユニットの場合よりも、相対的に大きな頻度(例えば、7つの電子メールアドレス)を有する正規表現のパターンを有するストリングを含む分類ユニットの場合に、相対的に大きなものとなりうる。
[0059] 分類方法は、品詞のパターンを利用することができる。品詞のパターンは、発話の一部分(例えば、普通名詞、複数形の普通名詞、固有名詞、法助動詞、原形動詞、形容詞、比較級形容詞など)及び固定されたキーワードによってタグ付けされたテキストを有することができる。例として、「looking/VBG, for/IN, [NN], … , in/IN, [NN], …」というパターンは、VBG(動詞動名詞)、IN(前置詞又は従属接続詞)、及びNN(普通名詞)というタグを有することができる。図3には、その他の品詞のタグの例が示されている。品詞のタグは、図3に示されているものに限定されるものではない。品詞のパターンを利用する分類方法が分類ユニットに適用される際には、固定されたキーワードについて、分類ユニットの規定されたエリア又は領域内において位置決めされている又はその他の方法で配設されているテキストをサーチすることが可能であり、且つ、マッチングしたテキストを品詞のタグによってタグ付けすることができる。
[0060] 一例として、品詞によってタグ付けされたパターンは、「form/NN [CD]」であってもよい。この例においては、修飾された名詞「form」と、これに後続する任意の数「[CD]」と、が存在している。品詞によってタグ付けされたパターンの別の更に複雑な例は、「[NN] [VBG] tax/NN records/NNS」である。このケースにおいては、第1のトークンは、修飾されていない名詞「[NN]」と、これに後続する修飾されていない動詞「[VBG]」及び2つの修飾されている名詞「tax/NN」及び「records/NNS」と、である。ユーザーは、パターンの重みの合計が1になるように、パターン内のそれぞれのトークンごとに重みを定義することができる。トークン重みは、分類ユニットの最小閾値スコアと比較されうるパターン近接性スコアを判定するべく、特定のパターンをスコアリングする方式を判定することができる。ユニット近接性スコアは、パターン近接性スコアに少なくとも部分的に基づいたものであってもよい。以前の例を継続すれば、重み定義を有する同一のパターンは、「[NN-0.2] [VBG-0.1] tax/NN-0.4 records/NNS-0.3」であってもよく、この場合に、[NN]という修飾されていない名詞は、0.2という重みを有し、[VBG]という修飾されていない動詞は、0.1という重みを有し、「tax/NN」という修飾されている名詞は、0.4という重みを有し、且つ、「records/NNS」という修飾されている名詞は、0.3という重みを有する。ユーザーは、0.8などの、パターンに準拠するものとしてのテキストの受入れのための最小閾値を更に定義することもできる。1という相対的に厳格な最小閾値は、テキストが正確に品詞のパターンに準拠していることを必要としうる。いくつかの例においては、0という最小閾値は、分類方法が、品詞によってタグ付けされたパターンに対する準拠とは無関係に、任意のパターンのテキストを受け入れることを許容することができる。ユーザーは、任意の最小閾値を定義することができる。
[0061] 品詞のパターンを利用した分類は、システムが(例えば、分類ユニットの規定されたエリア又は領域内において位置決めされた又はその他の方法で配設されたテキストから)抽出されたテキストを品詞のタグによって自動的にタグ付けすることにより、開始することができる。タグ付けの後に、テキストをキーワード及び品詞のタグを含むトークンにトークン化することができる。例えば、「information containing tax records」というテキストは、タグ付けすることが可能であり、且つ、「information/NN, containing/VBG, tax/NN, records/NNS」にトークン化することができる。テキストがタグ付け及びトークン化されたら、システムは、まず、分類ユニット内において定義されているパターンがテキスト内において存在しているかどうかを判定することにより、テキストをスコアリングすることができる。テキストを個々のトークンと比較することができる。1つ又は複数の個々のトークンがマッチングした場合には、パターン近接性スコアを判定するべく、パターン内の個々のトークンと関連する重みを集計することができる。すべてのトークンが処理されたら、パターン近接性スコアを最小閾値と比較することができる。いくつかの例においては、パターン近接性スコアが最小閾値以上である場合には、分類ユニットは、1というユニット近接性スコアを受け取ることが可能であり、さもなければ、0というユニット近接性スコアを受け取ることができる。いくつかの例においては、ユニット近接性スコアは、非2値であってもよい。例えば、ユニット近接性スコアは、パターン近接性スコアに少なくとも部分的に基づいたものであってもよい。
[0062] 分類方法は、単純ベイズ、最大エントロピー、ブーストツリー、ランダムフォレストクラシファイアなどの、その他の分類アルゴリズムを利用することができる。分離アルゴリズムは、ラベル付与アルゴリズム、情報抽出アルゴリズム、その他のパターン(例えば、縮小型の正規表現など)、NLPアルゴリズム、及び/又はその他のアルゴリズムであってもよい。1つの又は複数の分類アルゴリズムを利用した分類方法が適用される際には、分類ユニットの規定のエリア又は領域内において位置決めされた又はその他の方法で配設されたテキストをアルゴリズムに従って分類及びスコアリングすることができる。いくつかの例においては、スコアリングは、2値(例えば、0又は1)であってもよい。或いは、この代わりに、又はこれに加えて、スコアリングは、マッチの頻度、百分率又は分数において最大数値から外れている(例えば、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、1000などから外れている)スコア、或いは、任意のその他のスコアリングシステムなどの、非2値スケールに基づいたものであってもよい。いくつかの例においては、ユーザーは、テンプレート近接性スコアを判定するべく使用されうるユニット近接性スコアの既定の閾値を定義することができる。既定の閾値は、最小及び/又は最大スコアであってもよい。
[0063] 図1を再度参照すれば、ユニット近接性スコアが、電子記録用の分類テンプレート内のそれぞれの分類ユニットごとに判定されたら121、個々のユニット近接性スコアから、分類テンプレートのテンプレート近接性スコアを判定することができる。テンプレート近接性スコアは、個々のユニット近接性スコアの集計スコアであってもよい。テンプレート近接性スコアを判定するべく、以下の集計スコア方法を使用することができる。システムは、例えば、以下のような、従来型のベクトルコサイン類似性アルゴリズムを利用してもよく、
Figure 0007189125000001

この場合に、ユニット近接性スコアは、2値であり、テンプレート処理の際に、最小閾値スコアを充足しているそれぞれの分類ユニットのスコアを1を有する分類ベクトルとして加算することが可能であり、且つ、最小閾値スコアを充足していないそれぞれの分類ユニットのスコアは、0を有することができる。それぞれの分類ユニットごとに、分類ベクトルを1を有する制御ベクトルに照らして比較することができる。上述のベクトルコサインアルゴリズムは、テンプレート近接性スコアを判定するべく、2つのベクトルの間の類似性を算出することができる。或いは、この代わりに、又はこれに加えて、テンプレート近接性スコアを判定するべく、その他の方法を利用することもできる。
[0064] 分類ユニットと分類テンプレートの間の関係は、更に後述するように、近接性関係を介して互いに接続されたノードとして、分類テンプレート及び分類ユニットを有するグラフに基づいたデータ構造内において保存することができる。いくつかの例においては、分類ユニットと分類テンプレートの間の近接性関係を調節するフィードバックプロセス(例えば、フィードバックループ)に起因して、テンプレート近接性スコアを判定する集計スコア式から、分類テンプレート内の小さな近接性スコアを有する範囲外の分類ユニットを除外することができる。
[0065] テンプレート近接性スコアは、電子記録と分類テンプレートに対応する1つ又は複数のタグの間の近接性を通知することができる。電子記録は、テンプレート近接性スコアに少なくとも部分的に基づいて、分類テンプレートに対応する1つ又は複数のタグによってタグ付けすることができる130。例えば、分類テンプレートのテンプレート近接性スコアは、既定の閾値スコアと比較されてもよく、この場合に、テンプレート近接性スコアが既定の閾値スコア(例えば、0.95など)以上である場合にのみ、電子記録は、分類テンプレートに対応する1つ又は複数のタグによってタグ付けされ、且つ、さもなければ、タグ付けされない。いくつかの例においては、ユーザーは、記録管理システム用の既定の閾値スコアを定義することができる。いくつかの例においては、既定の閾値スコア(例えば、0.8、50、70、85、50%、70%、85%など)は、システム用の既定の閾値スコアであってもよい。いくつかの例においては、ユーザー定義された既定の閾値スコアは、既定の閾値スコアをオーバーライドすることができる。
[0066] 分類のプロセスにおいては、電子記録を複数の分類テンプレートに照らしてマッチングさせることができる。いくつかの例においては、電子記録を記録管理システムの分類テンプレートライブラリ内のすべての分類テンプレートに照らしてマッチングさせることができる。有益には、分類及びタグ付けされる前に、システム内のすべてのタグに対する近接性について、電子記録を評価することができる。いくつかの例においては、記録管理システム内のすべての電子記録を分類テンプレートライブラリ内のそれぞれの分類テンプレートに照らしてマッチングさせることができる。いくつかの例においては、電子記録に複数の分類テンプレートに対応するタグが割り当てられている場合には、システムは、その後に、電子記録を同一のタグに対応する分類テンプレートとマッチングさせることをスキップしてもよく、或いは、さもなければ、これを控えてもよい。有益には、この結果、システムの処理容量を節約することができると共に分類時間を短縮することができる。
[0067] いくつかの例においては、分類ユニットを複数のエリア又は領域によって定義することができる。例えば、分類ユニット用の分類方法を分類ユニットのすべてのエリア又は領域に適用することができる。
[0068] 上述のように、分類テンプレートは、分類テンプレートライブラリ内において保存することができる。例えば、ユーザーによって生成された任意の分類テンプレートは、システム(例えば、記録管理システム)によって使用されるように、分類テンプレートライブラリ内において保存及び保管することができる。いくつかの例においては、分類テンプレートライブラリは、ユーザー(例えば、記録管理システムの顧客)に固有のものであってもよい。このようなケースにおいては、ユーザーによって生成された分類テンプレートは、保存されてもよく、且つ、ユーザー及び/又はユーザーの電子記録に対してのみ提供されてもよい。或いは、この代わりに、又はこれに加えて、すべての分類テンプレートは、記録管理システムのすべてのユーザーにとって利用可能な状態にあってもよい。有利には、この結果、同一のタグについて異なる電子記録を分類する際に、システムは、同一の標準(例えば、分類テンプレート内において定義されているもの)をそれぞれの電子記録に適用することができる。更には、ユーザーは、分類方法及び/又は分類方法の適用に関する詳細をそれぞれのタグごとに重複して再定義する必要がない。
[0069] 上述のように、分類ユニットは、分類ユニットライブラリ内において保存することができる。例えば、ユーザーによって生成された任意の分類ユニットは、システム(例えば、記録管理システム)によって使用されるように、分類ユニットライブラリ内において保存及び保管することができる。同一の分類ユニットが異なる分類テンプレートを定義することができる。いくつかの例においては、分類ユニットライブラリは、ユーザー(例えば、記録管理システムの顧客)に固有のものであってもよい。このようなケースにおいては、ユーザーによって生成された分類ユニットは、保存されてもよく、且つ、そのユーザー、そのユーザーの分類テンプレート、及び/又はそのユーザーの電子記録にのみ、提供されてもよい。或いは、この代わりに、又はこれに加えて、すべての分類ユニットが、記録管理システムのすべてのユーザーにとって利用可能な状態にあってもよい。有利には、ユーザーは、それぞれの分類テンプレートごとに、分類方法及び/又は分類方法の適用に関する詳細を重複して再定義する必要がない。
[0070] いくつかの例においては、分類ユニットライブラリ及び/又は分類テンプレートライブラリは、グラフデータベース内において保存することができる。図4は、分類テンプレートライブラリ及び分類ユニットライブラリ用のグラフデータベースの一例を示している。グラフデータベース400は、分類テンプレート(例えば、第1のタグ用の第1のテンプレート402、第2のタグ用の第2のテンプレート404など)、分類ユニット(例えば、第1のユニット406、第2のユニット408、第3のユニット410、第4のユニット412など)、及び分類テンプレートと分類ユニット間の近接性関係(例えば、近接性関係414、416、418、420、422など)を保存することができる。ここで記述されている近接性関係と上述の近接性スコアは、区別されている(例えば、ユニット近接性スコアは、分類ユニットと電子記録の間の近接性を通知しており、テンプレート近接性スコアは、分類テンプレートと電子記録の間の近接性を通知している)。
[0071] 図4においては、第1のテンプレート402は、第1のユニット406との間における第1の近接性関係414、第2のユニット408との間における第3の近接性関係418、及び第3のユニット410との間における第4の近接性関係420を有する。第2のテンプレート404は、第1のユニット406との間における第2の近接性関係416及び第4のユニット412との間における第5の近接性関係422を有する。この例においては、第1の分類ユニット406は、第1の分類テンプレート402及び第2の分類テンプレート404の両方に含まれている。
[0072] いくつかの例においては、グラフデータベース400は、記録管理システムのユーザーに固有のものであってもよい。或いは、この代わりに、グラフデータベース400は、記録管理システムのすべてのユーザーに適用可能なものであってもよい。
[0073] 分類テンプレートと分類ユニットの間の近接性関係(例えば、近接性関係414、416、418、420、422など)は、少なくとも2つの目的に資することができる。分類テンプレートと分類ユニットの間の近接性関係は、分類ユニットと分類テンプレートの間の関連性レベルを定義することができる。いくつかの例においては、分類テンプレートと分類ユニットの間の近接性関係は、近接性関係スコアなどのように、定量化することが可能であり、且つ、電子記録がユニットによって分類されたものとして受け入れられるために必要とされる閾値スコアに照らして比較することができる。いくつかの例においては、分類テンプレートと分類ユニット間の近接性関係は、個々のユニット近接性スコアを集計するテンプレート近接性スコア式に展開することができる。例えば、ユニット近接性スコアは、ユニット近接性スコアの分類ユニットと分類テンプレートの間の相対的な近接性関係により、重み付けすることができる。
[0074] いくつかの例においては、グラフデータベース400は、タグ(図4には示されていない)、タグと分類テンプレートの間の近接性関係(図4には示されていない)、及び/又はタグと分類ユニットの間の近接性関係(図4には示されていない)を更に保存することができる。
[0075] 分類テンプレートとタグの間の近接性関係は、少なくとも2つの目的に資することができる。分類テンプレートとタグの間の近接性関係は、タグと分類テンプレートの間の関連性レベルを定義することができる。分類テンプレートとタグの間の近接性関係は、分類テンプレートが1つ又は複数の正しいタグに対応しているかどうかを判定することができる。いくつかの例においては、タグと分類テンプレートの間の近接性関係は、分類テンプレートのテンプレート近接性スコアに基づいてタグによってタグ付けするための既定の閾値スコアに展開することができる。例えば、第1の分類テンプレートが、2つの対応するタグを有し、且つ、第1の分類テンプレートが、第2のタグよりも第1のタグに相対的に近接している場合には、第1の分類テンプレートのテンプレート近接性スコアに基づいて第1のタグによってタグ付けするための既定の閾値スコアは、第1の分類テンプレートのテンプレート近接性スコアに基づいて第2のタグによってタグ付けするための既定の閾値スコアよりも小さくなりうる。
[0076] 分類ユニットとタグの間の近接性関係は、少なくとも2つの目的に資することができる。分類ユニットとタグの間の近接性関係は、タグと分類ユニットの間の関連性レベルを定義することができる。分類ユニットとタグの間の近接性関係は、分類ユニットが1つ又は複数の正しいタグに対応しているかどうかを判定することができる。いくつかの例においては、タグと分類ユニットの間の近接性関係は、分類ユニットを有する分類テンプレートのテンプレート近接性スコアに基づいてタグによってタグ付けするためのユニット近接性スコアに展開することができる。例えば、第1の分類テンプレートが2つの分類ユニットを有し、且つ、第1の分類ユニットが、第2の分類ユニットよりも第1の分類テンプレートの第1のタグに相対的に近接している場合には、第1の分類ユニットのユニット近接性スコアは、第1のタグのテンプレート近接性スコアを判定する際に、第2の分類ユニットよりも大きくなるように、重み付けすることができる。
[0077] 有益には、グラフデータベースは、分類テンプレート、分類ユニット、及びタグのそれぞれの間における近接性関係をマッピングすることができると共に、上述の方法(例えば、近接性スコア式の調節)などを介して、それぞれの分類サイクルに伴ってタグ付けの精度を柔軟に改善するべく、このような近接性関係を使用することができる。
[0078] 分類テンプレートは、反復的な使用及び/又は分類などに伴い、時間に伴って変化しうる。例えば、分類テンプレートのテンプレート近接性スコアは、電子記録が分類テンプレートの1つ又は複数のタグによって分類されるのに伴い、時間に伴って自動的に微細チューニングすることができる。図5は、分類ユニットの最小閾値スコアを微細チューニングするためのフィードバックループを示している。
[0079] フィードバックループ500は、分類アルゴリズムを利用する分類ユニットに適用可能でありうる。フィードバックループは、分類ユニットの最小閾値スコアを微細チューニングすることができる。いくつかの例においては、分類ユニットの最小閾値スコアは、ユーザーが「調節可能である」とスコアを定義している場合にのみ、調節することができる。ユーザーは、許容された調節の境界を更に定義することができる。例えば、ユーザーは、0.90及び0.95という値の間のスコアについて、最小閾値スコアの自動的な調節を許容することができる。分類ユニット用のフィードバックループは、分類ユニットの過去の時系列のスコアに基づいたものであってもよい。ユーザーは、時系列の持続時間を定義することができる。持続時間は、エントリ(例えば、1000個のエントリ)又は時間(例えば、2か月)という単位を有することができる。ユーザーは、調節の頻度を定義することができる。例えば、月ごとに、許容される調節の最大値は、上方又は下方に0.001であってもよい。すべての自動的調節は、時系列データに対して実行される線形回帰に依存しうる。例えば、スコアが以前のランと比較される場合には、且つ、値が相対的に大きい場合には、最小閾値スコアを上方に調節することができる。同様に、スコアが以前のランよりも小さい場合には、最小閾値スコアを下方に調節することができる。
[0080] 図5においては、分類が始まった後に502、分類ユニットをスコアリングすることができる(例えば、ユニット近接性スコアやパターン近接性スコアなど)504。スコアを最小閾値スコアと比較することができる508。スコアが最小閾値スコア未満である場合には、フィードバックループは、なんらの調節をも伴うことなしに、終了することができる510。スコアが最小閾値スコア超である場合には、システムは、例えば、ユーザーによって許容されているかどうかなどのように、分類ユニットがスコア調節のために構成されているかどうかを確認することができる512。分類ユニットが、スコア調節のために構成されてはいない場合には、フィードバックループは、なんらの調節をも伴うことなしに、終了することができる514。分類ユニットが、スコア調節のために構成されている場合には、システムは、スコアが、定義された(例えば、ユーザーにより、予めプログラミングされた)最小及び最大調節境界内にあるかどうかを確認することができる516。フィードバックループは、スコアが、最小及び最大調節境界外である場合には、なんらの調節をも伴うことなしに、終了することができる518。スコアが、定義された最小及び最大調節境界内である場合には、スコアを予め定義された期間にわたるスコアを含む時系列データと比較することができる522。スコアが以前のランよりも大きい場合には、調節モジュール520などによる時系列データの線形回帰によって判定される量だけ、最小閾値スコアを上方に調節することができる。スコアが以前のランを下回っている場合には、最小閾値スコアを下方に調節することができる。これにより、分類ユニットの最小閾値スコアを再定義することができる506。
[0081] フィードバックループ調節により、システムは、自身を自身が分類するコンテンツに対して採用することができる。例えば、第1の分類テンプレート内の第1の分類ユニットのスコアが、通常、第1の分類テンプレート内のその他の分類ユニットよりも小さく、及び/又は、第1の分類テンプレートと同一のタグに対応するその他の分類テンプレート内のその他の分類ユニットよりも小さい場合には、テンプレート近接性スコアを判定する際に、分類ユニットの重みを下方に調節することができる。図4のグラフデータベースを再度参照すれば、このような定常的な相対的に小さなスコアは、第1の分類ユニットと第1の分類テンプレートの間の近接性関係が、その他の分類ユニットと第1の分類テンプレートの間の近接性関係との関係において、相対的に離れていることを通知しうる。このような定常的な相対的に小さなスコアは、第1の分類ユニットと第1の分類テンプレートの第1のタグの間の近接性関係が、その他の分類ユニットと第1のタグの間の近接性関係との関係において、相対的に離れていることを通知しうる。
[0082] ユーザーは、例えば、分類テンプレートを電子記録に適用することを伴うことなしに、記録管理システム内において電子記録に手作業でタグ付けすることがきる。システムは、システムのユーザーが電子記録に手作業でタグ付けする際を監視することができる。このようなデータの手作業によるタグ付けは、システムをトレーニングするべく、使用することができる。有益には、手作業によるタグ付けの際には、分類のためのユーザーの意図が直接的に提供されることから、タグの手作業によるタグ付けのそれぞれの例は、システムがそのタグについて分類されるコンテンツを識別するための学習機会として取り扱うことができる。手作業によるタグ付けの例は、トレーニングデータとして保存することができる。本明細書において記述されているトレーニングデータ及び分類モデルは、時間に伴って変化することが可能であり、且つ、反復的な分類の繰り返しに伴って、その精度が増大しうる。
[0083] 例として、システムは、以下のメタデータによって電子記録にタグ付けすることができる。
(1){tag: “LEGAL FILES”, score: “0.9”, method: “A”}
(2){tag: “LEGAL FILES”, score: “1”, method: “M”}
例(1)においては、電子記録は、自動的な(「A」)方法により、即ち、0.9未満であった既定の閾値スコアに合格した「0.9」というテンプレート近接性スコアを有する「LEGAL FILES」というタグに対応する分類テンプレートを適用することにより、「LEGAL FILES」というタグによってタグ付けされている。例(2)においては、電子記録は、手作業による(「M」)方法により、即ち、分類テンプレートを適用することなしに、但し、「1」という近接性スコアによって手作業によってタグ付けすることにより、「LEGAL FILES」というタグによってタグ付けされている。いくつかの例においては、すべての手作業によってタグ付けされた記録は、「1」という近接性スコアを受け取ることができる。或いは、この代わりに、スコアリング方式が1以外の最大値を有する場合には、手作業によってタグ付けされた記録は、最大値の近接性を受け取ることができる。また、有益には、この結果、手作業によるタグ付け方法に照らして、自動化されたタグ付け方法を正規化することもできる。
[0084] いくつかの例においては、任意の手作業によってタグ付けされた電子記録のコンテンツは、トレーニング教材として保存することができる。いくつかの例においては、「0.95」以上のテンプレート近接性スコアを有する任意の自動的にタグ付けされた電子記録のコンテンツをトレーニング教材として保存することができる。或いは、この代わりに、約0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、0.96、0.97、0.98、0.99、又はこれ以上のテンプレート近接性スコアを有する任意の自動的にタグ付けされた電子記録のコンテンツをトレーニング教材として保存することができる。或いは、この代わりに、約0.5未満のテンプレート近接性スコアを有する任意の自動的にタグ付けされた電子記録のコンテンツをトレーニング教材として保存することができる。理解されるように、トレーニング教材として保存される閾値スコアは、従って、異なる最大スコア値(例えば、1以外)により、スケーリングすることができる。
[0085] いくつかの例においては、正規表現を利用した、及び/又は、品詞のタグを利用した、分類方法が、分類に使用される場合には、システムは、定義されたパターンを取り囲むエリア内においてパターンとの関連において頻繁に存在している用語及び用語の組合せを分析及び判定することができる。このデータは、トレーニング教材として保存することができる。
[0086] いくつかの例においては、トレーニング教材は、失効しうる。例えば、トレーニング教材は、システムによる最初の取得の後の、約1時間、2時間、3時間、4時間、5時間、6時間、12時間、24時間、1日、2日、3日、4日、5日、6日、7日、1週間、2週間、3週間、4週間、1か月、2か月、3か月、4か月、5か月、6か月、1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、10年(decade)、20年、30年、40年、50年、又はこれ以上の後に、失効しうる。有益には、記録管理システムは、特定の分類方式及び/又は標準が時間に伴って変化又は変形しうることに鑑み、正確である可能性が高い現時点の情報によってのみ、トレーニングすることができる(例えば、トマトは、第1の時点においては、果物として分類することが可能であり、且つ、第2の時点においては、野菜として分類することが可能であり、政治家は、第1の時点においては、環境問題の支持者として分類することが可能であり、且つ、第2の時点においては、教育問題の支持者として分類することが可能であり、事業は、第1の時点においては、非営利公益事業として分類することが可能であり、且つ、第2の時点においては、営利事業として分類することができる、など)。
コンピュータ制御システム
[0087] 本開示は、本開示の方法を実装するようにプログラミングされたコンピュータ制御システムを提供している。図6は、その他の動作に加えて、電子記録を分類及びタグ付けし、分類テンプレートを定義し及び/又はその定義を受け取り、分類ユニットを定義し及び/又はその定義を受け取り、分類式を演算し、ユニット近接性スコアを判定し、テンプレート近接性スコアを判定し、既定の閾値スコアを比較し、グラフデータベースを生成し、ナビゲートし、及び/又は拡張し、タグ、分類テンプレート、及び分類ユニットの間の近接性関係を判定し、トレーニング教材、分類の機械学習、及びタグ付けの機械学習を判定し、且つ、記録管理システムを動作させるように、プログラミングされた又はその他の方法で構成されたコンピュータシステム601を示している。コンピュータシステム601は、ユーザーの電子装置であってもよく、或いは、電子装置との関係において離れたところに配置されたコンピュータシステムであってもよい。電子装置は、モバイル電子装置であってもよい。
[0088] コンピュータシステム601は、中央処理ユニット(CPU:central processing unit、或いは、本明細書においては、「プロセッサ」及び「コンピュータプロセッサ」)605を含み、中央処理ユニットは、シングルコア又はマルチコアプロセッサであってもよく、或いは、並列処理用の複数のプロセッサであってもよい。プロセッサ605は、コントローラ、マイクロプロセッサ、及び/又はマイクロコントローラであってもよい。また、コンピュータシステム601は、メモリ又はメモリ場所610(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)、電子ストレージユニット615(例えば、ハードディスク)、1つ又は複数のその他のシステムと通信するための通信インターフェイス620(例えば、ネットワークアダプタ)、並びに、キャッシュ、その他のメモリ、データストレージ及び/又は電子ディスプレイアダプタなどの、周辺装置625をも含む。メモリ610、ストレージユニット615、インターフェイス620、及び周辺装置625は、マザーボードなどの、通信バス(実線)を通じてCPU605との通信状態にある。ストレージユニット615は、データを保存するためのデータストレージユニット(或いは、データリポジトリ)であってもよい。コンピュータシステム601は、通信インターフェイス620の支援により、コンピュータネットワーク(「ネットワーク」)630に動作自在に結合することができる。ネットワーク630は、インターネット、インターネット及び/又はエクストラネット、或いは、インターネットとの通信状態にあるイントラネット及び/又はエクストラネットであってもよい。ネットワーク630は、いくつかのケースにおいては、電気通信及び/又はデータネットワークである。ネットワーク630は、1つ又は複数のコンピュータサーバーを含むことが可能であり、この結果、クラウド演算などの、分散型の演算を可能にすることができる。ネットワーク630は、いくつかのケースにおいては、コンピュータシステム601の支援により、ピアツーピアネットワークを実装することが可能であり、この結果、コンピュータシステム601に結合された装置がクライアント又はサーバーとして振る舞うことを可能にすることができる。
[0089] CPU605は、プログラム又はソフトウェアにおいて実施されうる機械可読命令のシーケンスを実行することができる。命令は、メモリ610などの、メモリ場所内において保存されてもよい。命令は、CPU605に送ることが可能であり、命令は、後から、本開示の方法を実行するように、CPU605をプログラミングするか又はその他の方法で構成することができる。CPU605によって実行される動作の例は、フェッチ、デコード、実行、及び書き戻しを含みうる。
[0090] CPU605は、集積回路などの、回路の一部分であってもよい。システム601の1つ又は複数のその他のコンポーネントを回路内において含むことができる。いくつかのケースにおいては、回路は、用途固有の集積回路(ASIC:application specific integrated circuit)である。
[0091] ストレージユニット615は、ドライバ、ライブラリ、及び保存されたプログラムなどの、ファイルを保存することができる。ストレージユニット615は、例えば、ユーザーの好み及びユーザープログラムなどの、ユーザーデータを保存することができる。コンピュータシステム601は、いくつかのケースにおいては、イントラネット又はインターネットを通じてコンピュータシステム601との通信状態にあるリモートサーバー上に配置されるなどのように、コンピュータシステム601の外部に位置している1つ又は複数の更なるデータストレージユニットを含むことができる。
[0092] コンピュータシステム601は、ネットワーク630を通じて1つ又は複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム601は、ユーザー(例えば、記録管理システムのユーザー)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例は、パーソナルコンピュータ(例えば、携帯型PC)、スレート又はタブレットPC(例えば、Apple(登録商標) iPad、Samsung(登録商標) Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標) iPhone、Android対応型の装置、Blackberry(登録商標))、或いは、パーソナルデジタルアシスタントを含む。ユーザーは、ネットワーク630を介してコンピュータシステム601にアクセスすることができる。
[0093] 本明細書において記述されている方法は、例えば、メモリ610又は電子ストレージユニット615上などの、コンピュータシステム601の電子ストレージ場所上において保存された機械(例えば、コンピュータプロセッサ)実行可能コードによって実装することができる。機械実行可能又は機械可読コードは、ソフトウェアの形態において提供することができる。使用の際に、コードは、プロセッサ605によって実行することができる。いくつかのケースにおいては、コードは、ストレージユニット615から取得することが可能であり、且つ、プロセッサ605による容易なアクセスのためにメモリ610上において保存することができる。いくつかの状況においては、電子ストレージユニット615を除外することが可能であり、且つ、機械実行可能命令は、メモリ610上において保存されている。
[0094] コードは、事前コンパイルすることができると共に、コードを実行するように適合されたプロセッサを有する機械と共に使用されるように、構成することが可能であり、或いは、実行時にコンパイルすることもできる。コードは、コードが予めコンパイルされる又は実行時にコンパイルされる方式において稼働することを可能にするように選択されうるプログラミング言語において供給することができる。
[0095] コンピュータシステム601などの、本明細書において提供されているシステム及び方法の態様は、プログラミングにおいて実施することができる。技術の様々な態様は、通常は、機械可読媒体のタイプにおいて担持された又は実施された、機械(或いは、プロセッサ)実行可能コード及び/又は関連するデータの形態における、「製品」又は「製造物品」であるものと見なすことができる。機械実行可能コードは、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスクなどの、電子ストレージユニット上において保存することができる。「ストレージ」タイプのメディアは、ソフトウェアプログラミングのために、任意の時点において一時的ではない保存を提供することができる、様々な半導体メモリ、テープドライブ、ディスクドライブ、及びこれらに類似したものなどの、コンピュータ、プロセッサ、又はこれらに類似したもの、或いは、これらの関連するモジュール、の有体のメモリのいずれか又はすべてを含みうる。ソフトウェアのすべて又は一部分は、多くの場合に、インターネット又は様々なその他の電気通信ネットワークを通じて伝達することができる。例えば、このような通信は、例えば、管理サーバー又はホストコンピュータからアプリケーションサーバーのコンピュータプラットフォーム内へなどの、1つのコンピュータ又はプロセッサから別のものへの、ソフトウェアの読み込みを可能にすることができる。従って、ソフトウェア要素を搬送しうる、媒体の別のタイプは、有線又は光ランドラインネットワークを通じて、且つ、様々な無線リンク上において、ローカル装置の間において物理的なインターフェイスに跨って使用されているものなどの、光、電気、及び電磁波を含む。また、有線又は無線リンク、光リンク、或いは、これらに類似したものなどの、このような波を搬送する物理的要素も、ソフトウェアを担持する媒体と見なすことができる。本明細書において使用されている、コンピュータ又は機械「可読媒体」などの用語は、一時的ではない有体の「ストレージ」媒体に限定されていない限り、実行のためにプロセッサに命令を提供することに参画する任意の媒体を意味している。
[0096] 従って、コンピュータ実行可能コードなどの、機械可読媒体は、限定を伴うことなしに、有体のストレージ媒体、搬送波媒体、又は物理的な送信媒体を含む、多くの形態を有することができる。不揮発性ストレージ媒体は、例えば、図面に示されている、データベースを実装するべく使用されうるものなどのような、任意のコンピュータ内のストレージ装置又はこれに類似したもののうちの任意のものなどの、光又は磁気ディスクを含む。揮発性ストレージ媒体は、このようなコンピュータプラットフォームのメインメモリなどの、ダイナミックメモリを含む。有体の送信媒体は、コンピュータシステム内においてバスを構成しているワイヤを含む、同軸ケーブル、銅ワイヤ、及び光ファイバを含む。搬送波送信媒体は、高周波(RF:Radio Frequency)及び赤外線(IR:InfraRed)データ通信の際に生成されるものなどの、電気又は電磁信号、或いは、音波又は光波の形態を有することができる。従って、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意のその他の磁気媒体、CD-ROM、DVD又はDVD-ROM、任意のその他の光媒体、パンチカード、紙テープ、孔のパターンを有する任意のその他の物理的ストレージ媒体、RAM、ROM、PROM、及びEPROM、FLASH-EPROM、任意のその他のメモリチップ又はカートリッジ、データ又は命令を搬送する搬送波、このような搬送波を搬送するケーブル又はリンク、或いは、コンピュータがプログラミングコード及び/又はデータを読み取りうる任意のその他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行のための1つ又は複数の命令の1つ又は複数のシーケンスのプロセッサへの搬送に関与することができる。
[0097] コンピュータシステム601は、ユーザーが、例えば、命令を記録管理システムに提供するための、及び/又は、記録管理システムがユーザー管理可能なインターフェイスとして提示されるための、ユーザーインターフェイス(UI:user interface)640を有する電子ディスプレイ635を含むことが可能であり、或いは、これとの通信状態にあってもよい。UIの例は、限定を伴うことなしに、グラフィカルユーザーインターフェイス(GUI:graphical user interface)及びウェブに基づいたユーザーインターフェイスを含む。
[0098] 本開示の方法及びシステムは、1つ又は複数のアルゴリズムによって実装することができる。アルゴリズムは、中央処理ユニット605による実行の際に、ソフトウェアによって実装することができる。アルゴリズムは、その他の動作に加えて、例えば、1つ又は複数の電子記録を本明細書において記述されている1つ又は複数の分類方法を介して分類することが可能であり、電子タグをタグ付けすることが可能であり、分類テンプレートを定義する及び/又はその定義を受け取ることが可能であり、分類ユニットを定義する及び/又はその定義を受け取ることが可能であり、分類式を演算することが可能であり、ユニット近接性スコアを判定することが可能であり、テンプレート近接性スコアを判定することが可能であり、既定の閾値スコアを比較することが可能であり、グラフデータベースを生成、ナビゲート、及び/又は拡張することが可能であり、タグ、分類テンプレート、及び分類ユニットの間の近接性関係を判定することが可能であり、トレーニング教材を判定することが可能であり、自動的な分類及びタグ付けのために記録管理システムをトレーニングすることが可能であり、失効日付の後にトレーニング教材を失効させることが可能であり、且つ、その他の方法で記録管理ステムを動作させることができる。
[0099] 本発明の好適な実施形態が本明細書において図示及び記述されているが、当業者には、これらの実施形態は、例として提供されたものに過ぎないことが明らかであろう。本発明は、本明細書において提供されている特定の例によって限定されるべく意図されてはいない。本発明は、上述の仕様を参照して記述されているが、本明細書における実施形態の記述及び図示は、限定の意味において解釈されるべく意図されてはいない。いまや、当業者には、本発明を逸脱することなしに、多数の変形、変更、及び置換が想起されよう。更には、本発明のすべての態様は、様々な条件及び変数に依存する、本明細書において記述されている特定の描画、構成、又は相対的な割合に限定されるものではないことを理解されたい。本発明を実施する際には、本明細書において記述されている本発明の実施形態にする様々な代替肢が利用されうることを理解されたい。従って、本発明は、任意のその他の代替肢、変更、変形、又は均等物をも包含するものと想定されている。添付の請求項は、本発明の範囲を定義しており、且つ、これらの請求項及びその均等物の範囲に含まれる方法及び構造は、これにより、包含されることが意図されている。

Claims (18)

  1. 電子記録を分類するコンピュータ実装された方法であって、
    (a)1つ又は複数のコンピュータプロセッサの支援により、分類テンプレートのライブラリにアクセスすることであって、前記分類テンプレートのライブラリのそれぞれの分類テンプレートは、1つ又は複数のタグ及び1つ又は複数の分類ユニットを有し、分類ユニットは、(i)前記電子記録のエリア又は領域と、(ii)複数の分類方法から選択される分類方法と、を有し、前記分類方法は、(1)正規表現のパターン、(2)品詞のパターン、及び(3)1つ又は複数の分類アルゴリズムからなる群の少なくとも1つの構成要素である、ことと、
    (b)前記電子記録を前記分類テンプレートのライブラリの第1の分類テンプレートとマッチングさせることであって、前記分類方法を、前記電子記録内の前記エリア又は領域において配設されたコンテンツに適用することと、
    )前記電子記録用の前記第1の分類テンプレートのテンプレート近接性スコアを判定することであって、前記テンプレート近接性スコアは、前記電子記録内の前記エリア又は領域内において配設されたコンテンツに適用された前記分類方法に少なくとも部分的に基づいている、ことと、
    )前記テンプレート近接性スコアに少なくとも部分的に基づいて前記第1の分類テンプレートの前記1つ又は複数のタグを前記電子記録に割り当てることと、
    を有する方法。
  2. 前記分類テンプレートのライブラリの第2の分類テンプレートについて、(b)~()を反復することを更に有する請求項1に記載の方法。
  3. 前記テンプレート近接性スコアが既定の閾値スコア超である際に前記第1の分類テンプレートの前記1つ又は複数のタグが前記電子記録に割り当てられる請求項1に記載の方法。
  4. 少なくとも2つの分類テンプレートが同一の分類ユニットを共有している請求項1に記載の方法。
  5. 前記第1の分類テンプレート内のそれぞれの分類ユニットごとにユニット近接性スコアを判定することを更に有し、前記ユニット近接性スコアは、前記電子記録内の前記分類ユニットの前記エリア又は領域内において配設されたコンテンツに適用された前記分類ユニットの前記分類方法に少なくとも部分的に基づいており、且つ、前記テンプレート近接性スコアは、それぞれの分類ユニットごとに判定された前記ユニット近接性スコアの集合体である請求項1に記載の方法。
  6. 前記ユニット近接性スコアは、2値である請求項5に記載の方法。
  7. (e)ユーザーから、第1のタグを前記電子記録に割り当てるための命令を受け取ることと、
    (f)前記第1のタグを前記電子記録に割り当てることと、
    (g)1つ又は複数のデータベース内において、前記第1のタグとして分類するためのトレーニング教材として、前記電子記録のコンテンツを保存することと、
    (h)前記トレーニング教材から、前記第1のタグとしての電子記録の分類方法を学習することと、
    を更に有する請求項1に記載の方法。
  8. 前記分類テンプレートのライブラリは、グラフデータベースからアクセスされ、前記グラフデータベースは、前記分類テンプレートのライブラリと、分類ユニットのライブラリと、を有する請求項1に記載の方法。
  9. 前記電子記録を前記分類テンプレートのライブラリの前記第1の分類テンプレートとマッチングさせることは、前記第1の分類テンプレートのそれぞれの分類ユニットごとに、前記分類方法を前記電子記録の前記エリア又は領域内において配設されたコンテンツに適用することを有する請求項1に記載の方法。
  10. 電子記録を分類するコンピュータシステムであって、
    1つ又は複数のプロセッサと、
    電子記録を分類する方法を実装するべく、個々に又は集合的に、前記1つ又は複数のプロセッサによって実行可能である命令を含む、前記1つ又は複数のプロセッサに通信自在に結合されたメモリと、
    を有し、
    前記方法は、
    (a)ユーザーから、コンピュータネットワーク上において、分類テンプレートの定義を受け取ることであって、分類テンプレートは、1つ又は複数のタグ及び1つ又は複数の分類ユニットによって定義され、分類ユニットは、少なくとも(i)前記電子記録のエリア又は領域及び(ii)複数の分類方法から選択される分類方法によって定義されており、前記分類方法は、(1)正規表現のパターン、(2)品詞のパターン、及び(3)1つ又は複数の分類アルゴリズムからなる群の少なくとも1つの構成要素である、ことと、
    (b)前記電子記録を前記分類テンプレートとマッチングさせることであって、前記分類方法を、前記電子記録内の前記エリア又は領域において配設されたコンテンツに適用することと、
    )前記電子記録用の前記分類テンプレートのテンプレート近接性スコアを判定することであって、前記テンプレート近接性スコアは、前記電子記録の前記エリア又は領域内において配設されたコンテンツに適用された前記分類方法に少なくとも部分的に基づいている、ことと、
    )前記テンプレート近接性スコアに少なくとも部分的に基づいて前記分類テンプレートの前記1つ又は複数のタグを前記電子記録に割り当てることと、
    を有する、コンピュータシステム。
  11. 前記方法は、前記分類テンプレート内のそれぞれの分類ユニットごとにユニット近接性スコアを判定することを反復することを更に有し、前記ユニット近接性スコアは、前記電子記録内の前記分類ユニットの前記エリア又は領域内において配設されたコンテンツに適用された前記分類ユニットの前記分類方法に少なくとも部分的に基づいており、且つ、前記テンプレート近接性スコアは、それぞれの分類ユニットごとに判定された前記ユニット近接性スコアの集合体である請求項10に記載のコンピュータシステム。
  12. 前記テンプレート近接性スコアが既定の閾値スコア超である場合に前記分類テンプレートの前記1つ又は複数のタグが前記電子記録に割り当てられる請求項10に記載のコンピュータシステム。
  13. 前記分類ユニットは、ページインデックスと、寸法と、を更に有する請求項10に記載のコンピュータシステム。
  14. 前記方法は、グラフィカルユーザーインターフェイス上において、前記電子記録の1つ又は複数のページを表示することを更に有する請求項10に記載のコンピュータシステム。
  15. 前記定義は、前記グラフィカルユーザーインターフェイスから受け取られる請求項14に記載のコンピュータシステム。
  16. 前記電子記録の前記エリア又は領域の定義は、前記グラフィカルユーザーインターフェイス上において、前記電子記録の前記1つ又は複数のページ上において表示される請求項15に記載のコンピュータシステム。
  17. 前記方法は、
    (e)ユーザーから、第1のタグを前記電子記録に割り当てるための命令を受け取ることと、
    (f)前記第1のタグを前記電子記録に割り当てることと、
    (g)1つ又は複数のデータベース内において、前記第1のタグとして分類するためのトレーニング教材として、前記電子記録のコンテンツを保存することと、
    (h)前記トレーニング教材から、前記第1のタグとしての電子記録の分類方法を学習することと、
    を更に有する請求項10に記載のコンピュータシステム
  18. 前記分類テンプレートのライブラリは、グラフデータベースからアクセスされ、前記グラフデータベースは、前記分類テンプレートのライブラリと、分類ユニットのライブラリと、を有する請求項10に記載のコンピュータシステム。
JP2019507786A 2016-08-09 2017-08-09 電子記録のタグ付けのためのシステム及び方法 Active JP7189125B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662372556P 2016-08-09 2016-08-09
US62/372,556 2016-08-09
PCT/US2017/046053 WO2018031628A1 (en) 2016-08-09 2017-08-09 Systems and methods for electronic records tagging

Publications (2)

Publication Number Publication Date
JP2019530063A JP2019530063A (ja) 2019-10-17
JP7189125B2 true JP7189125B2 (ja) 2022-12-13

Family

ID=61162522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019507786A Active JP7189125B2 (ja) 2016-08-09 2017-08-09 電子記録のタグ付けのためのシステム及び方法

Country Status (8)

Country Link
US (3) US10387456B2 (ja)
EP (1) EP3497554A4 (ja)
JP (1) JP7189125B2 (ja)
KR (1) KR102448370B1 (ja)
CN (1) CN109863483A (ja)
CA (1) CA3033642A1 (ja)
MX (1) MX2019001676A (ja)
WO (1) WO2018031628A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7189125B2 (ja) 2016-08-09 2022-12-13 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
US10740405B1 (en) * 2019-04-03 2020-08-11 Capital One Services, Llc Methods and systems for filtering vehicle information
SG10201904554TA (en) 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
US11893065B2 (en) * 2020-06-10 2024-02-06 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11776291B1 (en) 2020-06-10 2023-10-03 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11893505B1 (en) 2020-06-10 2024-02-06 Aon Risk Services, Inc. Of Maryland Document analysis architecture
CN111755091B (zh) * 2020-06-28 2024-02-27 北京嘉和海森健康科技有限公司 一种电子病历的处理方法及装置
US11551674B2 (en) * 2020-08-18 2023-01-10 Bank Of America Corporation Multi-pipeline language processing platform
CN112633745B (zh) * 2020-12-30 2024-07-12 北京机电工程研究所 一种产品的可靠性属性表达方法
KR102658134B1 (ko) * 2021-03-11 2024-04-26 주식회사 한글과컴퓨터 식별 태그를 기초로 전자 문서에 대한 데이터베이스화 처리를 수행하는 전자 문서 관리 서버 및 그 동작 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108893A (ja) 2000-09-28 2002-04-12 Matsushita Electric Ind Co Ltd 文書情報管理装置
JP2003178081A (ja) 2001-12-04 2003-06-27 Matsushita Electric Ind Co Ltd レイアウトグラフマッチングを使用した文書分類及びラベル付け方法
JP2005122550A (ja) 2003-10-17 2005-05-12 Fuji Xerox Co Ltd 文書分類装置、プログラムおよび文書分類方法
JP2005227974A (ja) 2004-02-12 2005-08-25 Fuji Xerox Co Ltd 文書管理装置および方法
JP2006209649A (ja) 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2009199302A (ja) 2008-02-21 2009-09-03 Netstar Inc ドキュメントを解析するためのプログラム,装置および方法
JP2010102668A (ja) 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd メタデータ抽出装置およびその方法
JP2013061757A (ja) 2011-09-13 2013-04-04 Hitachi Solutions Ltd 文書分類方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3515586B2 (ja) * 1992-10-16 2004-04-05 株式会社ジャストシステム 文書処理方法及び装置
DE59708043D1 (de) * 1996-06-17 2002-10-02 Siemens Ag Kommunikationssystem und Verfahren zur Aufnahme und Verwaltung digitaler Bilder
US6340978B1 (en) * 1997-01-31 2002-01-22 Making Everlasting Memories, Ltd. Method and apparatus for recording and presenting life stories
JP2000259669A (ja) * 1999-03-12 2000-09-22 Ntt Data Corp 文書分類装置及びその方法
US6996295B2 (en) * 2002-01-10 2006-02-07 Siemens Corporate Research, Inc. Automatic document reading system for technical drawings
US7188107B2 (en) 2002-03-06 2007-03-06 Infoglide Software Corporation System and method for classification of documents
JP4124348B2 (ja) 2003-06-27 2008-07-23 株式会社日立製作所 記憶システム
US20070168382A1 (en) * 2006-01-03 2007-07-19 Michael Tillberg Document analysis system for integration of paper records into a searchable electronic database
US7899816B2 (en) 2006-08-24 2011-03-01 Brian Kolo System and method for the triage and classification of documents
WO2008063974A2 (en) * 2006-11-13 2008-05-29 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
CN101911067A (zh) 2008-01-08 2010-12-08 三菱电机株式会社 信息过滤系统、信息过滤方法以及信息过滤程序
JP5245062B2 (ja) * 2008-04-25 2013-07-24 中部電力株式会社 文章情報グループ帰属性判別支援装置
US8396591B2 (en) * 2008-06-25 2013-03-12 Valbrea Technologies, Inc. System and method for data collection and analysis using robotic devices
JP5380040B2 (ja) * 2008-10-30 2014-01-08 株式会社日立ソリューションズ 文書処理装置
US8140540B2 (en) * 2009-03-16 2012-03-20 International Business Machines Corporation Classification of electronic messages based on content
US9390089B2 (en) * 2009-12-17 2016-07-12 Wausau Financial Systems, Inc. Distributed capture system for use with a legacy enterprise content management system
US8805840B1 (en) 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US8724907B1 (en) * 2012-03-28 2014-05-13 Emc Corporation Method and system for using OCR data for grouping and classifying documents
JP5836893B2 (ja) * 2012-07-02 2015-12-24 株式会社日立ソリューションズ ファイル管理装置、ファイル管理方法、及びプログラム
US20140046954A1 (en) * 2012-08-07 2014-02-13 3M Innovative Properties Company And A Completed Software tool for creation and management of document reference templates
US9589184B1 (en) 2012-08-16 2017-03-07 Groupon, Inc. Method, apparatus, and computer program product for classification of documents
EP3011473A1 (en) 2013-06-21 2016-04-27 Hewlett-Packard Development Company, L.P. Topic based classification of documents
US9922102B2 (en) * 2013-07-31 2018-03-20 Splunk Inc. Templates for defining fields in machine data
WO2017033200A1 (en) 2015-08-26 2017-03-02 Minacs Private Limited Electronic sorting and classification of documents
US10019740B2 (en) * 2015-10-07 2018-07-10 Way2Vat Ltd. System and methods of an expense management system based upon business document analysis
JP7189125B2 (ja) 2016-08-09 2022-12-13 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108893A (ja) 2000-09-28 2002-04-12 Matsushita Electric Ind Co Ltd 文書情報管理装置
JP2003178081A (ja) 2001-12-04 2003-06-27 Matsushita Electric Ind Co Ltd レイアウトグラフマッチングを使用した文書分類及びラベル付け方法
JP2005122550A (ja) 2003-10-17 2005-05-12 Fuji Xerox Co Ltd 文書分類装置、プログラムおよび文書分類方法
JP2005227974A (ja) 2004-02-12 2005-08-25 Fuji Xerox Co Ltd 文書管理装置および方法
JP2006209649A (ja) 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2009199302A (ja) 2008-02-21 2009-09-03 Netstar Inc ドキュメントを解析するためのプログラム,装置および方法
JP2010102668A (ja) 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd メタデータ抽出装置およびその方法
JP2013061757A (ja) 2011-09-13 2013-04-04 Hitachi Solutions Ltd 文書分類方法

Also Published As

Publication number Publication date
US20180129729A1 (en) 2018-05-10
EP3497554A4 (en) 2020-04-08
US11580141B2 (en) 2023-02-14
US20210382919A1 (en) 2021-12-09
US20200142913A1 (en) 2020-05-07
CA3033642A1 (en) 2018-02-15
KR20190062388A (ko) 2019-06-05
CN109863483A (zh) 2019-06-07
US10387456B2 (en) 2019-08-20
JP2019530063A (ja) 2019-10-17
EP3497554A1 (en) 2019-06-19
MX2019001676A (es) 2019-09-18
WO2018031628A1 (en) 2018-02-15
KR102448370B1 (ko) 2022-09-28
US11048732B2 (en) 2021-06-29

Similar Documents

Publication Publication Date Title
JP7189125B2 (ja) 電子記録のタグ付けのためのシステム及び方法
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US9535960B2 (en) Context-sensitive search using a deep learning model
US20170161375A1 (en) Clustering documents based on textual content
US9767144B2 (en) Search system with query refinement
US20140207782A1 (en) System and method for computerized semantic processing of electronic documents including themes
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
US11868313B1 (en) Apparatus and method for generating an article
US20230273921A1 (en) Systems and methods for discovery, classification, and indexing of data in a native computing system
HS et al. Advanced text documents information retrieval system for search services
CN111316370A (zh) 基于附录的报告质量分数卡生成
Yang Deep integrative information extraction from scientific literature
CN115907442A (zh) 业务需求的建模方法、装置、电子设备和介质
CN118332123A (zh) 基于特征匹配的目标数据识别方法、系统、介质及产品
CN111201523A (zh) 自然语言文本文件中的搜索项提取和优化
Twardowski et al. Domain dependent product feature and opinion extraction based on e-commerce websites
Singh Developing web crawler and categorization of newspaper text
Jeon Lexicon-based context-sensitive reference comments crawler

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221201

R150 Certificate of patent or registration of utility model

Ref document number: 7189125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150