JP5205028B2 - Handwritten annotation management device and interface - Google Patents

Handwritten annotation management device and interface Download PDF

Info

Publication number
JP5205028B2
JP5205028B2 JP2007267345A JP2007267345A JP5205028B2 JP 5205028 B2 JP5205028 B2 JP 5205028B2 JP 2007267345 A JP2007267345 A JP 2007267345A JP 2007267345 A JP2007267345 A JP 2007267345A JP 5205028 B2 JP5205028 B2 JP 5205028B2
Authority
JP
Japan
Prior art keywords
annotation
information
handwritten
document
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007267345A
Other languages
Japanese (ja)
Other versions
JP2009098763A (en
Inventor
康介 小西
尚司 池田
直広 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007267345A priority Critical patent/JP5205028B2/en
Publication of JP2009098763A publication Critical patent/JP2009098763A/en
Application granted granted Critical
Publication of JP5205028B2 publication Critical patent/JP5205028B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は手書き注釈を含む文書管理装置における手書き注釈の重要度を計算する技術に関する。   The present invention relates to a technique for calculating the importance of handwritten annotations in a document management apparatus including handwritten annotations.

近年文書への手書きメモを電子化する技術が普及している。その一つとしてタブレットPCが挙げられる。これはペンデバイスを備えたパーソナルコンピュータであり、ペンデバイスでディスプレイ上に描いた内容を電子的に取り込むことができる。上記技術のもう一つ例としてデジタルペンが挙げられる。これは紙に印刷された細かなドットをペンに内蔵されたカメラで読み取ることで、紙への手書きメモを電子化することができる。   In recent years, techniques for digitizing handwritten memos on documents have become widespread. One of them is a tablet PC. This is a personal computer equipped with a pen device, and the contents drawn on the display by the pen device can be electronically captured. Another example of the above technique is a digital pen. By reading fine dots printed on paper with a camera built in the pen, handwritten memos on paper can be digitized.

またこれらのデバイスの普及に伴い、電子化された手書きメモを文書への注釈として文書情報と一緒に管理する技術も普及している。例えばMicrosoft社が開発したMicrosoft Office 2007では、タブレットを用いてワープロ文書やプレゼンテーション文書に手書きメモを追加して保存することができる。また特許文献1では、電子文書と紙上への手書きメモを一緒に管理する技術が開示されている。これらの技術によって、文書への手書き注釈を電子的に保存して管理することが可能になった。   With the spread of these devices, a technique for managing electronic handwritten memos as document annotations together with document information has also spread. For example, in Microsoft Office 2007 developed by Microsoft Corporation, a handwritten memo can be added to a word processor document or a presentation document and stored using a tablet. Patent Document 1 discloses a technique for managing an electronic document and a handwritten memo on paper together. These technologies have made it possible to electronically store and manage handwritten annotations on documents.

これらの技術を背景に、近年文書への手書き注釈を解析して情報表示や検索に利用する技術が注目されている。官公庁や企業の業務では、下線や丸囲みなどを書き込むことによって、文書中の重要な部分を記録することが行われている。このような手書き注釈の記録は業務における重要な知識を含んでいることが多いので、それを電子的に管理して検索したり閲覧したりすることは有用である。これを実現する場合、管理される注釈の数は膨大になるので、検索において重要なものを優先的に提示することが重要となる。すなわち単語列からなる検索クエリーに対してそれぞれの注釈の重要度を計算する手段が重要である。   With these technologies as a background, in recent years, techniques that analyze handwritten annotations on documents and use them for information display and retrieval have attracted attention. In the work of public offices and companies, important parts of a document are recorded by writing underlines and circles. Since such handwritten annotation records often contain important knowledge in business, it is useful to search and browse them electronically. When this is realized, the number of annotations to be managed becomes enormous, so it is important to preferentially present what is important in the search. That is, a means for calculating the importance of each annotation for a search query consisting of a word string is important.

このような手書き注釈の検索を実現するものとして、記入内容や文書内容にもとづき手書き注釈情報に重要度をつけて検索する技術が提案されている。例えば非特許文献1では、検索キーワードと手書き注釈を記入した箇所付近のテキストとの類似度によって重要度を計算する手法が提案されている。また特許文献2では、手書き注釈を記入した部分の文書内容の語句の重要度によって手書き注釈の重要度を計算する手段が開示されている。また特許文献3では、特定の文書の範囲を指定してその範囲に記入された手書き注釈のみを検索する手段が開示されている。これらの手段によって、注釈をつけた文書のテキスト内容をもとに注釈情報を検索することが可能になる。   As a technique for realizing such a search for handwritten annotations, a technique has been proposed in which handwritten annotation information is searched for with importance based on the contents of entries and document contents. For example, Non-Patent Document 1 proposes a method of calculating the importance based on the similarity between the search keyword and the text near the place where the handwritten annotation is entered. Patent Document 2 discloses means for calculating the importance level of handwritten annotations based on the importance level of the word / phrase of the document content of the part where the handwritten annotations are written. Further, Patent Document 3 discloses a means for designating a specific document range and retrieving only handwritten annotations written in the range. By these means, it is possible to retrieve annotation information based on the text content of the annotated document.

特開2005-135211JP2005-135211 特開2004-206654JP2004-206654 特開2004-199484JP2004-199484 特開2006-301695JP2006-301695 Gene Golovchinsky, Morgan N. Price, and Bill N. Schilit,” FromReading to Retrieval:Freeform Ink Annotations as Queries” Proceedings of ACM SIGIR 99, ACM Press, pp. 19−25, 1999.Gene Golovchinsky, Morgan N .; Price, and Bill N .; Schilit, “From Reading to Retrieval: Freeform Ink Annotations as Queries” Proceedings of ACM SIGIR 99, ACM Press, pp. 19-25, 1999.

しかしながら、業務においては色々な箇所の似たような文章に下線などが記入される場合が多く、前記のような語句の類似度や重要度による注釈の重要度計算手段では、似たような文章につけられた注釈をうまく区別できない。また業務においては、ある文書の一部分と別の文書の一部分との対応関係や、その対応関係の強さの度合いなどを注釈によって明示的に記録することがある。このような記録は作業者の作業における過程や知識を表現するものであり、注釈情報を検索する場合に活用すれば従来のテキスト内容に基づく検索手法よりも一層効率のよい検索ができることが期待される。   However, underline is often entered in similar sentences in various places in business, and similar sentences are used in the importance calculation means for annotations based on word similarity and importance as described above. The annotations attached to cannot be distinguished well. In business, the correspondence between a part of one document and a part of another document, the degree of strength of the correspondence, and the like may be explicitly recorded by annotation. Such a record expresses the process and knowledge of the worker's work, and if it is used when searching for annotation information, it is expected that the search will be more efficient than the search method based on the conventional text contents. The

このような注釈による対応関係の情報を活用するものとして、特許文献4では文書中に着けられた手書きの追記マークを解釈し、マークの種類ごとに文書の内容を並べて表示する技術が開示されている。しかしながらそれはあくまで一文書内の手書き注釈の表示方法に関するものであり、注釈情報が大量に記録された中から検索によって効率的に情報を取り出すことに関する技術ではない。   Patent Document 4 discloses a technique for interpreting handwritten additional marks attached to a document and displaying the contents of the document side by side for each type of mark, as an example of utilizing correspondence information based on such annotations. Yes. However, it only relates to a method for displaying handwritten annotations in one document, and is not a technique for efficiently extracting information from a large number of annotation information recorded.

そこで本発明では、手書き注釈情報を含む文書管理装置において、注釈情報を検索する際にユーザによる注釈間の対応付け情報を利用して検索結果を出力することで、テキスト内容には表れないユーザの作業過程の知識を活用して注釈情報を探すことが可能な注釈検索手段を提供する。   Therefore, in the present invention, in a document management apparatus including handwritten annotation information, when searching for annotation information, a search result is output using the association information between the annotations by the user. Provided is an annotation retrieval means capable of searching for annotation information by utilizing knowledge of a work process.

上記課題を解決するため、本発明は、以下のように文書管理システム、検索システム、検索方法を提供する。   In order to solve the above problems, the present invention provides a document management system, a search system, and a search method as follows.

文書管理システムであって、文書に対し手書きされた手書き情報を電子的に取得する手段と、取得された前記手書き情報から、対象の文章の範囲と当該文章へのマークを抽出し注釈情報データベースに登録する注釈情報解析手段と、前記手書き情報を取得したのと同じ業務フロー内で取得した、前記手書き情報とは異なる手書き情報であって、前記マークに対応するマークが手書きされている文書から対象の文章の範囲を抽出し、対比注釈として対比注釈情報データベースに登録する対比注釈登録部とを有することを特徴とする。   A document management system for electronically acquiring handwritten information handwritten on a document, and extracting a range of a target sentence and a mark on the sentence from the acquired handwritten information into an annotation information database Annotation information analyzing means to be registered and the handwritten information obtained in the same business flow as the handwritten information obtained from the handwritten information different from the handwritten information, and from the document in which the mark corresponding to the mark is handwritten A comparison annotation registration unit that extracts the range of the sentence and registers it in the comparison annotation information database as a comparison annotation.

さらに、前記対比注釈登録部は、前記手書き情報から、対比注釈に対する評価情報を取得して、前記対比注釈データベースに登録することを特徴とする
さらに、前記対比注釈に対する評価情報として、手書きされる評価記号とその評価値の組合せが登録された評価値データベースを有することを特徴とする。
Further, the comparison annotation registration unit acquires evaluation information for the comparison annotation from the handwritten information and registers it in the comparison annotation database. Furthermore, the evaluation that is handwritten as the evaluation information for the comparison annotation It has an evaluation value database in which combinations of symbols and their evaluation values are registered.

さらに、前記対比注釈登録部は、対応するマークが手書きされている文書中の対象の文章の範囲同士で、共通語及び差異語を抽出して対比注釈情報データベースに登録することを特徴とする。   Furthermore, the comparison annotation registration unit extracts a common word and a difference word between ranges of a target sentence in a document in which a corresponding mark is handwritten, and registers the extracted common word and difference word in a comparison annotation information database.

さらに、前記共通語及び差異語の抽出は、それぞれの文章における特徴語を抽出し、特徴語同士を比較することにより抽出することを特徴とする文書管理システム。   Furthermore, the common word and the difference word are extracted by extracting feature words in each sentence and comparing the feature words.

また、検索システムであって、電子的に取得された文書への手書き情報であって、対象の文章の範囲と当該文章へのマークが登録された注釈情報データベースと、前記手書き情報を取得したのと同じ業務フロー内で取得した、前記手書き情報とは異なる情報であって、前記マークに対応するマークが手書きされている文書から抽出された対象の文章の範囲が対比注釈として登録された対比注釈情報データベースと、キーワードの入力を受け付ける手段と、入力された前記キーワードを含む文章を前記注釈情報データベースから検索する注釈検索部と、前記検索部によって検索された文章とその文章に対応する対比注釈が登録されている文章とを前記対比注釈情報データベースから抽出し、前記対比注釈の重要度を計算する注釈評価部と、前記注釈評価部によって計算された重要度に基づいて、抽出された文章への手書き情報を表示する表示手段とを有する特徴とする。   In addition, the search system is handwritten information on the electronically acquired document, the annotation information database in which the range of the target sentence and the mark on the sentence are registered, and the handwritten information is acquired. A comparative annotation in which the range of the target sentence extracted from a document in which the mark corresponding to the mark is handwritten is registered as a comparative annotation, which is different from the handwritten information acquired in the same workflow An information database, a means for receiving input of a keyword, an annotation search unit that searches the annotation information database for a sentence including the input keyword, a sentence searched by the search part, and a contrast annotation corresponding to the sentence Annotation evaluator that extracts registered sentences from the contrast annotation information database and calculates the importance of the contrast annotation; and Interpretation based on the calculated importance by the evaluation unit, characterized and a display means for displaying the handwritten information to the extracted sentence.

さらに、前記対比注釈情報データベースは、前記手書き情報から取得された前記対比注釈に対する評価情報を有し、前記注釈評価部は、前記評価情報の重要度に基いて抽出された文章の組を並べ替え、前記表示手段に前記並べ替えの順で前記手書き情報を表示することを特徴とする。   Further, the contrast annotation information database has evaluation information for the contrast annotation acquired from the handwritten information, and the annotation evaluation unit rearranges the sentence sets extracted based on the importance of the evaluation information. The handwritten information is displayed on the display means in the order of the rearrangement.

また、検索キーワード入力手段、検索手段、表示手段、データベースを用いた検索方法であって、前記データベースは、電子的に取得された文書への手書き情報であって、対象の文章の範囲と当該文章へのマークが登録された注釈情報データベースと、前記手書き情報を取得したのと同じ業務フロー内で取得した、前記手書き情報とは異なる情報であって、前記マークに対応するマークが手書きされている文書から抽出された対象の文章の範囲が対比注釈として登録された対比注釈情報データベースとを有し、前記入力手段が検索キーワードの入力を受け付け、前記検索手段が、入力された前記キーワードを含む文章を前記注釈情報データベースから検索し、検索された文章とその文章に対応する対比注釈が登録されている文章とを前記対比注釈情報データベースから抽出し、前記対比注釈の重要度を計算し、前記表示部が、計算された重要度に基づいて、抽出された文章への手書き情報を表示することを特徴とする検索システム。   Also, a search method using a search keyword input means, search means, display means, and database, wherein the database is handwritten information on an electronically acquired document, and the range of the target sentence and the sentence Annotation information database in which a mark is registered and information different from the handwritten information acquired in the same business flow as the handwritten information is acquired, and the mark corresponding to the mark is handwritten A comparison annotation information database in which a range of a target sentence extracted from a document is registered as a comparison annotation, the input unit accepts an input of a search keyword, and the search unit includes a sentence including the input keyword Is retrieved from the annotation information database, and the contrast between the retrieved sentence and the sentence in which the contrast annotation corresponding to the sentence is registered. Extracted from the interpretation information database to calculate the importance of the contrast annotation, retrieval system the display unit, based on the calculated degree of importance, and displaying the handwritten information to the extracted sentence.

これにより、テキストの内容が似通った手書き注釈だけでなく、その注釈内容と関係性があると過去に作業者によって判断された部分の注釈に対しても適切に重要度を割り当てることができ、過去の作業知識を利用して重要な注釈を優先的に検索することが可能になる。   As a result, not only handwritten annotations with similar text content, but also importance can be assigned to annotations of parts that have been previously determined by the operator to be related to the annotation content. It is possible to search important annotations preferentially by using the working knowledge of.

また、本発明では、業務フローおよび該業務フローに含まれる文書の集合を管理し、同一業務フロー内の文書に記入された同一マークを持つ注釈の組を検出することで、記入者が意図した注釈の対応付けを抽出することができる。   Further, in the present invention, the writer intended by managing the business flow and a set of documents included in the business flow and detecting a set of annotations having the same mark written in the documents in the same business flow. An annotation correspondence can be extracted.

また本発明では、検索クエリーとテキストの整合性が高い注釈だけでなく、そのような注釈と対比関係によって結び付けられている注釈の重要度を高めることによって、テキスト内容だけでなく記入者の意図を反映して重要度を計算する手法を提案する。   In addition, the present invention increases the importance of not only the high-consistency of the search query and the text but also the annotation linked to the annotation by such a contrast, thereby not only the text content but also the intention of the writer. We propose a method to calculate importance by reflecting it.

また本発明では、検索結果として出力された注釈情報をリスト形式に表示するだけでなく、注釈の対比関係を重要度順にリスト形式に表示したり、注釈の対比関係をネットワーク状に表示したりすることによって、過去の記入者が記した注釈間の関係を可視化する手法を提案する。   In the present invention, not only the annotation information output as a search result is displayed in a list format, but also the comparison relationship of annotations is displayed in a list format in order of importance, or the comparison relationship of annotations is displayed in a network form. We propose a method for visualizing the relationship between annotations written by past writers.

本発明によれば、企業内で大量に蓄積された文書情報の中から、記入者が関係あると明示的に記した文書内容の組を抽出し、その関係性を用いてテキスト内容によらない尺度によって重要な文書情報を優先的に探し出せるようになる。   According to the present invention, a set of document contents that are explicitly described as having a relationship with a writer is extracted from a large amount of document information accumulated in a company, and the relationship is not used to depend on the text contents. The important document information can be preferentially searched by the scale.

本発明の実施形態にかかる情報管理装置の構成について図1に従い述べる。本発明の実施例としての情報管理装置は、情報管理サーバ101と情報管理クライアント102からなる。   The configuration of the information management apparatus according to the embodiment of the present invention will be described with reference to FIG. An information management apparatus as an embodiment of the present invention includes an information management server 101 and an information management client 102.

情報管理サーバ101は本装置を使用するユーザの情報を格納するユーザ情報DB103、文書の情報を格納する文書情報DB104、文書に書き加えられた手書きを格納するストローク情報DB105、ストロークと文書内容を解析して下線や丸囲みであるというストロークの形状やどの部分に下線が引かれているかという注釈内容を格納する注釈情報DB106、業務フローとその中で利用される文書の情報を格納する業務フロー情報DB107、記入者が意図したと考えられる注釈間の対応づけを格納する対比注釈情報DB108、注釈に対して記入者が明示的に評価をつける際の評価記号と評価値の対応付けを格納する評価値DB130、クライアントから記入データを受け取りストローク情報DBや注釈情報DBにデータを格納する記入データ登録部109、クライアントから検索クエリーを受け取り注釈情報のリストを返信する注釈情報検索処理部110から構成される。記入データ登録部109は、ストローク情報DBに情報を格納するストローク情報登録部120、下線や丸囲みなどの手書きの形状やその対象となる文章を解析して注釈情報DBに情報を格納する注釈解析・登録部121、追記マークなどをもとに注釈間の対応関係を抽出して対比注釈情報DBに情報を格納する対比注釈登録部122で構成される。注釈情報検索処理部110は、検索クエリーのテキストを内容として含む注釈情報を取得するキーワードによる注釈検索部123、注釈情報や対比注釈情報の内容をもとに検索クエリーに対する注釈情報の重要度を計算する注釈評価部124、重要度をもとに注釈情報を並び替えて検索結果としてクライアントに出力する検索結果生成部125で構成される。   The information management server 101 includes a user information DB 103 for storing information on a user who uses the apparatus, a document information DB 104 for storing document information, a stroke information DB 105 for storing handwriting added to the document, and analyzing strokes and document contents. Annotation information DB 106 that stores the shape of a stroke that is underlined or circled and an annotation content that indicates which part is underlined, and workflow information that stores information about the workflow and the documents used therein DB 107, contrast annotation information DB 108 that stores correspondences between annotations that are considered to be intended by the writer, and evaluations that store correspondences between evaluation symbols and evaluation values when the writer explicitly evaluates the annotations Value DB 130 receives entry data from client and stores data in stroke information DB and annotation information DB Fill data registration unit 109, and a annotation information search processing unit 110 returns the list of receiving annotation information retrieval query from the client. The entry data registration unit 109 is a stroke information registration unit 120 that stores information in the stroke information DB, and an annotation analysis that analyzes a handwritten shape such as an underline or a circle and a target sentence and stores the information in the annotation information DB. The registration unit 121 includes a comparison annotation registration unit 122 that extracts a correspondence between annotations based on an additional mark and stores information in the comparison annotation information DB. The annotation information search processing unit 110 calculates the importance of the annotation information with respect to the search query based on the content of the annotation search unit 123 using keywords for acquiring the annotation information including the text of the search query as the content, the annotation information and the contrast annotation information. An annotation evaluation unit 124 that sorts annotation information based on importance and outputs a search result to a client as a search result.

情報管理クライアント102は、各ユーザがこれを用いて文書への手書き注釈を電子化したり注釈情報を検索して閲覧したりするための端末であり、ペンデバイスから記入データを読み取りサーバに送信する記入データ読み込み部111、ユーザから検索クエリーを受け取ってサーバに送信してサーバから返信される結果を画面にリスト形式で表示する注釈情報検索部112から構成される。クライアントにはペンデバイス113が接続され、文書への記入を電子化したものを読み取ることができる。   The information management client 102 is a terminal for each user to digitize handwritten annotations on a document or to search and browse annotation information by using the information management client 102. The information management client 102 reads entry data from a pen device and transmits it to a server. The data reading unit 111 includes an annotation information search unit 112 that receives a search query from a user, transmits it to the server, and displays the results returned from the server in a list format on the screen. A pen device 113 is connected to the client and can read an electronic document entry.

最初に、情報管理サーバにおける情報管理の形式を図2から図5に示す。   First, FIGS. 2 to 5 show information management formats in the information management server.

ユーザ情報DB103の管理形式を、図2を用いて説明する。ユーザ情報は、それぞれのユーザに固有に割り当てられるユーザID201、ユーザ名202から構成される。   The management format of the user information DB 103 will be described with reference to FIG. The user information includes a user ID 201 and a user name 202 that are uniquely assigned to each user.

文書情報DB104の管理形式を、図3を用いて説明する。文書情報は、それぞれの文書に固有に割り当てられる文書ID301、文書を作成したユーザを表す作成ユーザID302、作成日時303、更新日時304、文書の電子ファイルを格納する電子文書データ305、文書のページ数306、文書インスタンスIDリスト307から構成される。文書インスタンスIDは当該文書に記入を行う際の記入対象となる中間データで、同一文書に別々のユーザが書き込んだ場合に、それらを分割しつつ同一の文書に書き込んだということを管理するためのものである。例えば別々のユーザがそれぞれある文書に記入をしたい場合は、それぞれ別々の文書インスタンスを生成して書き込みを行う。   The management format of the document information DB 104 will be described with reference to FIG. The document information includes a document ID 301 uniquely assigned to each document, a creation user ID 302 representing a user who created the document, a creation date and time 303, an update date and time 304, electronic document data 305 storing an electronic file of the document, and the number of pages of the document 306, a document instance ID list 307. The document instance ID is intermediate data to be filled in when filling in the document. When different users write in the same document, it is managed to write the same document while dividing it. Is. For example, when different users want to fill in a document, separate document instances are generated and written.

ストローク情報DB105の管理形式を、図4を用いて説明する。ストローク情報は、それぞれのストロークに固有に割り当てられるストロークID401、ストロークを記入した文書インスタンスのID402、ストロークを記入したページ番号403、ストロークを記入したユーザのID404、記入開始時刻405、サンプリング点数406から構成され、さらにストロークを構成するサンプリング点のリストへのポインタ407を持つ。サンプリング点はX座標408、Y座標409、差分時刻410から構成される。ストローク情報はサンプリング点のリストによりストロークの形状を保持するだけでなく、記入者や記入時刻などの情報も併せて保持する。   The management format of the stroke information DB 105 will be described with reference to FIG. The stroke information is composed of a stroke ID 401 uniquely assigned to each stroke, a document instance ID 402 in which the stroke is entered, a page number 403 in which the stroke is entered, a user ID 404 in which the stroke is entered, an entry start time 405, and a sampling point 406. And has a pointer 407 to a list of sampling points constituting the stroke. The sampling point is composed of an X coordinate 408, a Y coordinate 409, and a difference time 410. The stroke information not only holds the shape of the stroke by the list of sampling points, but also holds information such as the writer and entry time.

注釈情報DB106の管理形式を、図5を用いて説明する。注釈情報は、それぞれの注釈に固有に割り当てられる注釈ID501、注釈を記入したユーザのID502、注釈を構成するストロークのIDのリスト503、該注釈の一部であり記入者が該注釈に割り当てたとみなすマーク504、下線や丸囲みなどの注釈の形状505、下線が引かれた文章や丸囲みされた文章など注釈が記入された対象となる文章を格納する被注釈文字列506から構成される。510は注釈の例である。510は下線によって文書内容の範囲が選択されており、さらに左上に「1a」という記号が記入されている。本装置はこのようなストロークから下線と「1a」というマークを検出し、注釈情報として登録する。   The management format of the annotation information DB 106 will be described with reference to FIG. The annotation information includes an annotation ID 501 that is uniquely assigned to each annotation, an ID 502 of the user who entered the annotation, a list 503 of stroke IDs that make up the annotation, and a part of the annotation that is considered to be assigned by the writer. A mark 504, an annotation shape 505 such as an underline or a circle, and an annotated character string 506 that stores a text to be annotated such as an underlined text or a circled text. 510 is an example of an annotation. In 510, the range of the document content is selected by an underline, and the symbol “1a” is entered in the upper left. This apparatus detects the underline and the mark “1a” from such a stroke and registers it as annotation information.

業務フロー情報DB107の管理形式を、図6を用いて説明する。業務フロー情報は、それぞれの業務フローに固有に割り当てられる業務フローID601、業務フローの開始日時602と終了日時603、および業務フローに含まれる文書情報604の集合から構成される。業務フローに含まれる文書情報604は、該当する文書インスタンスID605、該当する業務フローID606、該業務フローにおいて該文書より先に作成もしくは利用される文書である親文書インスタンスのID606、該業務フローにおいて該文書より後に作成もしくは利用される文書である子文書インスタンスのID607から構成される。業務フロー内の文書情報の集合は、親子関係によって図6に示すようなネットワーク構造を持つ。   The management format of the business flow information DB 107 will be described with reference to FIG. The business flow information includes a business flow ID 601 that is uniquely assigned to each business flow, a business flow start date and time 602 and an end date and time 603, and a set of document information 604 included in the business flow. The document information 604 included in the business flow includes a corresponding document instance ID 605, a corresponding business flow ID 606, an ID 606 of a parent document instance that is a document created or used prior to the document in the business flow, and It consists of an ID 607 of a child document instance which is a document created or used after the document. A set of document information in the business flow has a network structure as shown in FIG.

対比注釈情報DB108の管理形式を、図7を用いて説明する。対比注釈情報は、検出されたそれぞれの対比注釈に固有に割り当てられる対比注釈ID701、対比注釈を構成する注釈のIDの組702、記入者が明示的に示した該対比注釈の評価値703、二つの注釈の被注釈文字列の間の共通語のリスト704、二つの注釈の被注釈文字列の間の差異語のリスト705、706から構成される。注釈710と注釈711の組は対比注釈の例である。注釈710は縦括弧によって範囲選択がされており、その左上に「1a」というマークが記入されている。注釈711は下線によって範囲選択がされており、その左上に「1a」というマークが記入されている。さらにこれらの注釈が記入された文書インスタンスは同一業務フローに属している。この時本装置は両注釈のマークが同一であることを検出し、その組を対比注釈として対比注釈DBに登録する。   The management format of the contrast annotation information DB 108 will be described with reference to FIG. The comparison annotation information includes a comparison annotation ID 701 that is uniquely assigned to each detected comparison annotation, a set of IDs 702 of annotations constituting the comparison annotation, an evaluation value 703 of the comparison annotation explicitly indicated by the writer, A common word list 704 between two commented character strings and a list of difference words 705 and 706 between two commented character strings. A set of the annotation 710 and the annotation 711 is an example of a contrast annotation. The range of the annotation 710 is selected by vertical brackets, and a mark “1a” is written at the upper left. The range of the annotation 711 is underlined, and a mark “1a” is written in the upper left. Furthermore, document instances with these annotations belong to the same business flow. At this time, this apparatus detects that the marks of both annotations are the same, and registers the set as a comparison annotation in the comparison annotation DB.

次に、ユーザがペンで文書に注釈を記入した時の情報登録処理を図8から図10を用いて説明する。まず情報登録処理の全体の流れを、図8を用いて説明する。ユーザ807がペンデバイス808を使って文書インスタンス809に記入した場合、クライアント801の記入データ読み込み部はペンデバイスからストロークの座標や時刻の情報を取得し、ストローク情報802を生成してサーバ803に送信する。この時ペンデバイスとしてペンタブレットやタブレットPCなどを用いてもよいし、Anotoデジタルペンのような紙に直接記入するペンデバイスを用いてもよい。サーバは送信されたストローク情報を受け取ると、ストローク情報登録部804においてストローク情報をストローク情報DBに登録し、次に注釈解析・登録部805においてストロークの形状を解析してその結果を注釈情報DBに登録する。最後に対比注釈登録部806において、同一業務フロー内の文書インスタンスに記入された注釈でマークが同じものを取得して対比注釈情報DBに登録する。これによってユーザが注釈を記入するたびに、どの部分に下線を引いたかなどという情報やユーザが明示的に示した注釈の対応関係が自動的にサーバに登録される。   Next, information registration processing when a user enters an annotation on a document with a pen will be described with reference to FIGS. First, the overall flow of the information registration process will be described with reference to FIG. When the user 807 fills in the document instance 809 using the pen device 808, the entry data reading unit of the client 801 acquires stroke coordinates and time information from the pen device, generates stroke information 802, and transmits it to the server 803. To do. At this time, a pen tablet, a tablet PC, or the like may be used as the pen device, or a pen device that directly fills in paper such as an Anoto digital pen may be used. When the server receives the transmitted stroke information, the stroke information registration unit 804 registers the stroke information in the stroke information DB, then the annotation analysis / registration unit 805 analyzes the shape of the stroke and stores the result in the annotation information DB. sign up. Finally, the comparison annotation registration unit 806 acquires the annotations with the same mark among the annotations entered in the document instances in the same business flow and registers them in the comparison annotation information DB. As a result, each time the user enters an annotation, information such as which part is underlined and the correspondence relationship of the annotation explicitly indicated by the user are automatically registered in the server.

情報登録処理における注釈解析・登録部のフローチャートを図9に示す。注釈解析・登録部は、ステップ901においてクライアントから送信されたストローク情報を受け取り、ステップ902において線や丸囲みなどストロークの形状を認識する。ステップ902において、下線や丸囲みなどあらかじめ設定された注釈形状が認識されれば、ステップ903の条件分岐によってステップ904に進む。もし注釈形状が認識されなかった場合は注釈解析・登録部が終了になる。ステップ904においては、ストロークの形状と文書内容の位置情報を比べ合わせ、注釈が覆っている範囲を検出する。例えば下線の場合は、下線の座標と文書テキストの座標から、どの文章に下線が引かれているかを検出する。ステップ905では注釈の識別子として記入された記号をマークとして検出する。ステップ906では注釈形状や注釈範囲およびマークの情報を注釈情報として注釈情報DBに登録する。   A flowchart of the annotation analysis / registration unit in the information registration process is shown in FIG. The annotation analysis / registration unit receives the stroke information transmitted from the client in step 901, and recognizes the shape of the stroke such as a line or a circle in step 902. In step 902, if a preset annotation shape such as an underline or a circle is recognized, the process proceeds to step 904 by a conditional branch in step 903. If the annotation shape is not recognized, the annotation analysis / registration unit ends. In step 904, the stroke shape is compared with the position information of the document content, and the range covered by the annotation is detected. For example, in the case of an underline, it is detected which sentence is underlined from the coordinates of the underline and the coordinates of the document text. In step 905, the symbol entered as the annotation identifier is detected as a mark. In step 906, the annotation shape, annotation range, and mark information are registered in the annotation information DB as annotation information.

情報登録処理における対比注釈登録部のフローチャートを図10に示す。対比注釈登録部は、ステップ1001において注釈解析・登録部で登録された注釈情報1を取得し、ステップ1002において注釈情報1が記入された文書インスタンスの情報を取得し、さらに該文書インスタンスが属する業務フローの情報を取得する。次にステップ1003において該業務フローに属する全ての文書インスタンスに記入された全ての注釈情報を取得し、ステップ1004でそれらの注釈情報の中からマークが注釈情報1と同一であるものを全て取得する。ステップ1005では注釈情報1とステップ1004で取得した注釈情報との組を対比注釈として対比注釈情報DBに登録する。ステップ1006ではユーザが記入した対比注釈に対する評価情報から、対比注釈の評価値を設定する。ここでの評価値記入方法は、例えば余白にマークの記号と評価記号を並べて記入することによって行うことができる。ここで、図21に示すように、評価記号が表す評価値については、評価記号と合わせて予め評価値DBに登録させておいてもよい。最後にステップ1007で対比注釈における二つの注釈の共通・差異語をテキスト処理によって抽出する。ここで共通・差異語抽出は、例えばまず注釈の被注釈文字列から一般的なテキスト処理によって特徴語を抽出し、それらが二つの注釈で共通に表れているか否かをみることによって実現できる。   FIG. 10 shows a flowchart of the contrast annotation registration unit in the information registration process. The contrast annotation registration unit acquires the annotation information 1 registered in the annotation analysis / registration unit in step 1001, acquires the information of the document instance in which the annotation information 1 is entered in step 1002, and the business to which the document instance belongs. Get flow information. Next, in step 1003, all annotation information entered in all document instances belonging to the business flow is acquired, and in step 1004, all annotations whose marks are the same as the annotation information 1 are acquired. . In step 1005, a set of the annotation information 1 and the annotation information acquired in step 1004 is registered in the comparison annotation information DB as a comparison annotation. In step 1006, the evaluation value of the contrast annotation is set from the evaluation information for the contrast annotation entered by the user. The evaluation value entry method here can be performed by, for example, entering a mark symbol and an evaluation symbol side by side in the margin. Here, as shown in FIG. 21, the evaluation value represented by the evaluation symbol may be registered in advance in the evaluation value DB together with the evaluation symbol. Finally, in step 1007, common / difference words of the two annotations in the contrast annotation are extracted by text processing. Here, the common / difference word extraction can be realized, for example, by first extracting feature words from the character string to be annotated by general text processing, and checking whether or not they appear in common in two annotations.

対比注釈登録部のステップ1006における評価記号記入方法の例を図11に示す。この例では文書インスタンス1101に注釈1103が、文書インスタンス1102に注釈1104が記入されており、これらはそれぞれ「1a」という同一のマークを持ち対比注釈として登録される。さらに文書インスタンス1102の余白には対比注釈の評価情報1105が記入されている。この時本装置はこのような記述を文字認識によって検出し、「1a」というマークに対して「x」という評価がされているとみなす。ここで評価記号xにあらかじめ割り当てた値を該対比注釈の評価値として設定する。また図11の例では「2b」というマークを持つ対比注釈に対しては評価記号yに対応する評価値を設定することになる。なお、ここでは文書の余白にマークの種類ごとにまとめて評価記号を記入したが、それぞれの注釈の側に個別に評価記号を書き込むような方式をとってもよい。この記入された記号に従って、評価値が登録される。登録される際に、評価値を図7にある通り数値で登録してもよい。このようにユーザの記入によって注釈の評価値を登録することで、注釈検索時に記入者の意図をより反映させて注釈の重要度を計算することができる。   An example of the evaluation symbol entry method in step 1006 of the contrast annotation registration unit is shown in FIG. In this example, an annotation 1103 is entered in the document instance 1101 and an annotation 1104 is entered in the document instance 1102, which have the same mark “1a” and are registered as contrast annotations. Further, the evaluation information 1105 of the contrast annotation is entered in the margin of the document instance 1102. At this time, the apparatus detects such a description by character recognition, and considers that the mark “1a” is evaluated as “x”. Here, a value assigned in advance to the evaluation symbol x is set as the evaluation value of the comparison annotation. In the example of FIG. 11, an evaluation value corresponding to the evaluation symbol y is set for the contrast annotation having the mark “2b”. Here, evaluation symbols are collectively written for each type of mark in the margin of the document. However, a method may be adopted in which evaluation symbols are individually written on the side of each annotation. An evaluation value is registered according to the entered symbol. When registered, the evaluation value may be registered numerically as shown in FIG. By registering the evaluation value of the annotation by the user's entry in this way, the importance of the annotation can be calculated more reflecting the intention of the writer when the annotation is searched.

上記の対比注釈に対する評価は、データベースに評価値が登録された後に変更することもできる。文書インスタンスへの追記による評価変更の例を図12に示す。この例では以前に余白に記入した評価記号に斜線を引き、その上に新たな評価記号を記入している。本装置はこの斜線および評価記号を文字認識により検出し、データベースの該当するマークに関する対比注釈の評価値を変更登録する。 また評価変更は文書インスタンスへの記入だけでなくPCの画面などからキーボード入力で行ってもよい。その例を図13に示す。本例では画面1301にある業務フローに属する文書インスタンスとそこに記入されたマークが表として表示されている。表の各欄には該当文書インスタンスに記入された該当マークに対する評価記号が表示されている。例えば文書D0032154には項目1aに対してXという評価記号が、項目2b、3c、4dに対してはYという評価記号が記入されていることを表している。またそれぞれの文書に対して全ての項目の評価記号が記入されるわけではなく、例えば文書D0032162には項目1aに関する評価記号が記入されていないため該当する欄が空白になっている。ユーザはPCの画面から各欄の値を変更することができ、その場合本装置は対比注釈情報DBに登録されている対応する対比注釈の評価値を修正する。図13の例では文書D0032154での項目1aに対する評価記号をXからYに修正しており、それに応じて対応する対比注釈情報の重要度が、評価記号Xに割り当てられた評価値2.0から評価記号Yに割り当てられた評価値1.0に変更されている。対比注釈登録ステップ1006における共通・差異語抽出部のフローチャートを図14に示す。共通・差異語抽出部は、ステップ1401において対象となる注釈情報1、2を取得し、ステップ1402においてそれぞれの注釈情報の被注釈文字列から特徴語を抽出する。この特徴語抽出は通常用いられるような辞書による方式やTF−IDFなどの単語出現頻度による方式などを用いて実現できる。次にステップ1403において抽出されたそれぞれの特徴語の中から両者の注釈に共通な語を共通語として対比注釈情報に登録する。またステップ1404においては注釈情報1の被注釈文字列における特徴語であり注釈情報2の被注釈文字列に出現しないものを差異語1として対比注釈情報に登録し、同様にステップ1405においては注釈情報2の被注釈文字列における特徴語であり注釈情報1の被注釈文字列に出現しないものを差異語2として対比注釈情報に登録する。これらの共通語や差異語はテキスト検索におけるキーとなるが、対比注釈における二つの注釈の関係を特徴づけるものとしても有用である。   The evaluation for the above comparison annotation can be changed after the evaluation value is registered in the database. FIG. 12 shows an example of evaluation change by adding to a document instance. In this example, the evaluation symbol previously entered in the margin is hatched, and a new evaluation symbol is entered thereon. The apparatus detects the oblique lines and the evaluation symbols by character recognition, and changes and registers the evaluation value of the contrast annotation for the corresponding mark in the database. The evaluation change may be performed not only by filling in the document instance but also by keyboard input from a PC screen or the like. An example is shown in FIG. In this example, the document instances belonging to the business flow on the screen 1301 and the marks entered therein are displayed as a table. In each column of the table, an evaluation symbol for the corresponding mark entered in the corresponding document instance is displayed. For example, the document D0032154 indicates that the evaluation symbol X is entered for the item 1a, and the evaluation symbol Y is entered for the items 2b, 3c, and 4d. Further, not all the evaluation symbols for each item are entered for each document. For example, since the evaluation symbol for the item 1a is not entered in the document D0032162, the corresponding column is blank. The user can change the value of each column from the screen of the PC. In this case, the apparatus corrects the evaluation value of the corresponding contrast annotation registered in the contrast annotation information DB. In the example of FIG. 13, the evaluation symbol for the item 1a in the document D0032154 is corrected from X to Y, and the importance of the corresponding contrast annotation information is changed from the evaluation value 2.0 assigned to the evaluation symbol X accordingly. The evaluation value assigned to Y has been changed to 1.0. FIG. 14 shows a flowchart of the common / difference word extraction unit in the contrast annotation registration step 1006. The common / difference word extraction unit acquires the target annotation information 1 and 2 in step 1401, and in step 1402 extracts the feature word from the annotation target character string of each annotation information. This feature word extraction can be realized using a dictionary-based method or a method based on word appearance frequency such as TF-IDF. Next, in each of the feature words extracted in step 1403, a word common to both annotations is registered in the comparison annotation information as a common word. In step 1404, a characteristic word in the character string to be annotated in the annotation information 1 and not appearing in the character string to be annotated in the annotation information 2 is registered in the contrast annotation information as a difference word 1. Similarly, in step 1405, the annotation information A feature word in the character string to be annotated 2 that does not appear in the character string to be annotated in the annotation information 1 is registered in the contrast annotation information as a difference word 2. These common words and difference words are key in text search, but are also useful for characterizing the relationship between two annotations in contrast annotations.

以上が手書き情報登録部の処理の流れである。手書き情報登録部の結果としてどのような文書に下線や丸囲みを記入したかを表す注釈情報や、記入者はどの部分が関係深いと考えているかを表す対比注釈情報が得られる。これらの情報によって、検索において単純なテキストの類似性を比べるだけでは得られない効果が得られることが期待できる。その例を図15で示す。
3つの文書の部分1501、1502、1503の内容を見ると、これらの内容はそれぞれ類似性が高いにもかかわらず、1501と1502は「特徴語」「抽出」という共通単語を含むので類似性が高いとみなされるが、1503は共通単語を含まないのでこれら二つの文書とは類似性が低いとみなされてしまう。よって例えば「特徴語」というキーワードで検索した場合1501、1502は取得できるが1503は取得できない。一方本発明のように手書き注釈から文書間の対応付けを見つけ出しておけば、もし1504、1505、1506に関連性があると誰かが注釈を記入していた場合には、テキスト内容の類似性に関係なくこれらの文書間の関係を取得することができる。そのような手書き注釈は記入者が判断して記入したものなので、それらが実際に関係深い可能性は高いといえる。このような状態では、例えば「特徴語」というキーワードで検索した場合1504、1505だけでなく1506の文書もこの対応関係をもとに取得することができる。このように、本発明による手法によって表記のゆれや語句の違いがあったとしても、作業者の過去の思考・知識を利用して検索を効率化できる効果が得られる。 次に、ユーザがサーバで管理されている注釈情報を検索する処理を図16から図20を用いて説明する。
The above is the process flow of the handwritten information registration unit. As a result of the handwritten information registration unit, annotation information indicating what kind of document is underlined or circled, and contrast annotation information indicating which part the writer considers to be relevant are obtained. It can be expected that such information provides an effect that cannot be obtained by simply comparing the similarity of simple texts in a search. An example is shown in FIG.
Looking at the contents of the three document parts 1501, 1502, and 1503, although these contents are highly similar to each other, 1501 and 1502 include the common words “feature word” and “extracted”, so the similarity is high. Although it is considered high, 1503 does not include a common word, so it is considered that the similarity between these two documents is low. Therefore, for example, when searching with the keyword “feature word”, 1501 and 1502 can be acquired, but 1503 cannot be acquired. On the other hand, if a correspondence between documents is found from handwritten annotations as in the present invention, if someone has written an annotation that is related to 1504, 1505, 1506, the similarity of text contents The relationship between these documents can be obtained regardless. Since such handwritten annotations are entered by the writer, it is highly likely that they are actually related. In such a state, for example, when searching with the keyword “characteristic word”, not only 1504 and 1505 but also the document 1506 can be acquired based on this correspondence. As described above, even if there is a notation fluctuation or a phrase difference by the method according to the present invention, an effect that the search can be made efficient by utilizing the past thoughts / knowledge of the worker can be obtained. Next, a process for searching for annotation information managed by the server by the user will be described with reference to FIGS.

まず検索処理の全体の流れを、図16を用いて説明する。ユーザがクライアントの注釈検索部に検索クエリー1601を入力すると、注釈検索部はその検索クエリーをサーバに送信する。検索クエリーはキーワードとなる単語列で構成される。サーバは検索クエリーを受け取ると、まずキーワードによる注釈検索部1602によって検索クエリーの単語列に含まれる単語を被注釈文字列に含むような注釈情報を全て取得する。次に注釈評価部1603において、それぞれの注釈の重要度およびこれらの注釈と対応関係にある注釈の重要度を計算する。最後に検索結果生成部1604において、キーワードによる注釈検索部1602によって得られた注釈情報を注釈評価部1603において得られた重要度の順に並べ直し、その上位N件のリスト1605を検索結果としてクライアントに送信する。クライアントは検索結果を受け取ると、注釈の形状や文書の内容を含めて注釈情報を画面にリスト表示する。ここで注釈評価部ではユーザの評価や時間の情報などテキストの情報以外を用いて重要度を計算しており、単なるキーワードによる類似性では得られなかった関連性に関する情報を取得することができる。   First, the overall flow of the search process will be described with reference to FIG. When the user inputs a search query 1601 to the annotation search unit of the client, the annotation search unit transmits the search query to the server. The search query is composed of a word string as a keyword. When the server receives the search query, the annotation search unit 1602 by keyword first acquires all the annotation information that includes the word included in the word string of the search query in the character string to be annotated. Next, the annotation evaluation unit 1603 calculates the importance of each annotation and the importance of the annotation corresponding to these annotations. Finally, the search result generation unit 1604 rearranges the annotation information obtained by the keyword-based annotation search unit 1602 in the order of importance obtained by the annotation evaluation unit 1603, and sends the top N list 1605 to the client as a search result. Send. When the client receives the search result, the client displays a list of annotation information including the shape of the annotation and the content of the document. Here, the annotation evaluation unit calculates importance by using information other than text information such as user evaluation and time information, and can acquire information related to relevance that cannot be obtained by similarity based on keywords.

上記検索処理における注釈評価部のフローチャートを図17に示す。注釈評価部は、ステップ1701において重要度を計算する対象となる注釈情報を受け取り、ステップ1702において該注釈情報の重要度を計算する。ここで注釈情報の重要度は検索キーワードと被注釈文字列との類似度をもとに計算してもよいし、さらに対比注釈を優先的に検索したい場合は該注釈情報を含む対比注釈情報の数が多いものの重要度を高くするようにしてもよい。また検索者が人や日時の条件を指定して、それらの条件に近い記入者や記入日時を持つ注釈情報の重要度を高めるようにしてもよく、それによって関係の深い人や期間に記入されたものを優先的に検索するといったことも可能になる。具体的な重要度計算方法の例を示すと、検索キーワードと被注釈文字列との類似度をコサイン距離で計算した値をd、該注釈情報を含む対比注釈情報の数をn、該注釈情報の記入時刻をt1、検索条件として指定された日時をt2、該注釈情報の記入者のユーザIDをu1、検索条件として指定されたユーザのIDをu2として、該注釈情報の重要度を適当な係数a1〜a4を定めてa1×d+a2×n+a3×|t1―t2|+a4×eq(u1,u2)という式で計算することができる。ここで関数eqは二つの引数が等しい場合は1を、そうでない場合は0を返すとする。重要度計算では上記の方法以外に、検索キーワードと被注釈文字列との類似度をコサイン距離以外の方法で求めることもできるし、重要度の計算式を単純な足し合わせではなく2次関数や平方根などのより複雑な計算式を用いることもできる。次にステップ1703において該注釈情報を含む対比注釈情報を全て取得し、最後にステップ1704において、ステップ1703で取得した対比注釈情報に含まれる全ての注釈情報の重要度を計算する。ここでこれらの注釈情報の重要度はステップ1702で計算した重要度をもとに計算するが、さらに対比注釈の評価値などを加味してもよい。また対比注釈の共通語・差異語の性質を重要度計算に反映させてもよい。例えば検索者が指定した検索キーワードが対比注釈の共通語に含まない場合に重要度を高めてもよく、これによって検索者が指定した検索キーワードの内容と関係が深いと記入者が判断したにも関わらず検索キーワードを直接含んでいないためにステップ1702において重要度が低くなってしまうような部分の重要度を高めることができる。このような計算の具体的な方法の例を示すと、ステップ1702で計算した注釈情報の重要度をv、対比注釈の評価値をe、検索キーワードと対比注釈の共通語との間に共通の単語が含まれているかどうかを現す値をc(共通単語が含まれていればc=0、そうでなければc=1)として、該注釈情報の重要度を適当な係数b1〜b3を定めてb1×v+b2×e+b3×cという式で計算することができる。また対比注釈の差異語の量が多い場合に重要度を高くしてもよく、これによってもステップ1702における単純なテキスト検索では重要度が低くなってしまうような部分の重要度を高める効果が得られる。これによって、テキスト検索で引っかかった注釈だけでなく、記入者がそれらと関係があると判断した注釈も検索結果に含めることができる。   A flowchart of the annotation evaluation unit in the search process is shown in FIG. The annotation evaluation unit receives the annotation information for which importance is calculated in step 1701, and calculates the importance of the annotation information in step 1702. Here, the importance of the annotation information may be calculated based on the similarity between the search keyword and the character string to be annotated, and when the comparison annotation is to be searched preferentially, the comparison annotation information including the annotation information is included. You may make it raise the importance of what has many numbers. Also, the searcher may specify the person and date and time conditions so that the importance of the writer who fills in those conditions and the annotation information having the date and time of entry may be increased. It is also possible to search for items preferentially. As an example of a specific importance calculation method, a value obtained by calculating the similarity between a search keyword and a character string to be annotated by a cosine distance is d, the number of contrast annotation information including the annotation information is n, the annotation information The time of entry is t1, the date and time specified as the search condition is t2, the user ID of the person who entered the annotation information is u1, and the user ID specified as the search condition is u2, and the importance of the annotation information is set appropriately. The coefficients a1 to a4 can be determined and calculated using the formula: a1 × d + a2 × n + a3 × | t1−t2 | + a4 × eq (u1, u2). Here, the function eq returns 1 if the two arguments are equal, and 0 otherwise. In the importance calculation, in addition to the above method, the similarity between the search keyword and the character string to be annotated can be obtained by a method other than the cosine distance, and the importance calculation formula is not a simple addition but a quadratic function or A more complicated calculation formula such as a square root can also be used. Next, in step 1703, all the comparison annotation information including the annotation information is acquired. Finally, in step 1704, the importance levels of all the annotation information included in the comparison annotation information acquired in step 1703 are calculated. Here, the importance of the annotation information is calculated based on the importance calculated in step 1702, but an evaluation value of a comparison annotation may be further added. Moreover, you may reflect the characteristic of the common word / difference word of contrast annotation in importance calculation. For example, when the search keyword specified by the searcher is not included in the common words of the contrast annotation, the importance may be increased, and even if the writer determines that the search keyword specified by the searcher is closely related to the content of the search keyword Regardless, since the search keyword is not directly included, it is possible to increase the importance of the portion whose importance is lowered in step 1702. An example of a specific method of such calculation is as follows. The importance of the annotation information calculated in step 1702 is v, the evaluation value of the comparison annotation is e, and the common word between the search keyword and the common word of the comparison annotation is shown. The value indicating whether or not a word is included is c (c = 0 if a common word is included, c = 1 otherwise), and the importance of the annotation information is determined by appropriate coefficients b1 to b3. B1 × v + b2 × e + b3 × c. Also, the importance may be increased when the amount of difference words in the contrast annotation is large, and this also has the effect of increasing the importance of the portion that becomes less important in the simple text search in Step 1702. It is done. As a result, not only the annotation caught in the text search but also the annotation that the writer has determined to be related to them can be included in the search result.

最後に検索結果の出力形態の例を図18に示す。ここでは注釈の重要度の順番に、注釈付近の文書内容をリスト表示している。さらに対比注釈がある場合には対応付けられた注釈も並べて表示することで、どのような意図でその注釈が付けられたかを分かりやすくしている。この例では「アルミニウム」と「混合」という検索キーワードで検索を実行している。この検索キーワードを受け取ると、サーバの注釈検索部1602でキーワード検索によって注釈情報1804、1805、1806が抽出され、注釈評価部のステップ1702においてその重要度が計算される。さらに注釈評価部のステップ1703、1704によって対比注釈によってそれらと関係付けられた注釈情報1807、1808が抽出されてそれらの重要度も計算される。そして検索結果生成部1604において、対比注釈によって関係付けられた注釈情報があるならばそれらをペアにして、抽出された注釈情報の重要度の高い順に並び替えて出力する。検索結果を見ると、注釈情報1807には「アルミニウム」「混合」という単語は含まれていないにも関わらず、関係のある内容であると判断されて検索できている。   Finally, an example of the output form of the search result is shown in FIG. Here, the document contents near the annotation are displayed in a list in order of the importance of the annotation. Furthermore, when there are contrast annotations, the associated annotations are also displayed side by side, so that it is easy to understand the purpose of the annotation. In this example, the search is performed using the search keywords “aluminum” and “mixed”. When this search keyword is received, annotation information 1804, 1805, 1806 is extracted by keyword search in the annotation search unit 1602 of the server, and its importance is calculated in step 1702 of the annotation evaluation unit. Further, annotation information 1807 and 1808 related to them by contrast annotation are extracted by steps 1703 and 1704 of the annotation evaluator, and their importance is calculated. Then, in the search result generation unit 1604, if there are annotation information related by the comparison annotation, they are paired, and the extracted annotation information is rearranged in descending order of importance and output. Looking at the search results, although the annotation information 1807 does not include the words “aluminum” and “mixed”, it is determined that the content is related and the search is possible.

本検索機能によって、表記のゆれに強い検索が実現できることを図19の例を用いて説明する。図19は「パーソナルコンピューター」という検索キーワードで注釈検索を実行した結果を表している。二つの検索結果はそれぞれ「パーソナルコンピューター」という単語を含む注釈であるが、それぞれに対比注釈によって関係づけられている注釈は「個人用計算機」、「ワードプロセッサー」と「パーソナルコンピューター」という単語が含まれていないものが表示されている。これらの単語は類義語であり関連性が高いのはもちろんであるが、従来のテキスト検索では検索結果として出力することはできなかった。本手法では過去にこれらの関連性に注目した人がいれば、これらの関係性を取得することができる。   The fact that a search resistant to the fluctuation of the notation can be realized by this search function will be described with reference to the example of FIG. FIG. 19 shows the result of executing an annotation search with the search keyword “personal computer”. The two search results are annotations that each contain the word “personal computer”, but the annotations that are related to each other by contrast annotations include the words “personal computer”, “word processor”, and “personal computer”. What is not displayed. Of course, these words are synonyms and highly related, but the conventional text search could not be output as a search result. In this method, if there is a person who has paid attention to these relationships in the past, these relationships can be acquired.

また検索結果をリスト表示ではなく、文書をノード、対比注釈関係をエッジとするグラフ構造で表示する検索結果出力例を図20に示す。ここでは、ユーザによって入力された評価値に基き、類似性が高い場合にはエッジを短くしてノード間の距離を短くして表示してもよい。図12,13で示したような注釈の訂正があった場合には、重要度に応じたリンク付けの表示を変えた表示にしなおしてもよい。このような表示方法によって、各注釈間の関係をより簡潔に概観することが可能になる。   FIG. 20 shows an example of a search result output in which the search result is displayed not in a list but in a graph structure in which a document is a node and a contrast annotation relation is an edge. Here, based on the evaluation value input by the user, when the similarity is high, the edge may be shortened and the distance between the nodes may be shortened. When the annotation is corrected as shown in FIGS. 12 and 13, the display of linking according to the importance may be changed to a different display. Such a display method allows a more concise overview of the relationship between annotations.

本発明の実施形態である情報管理装置10の構成図である。It is a lineblock diagram of information management device 10 which is an embodiment of the present invention. 同情報管理装置10におけるユーザ情報DB103の情報格納形式である。This is an information storage format of the user information DB 103 in the information management apparatus 10. 同情報管理装置10における文書情報DB104の情報格納形式である。This is an information storage format of the document information DB 104 in the information management apparatus 10. 同情報管理装置10におけるストローク情報DB105の情報格納形式である。This is the information storage format of the stroke information DB 105 in the information management apparatus 10. 同情報管理装置10における注釈情報DB106の情報格納形式である。This is an information storage format of the annotation information DB 106 in the information management apparatus 10. 同情報管理装置10における業務フロー情報DB107の情報格納形式である。This is the information storage format of the business flow information DB 107 in the information management apparatus 10. 同情報管理装置10における対比注釈情報DB108の情報格納形式である。This is an information storage format of the comparison annotation information DB 108 in the information management apparatus 10. 同情報管理装置10における記入データ登録処理の全体の流れを示す図である。3 is a diagram showing an overall flow of entry data registration processing in the information management apparatus 10; FIG. 記入データ登録処理における注釈解析・登録部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the annotation analysis and registration part in an entry data registration process. 記入データ登録処理における対比注釈登録部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the contrast annotation registration part in an entry data registration process. 対比注釈情報に対する評価記号の記入例を示す図である。It is a figure which shows the example of entry of the evaluation symbol with respect to contrast annotation information. 対比注釈情報に対する評価記号を手書きによって訂正する例を示す図である。It is a figure which shows the example which corrects the evaluation symbol with respect to contrast annotation information by handwriting. 対比注釈情報に対する評価記号をPC画面から訂正する例を示す図である。It is a figure which shows the example which corrects the evaluation symbol with respect to contrast annotation information from a PC screen. 対比注釈登録部における共通・差異語抽出部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the common / difference word extraction part in a contrast annotation registration part. 対比注釈情報を管理することによる効果を説明する図である。It is a figure explaining the effect by managing contrast annotation information. 情報管理装置10における注釈情報検索処理の全体の流れを示す図である。FIG. 4 is a diagram showing an overall flow of annotation information search processing in the information management apparatus 10. 注釈情報検索処理における注釈評価部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the annotation evaluation part in an annotation information search process. 注釈情報検索処理における検索結果のリストによる出力例を示す図である。It is a figure which shows the example output by the list of the search result in an annotation information search process. 対比注釈を管理することによる注釈情報検索に対する効果を説明する図である。It is a figure explaining the effect with respect to the annotation information search by managing a contrast annotation. 注釈情報検索処理における検索結果のグラフ構造による出力例を示す図である。It is a figure which shows the example of an output by the graph structure of the search result in an annotation information search process. 情報管理装置10の評価値DB130の情報格納形式である。This is an information storage format of the evaluation value DB 130 of the information management apparatus 10.

符号の説明Explanation of symbols

10…情報管理システム、101…情報管理サーバ、102…情報管理クライアント、103…ユーザ情報DB、104…文書情報DB、105…ストローク情報DB、106…注釈情報DB、107…注釈登録部、108…注釈検索処理部、109…注釈検索部、110…記入データ読み込み部、111…ペンデバイス。   DESCRIPTION OF SYMBOLS 10 ... Information management system, 101 ... Information management server, 102 ... Information management client, 103 ... User information DB, 104 ... Document information DB, 105 ... Stroke information DB, 106 ... Annotation information DB, 107 ... Annotation registration part, 108 ... Annotation search processing unit 109... Annotation search unit 110... Entry data reading unit 111.

Claims (14)

文書に対し手書きされた手書き情報を電子的に取得する手段と、
取得された前記手書き情報から、対象の文章の範囲と当該文章へのマークを抽出し注釈情報データベースに登録する注釈情報解析手段と、
前記手書き情報を取得したのと同じ業務フロー内で取得した、前記手書き情報とは異なる手書き情報であって、前記マークに対応するマークが手書きされている文書から対象の文章の範囲を抽出し、対比注釈として対比注釈情報データベースに登録する対比注釈登録部とを有し、
前記対比注釈登録部は、対応するマークが手書きされている文書中の対象の文章の範囲同士で、共通語及び差異語を抽出して対比注釈情報データベースに登録することを特徴とする文書管理システム。
Means for electronically acquiring handwritten information handwritten on a document;
An annotation information analysis means for extracting a range of a target sentence and a mark to the sentence from the acquired handwritten information and registering it in an annotation information database;
It is handwritten information different from the handwritten information acquired in the same business flow as the handwritten information is acquired, and extracts a range of a target sentence from a document in which a mark corresponding to the mark is handwritten, A comparison annotation registration unit for registering in the comparison annotation information database as a comparison annotation;
The comparison annotation registration unit extracts a common word and a difference word from a range of target sentences in a document in which a corresponding mark is handwritten, and registers it in a comparison annotation information database. .
請求項1に記載の文書管理システムであって、前記対比注釈登録部は、前記手書き情報から、対比注釈に対する評価情報を取得して、前記対比注釈データベースに登録することを特徴とする文書管理システム。   The document management system according to claim 1, wherein the comparison annotation registration unit acquires evaluation information for the comparison annotation from the handwritten information, and registers the evaluation information in the comparison annotation database. . 請求項2に記載の文書管理システムであって、さらに、前記対比注釈に対する評価情報として、手書きされる評価記号とその評価値の組合せが登録された評価値データベースを有することを特徴とする文書管理システム。   3. The document management system according to claim 2, further comprising an evaluation value database in which a combination of handwritten evaluation symbols and evaluation values is registered as evaluation information for the comparison annotation. system. 請求項3に記載の文書管理システムであって、前記共通語及び差異語の抽出は、それぞれの文章における特徴語を抽出し、特徴語同士を比較することにより抽出することを特徴とする文書管理システム。   The document management system according to claim 3, wherein the common word and the difference word are extracted by extracting feature words in each sentence and comparing the feature words. system. 請求項2に記載の文書管理システムであって、前記対比注釈登録部は、文書に対し記入された評価情報が変更された場合には、変更を前記対比注釈データベースに登録することを特徴とする文書管理システム。   3. The document management system according to claim 2, wherein the comparison annotation registration unit registers the change in the comparison annotation database when the evaluation information entered for the document is changed. Document management system. 請求項2に記載の文書管理システムであって、前記対比注釈データベースに登録された前記評価情報を変更するインターフェースを有することを特徴とする文書管理システム。   3. The document management system according to claim 2, further comprising an interface for changing the evaluation information registered in the contrast annotation database. 電子的に取得された文書への手書き情報であって、対象の文章の範囲と当該文章へのマークが登録された注釈情報データベースと、
前記手書き情報を取得したのと同じ業務フロー内で取得した、前記手書き情報とは異なる情報であって、前記マークに対応するマークが手書きされている文書から抽出された対象の文章の範囲が対比注釈として登録された対比注釈情報データベースと、
キーワードの入力を受け付ける手段と、
入力された前記キーワードを含む文章を前記注釈情報データベースから検索する注釈検索部と、
前記検索部によって検索された文章とその文章に対応する対比注釈が登録されている文章とを前記対比注釈情報データベースから抽出し、前記対比注釈の重要度を計算する注釈評価部と、
前記注釈評価部によって計算された重要度に基づいて、抽出された文章への手書き情報を表示する表示手段と、を有し、
前記対比注釈情報データベースは、対比注釈として、対応するマークが手書きされている文書中の対象の文章の範囲同士で抽出された共通語及び差異語が登録されることを特徴とする検索システム。
Annotation information database that is handwritten information on an electronically acquired document, in which the range of the target sentence and the mark on the sentence are registered,
The range of the target sentence extracted from the document in which the mark corresponding to the mark is handwritten and is different from the handwritten information acquired in the same business flow from which the handwritten information is acquired is compared. A contrast annotation information database registered as an annotation;
Means for accepting keyword input;
An annotation search unit that searches the annotation information database for a sentence including the input keyword;
An annotation evaluation unit that extracts a sentence searched by the search unit and a sentence in which a comparison annotation corresponding to the sentence is registered from the comparison annotation information database, and calculates the importance of the comparison annotation;
Display means for displaying handwritten information on the extracted text based on the importance calculated by the annotation evaluation unit,
In the comparison annotation information database, a common word and a difference word extracted between ranges of a target sentence in a document in which a corresponding mark is handwritten are registered as a comparison annotation.
請求項7に記載の検索システムにおいて、前記重要度は、前記キーワードと前記文章の範囲における文字列との類似度であることを特徴とする検索システム。   The search system according to claim 7, wherein the importance is a similarity between the keyword and a character string in a range of the sentence. 請求項7に記載の検索システムにおいて、前記重要度は、前記対比注釈の情報量の多さであることを特徴とする検索システム。   The search system according to claim 7, wherein the importance is a large amount of information of the comparison annotation. 請求項7に記載の検索システムにおいて、前記重要度は、前記業務フローの手書き入力者、日時の少なくとも一つ以上に基づくことを特徴とする検索システム。   The search system according to claim 7, wherein the importance is based on at least one of a handwritten input person and a date and time of the business flow. 請求項7に記載の検索システムにおいて、前記対比注釈情報データベースは、前記手書き情報から取得された前記対比注釈に対する評価情報を有し、前記注釈評価部は、前記評価情報の重要度に基いて抽出された文章の組を並べ替え、前記表示手段に前記並べ替えの順で前記手書き情報を表示することを特徴とする検索システム。   8. The search system according to claim 7, wherein the comparison annotation information database has evaluation information for the comparison annotation acquired from the handwritten information, and the annotation evaluation unit extracts based on importance of the evaluation information. A search system, wherein the set of written sentences is rearranged, and the handwritten information is displayed on the display means in the order of the rearrangement. 請求項7に記載の検索システムにおいて、
前記重要度は、前記キーワードが前記共通語に含まれるか否かの値又は差異語の多さであることを特徴とする検索システム。
The search system according to claim 7,
The importance is the value of whether or not the keyword is included in the common word or the number of different words.
請求項7に記載の検索システムにおいて、前記対比注釈情報データベースは、前記手書き情報から取得された前記対比注釈に対する評価情報を有し、前記表示手段は、前記評価情報に基いて複数の前記手書き情報の組を2次元配置することを特徴とする検索システム。   8. The search system according to claim 7, wherein the comparison annotation information database has evaluation information for the comparison annotation acquired from the handwritten information, and the display means includes a plurality of the handwritten information based on the evaluation information. A search system characterized by arranging two sets in a two-dimensional manner. 検索キーワード入力手段、検索手段、表示手段、データベースを用いた検索方法であって、
前記データベースは、
電子的に取得された文書への手書き情報であって、対象の文章の範囲と当該文章へのマークが登録された注釈情報データベースと、
前記手書き情報を取得したのと同じ業務フロー内で取得した、前記手書き情報とは異なる情報であって、前記マークに対応するマークが手書きされている文書から抽出された対象の文章の範囲が対比注釈として登録された対比注釈情報データベースとを有し、
前記入力手段が検索キーワードの入力を受け付け、
前記検索手段が、
入力された前記キーワードを含む文章を前記注釈情報データベースから検索し、検索された文章とその文章に対応する対比注釈が登録されている文章とを前記対比注釈情報データベースから抽出し、前記対比注釈の重要度を計算し、
前記表示部が、計算された重要度に基づいて、抽出された文章への手書き情報を表示し、
前記対比注釈情報データベースは、対比注釈として、対応するマークが手書きされている文書中の対象の文章の範囲同士で抽出された共通語及び差異語が登録されることを特徴とする検索方法
Search keyword input means, search means, display means, a search method using a database,
The database is
Annotation information database that is handwritten information on an electronically acquired document, in which the range of the target sentence and the mark on the sentence are registered,
The range of the target sentence extracted from the document in which the mark corresponding to the mark is handwritten and is different from the handwritten information acquired in the same business flow from which the handwritten information is acquired is compared. A comparative annotation information database registered as annotations,
The input means accepts input of a search keyword,
The search means
A sentence including the input keyword is searched from the annotation information database, and the searched sentence and a sentence in which a comparison annotation corresponding to the sentence is registered are extracted from the comparison annotation information database. Calculate importance,
The display unit displays handwritten information on the extracted sentence based on the calculated importance,
The search method according to claim 1, wherein the comparison annotation information database registers, as a comparison annotation, a common word and a difference word extracted between ranges of a target sentence in a document in which a corresponding mark is handwritten.
JP2007267345A 2007-10-15 2007-10-15 Handwritten annotation management device and interface Expired - Fee Related JP5205028B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007267345A JP5205028B2 (en) 2007-10-15 2007-10-15 Handwritten annotation management device and interface

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007267345A JP5205028B2 (en) 2007-10-15 2007-10-15 Handwritten annotation management device and interface

Publications (2)

Publication Number Publication Date
JP2009098763A JP2009098763A (en) 2009-05-07
JP5205028B2 true JP5205028B2 (en) 2013-06-05

Family

ID=40701733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007267345A Expired - Fee Related JP5205028B2 (en) 2007-10-15 2007-10-15 Handwritten annotation management device and interface

Country Status (1)

Country Link
JP (1) JP5205028B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5422268B2 (en) * 2009-06-19 2014-02-19 株式会社日立製作所 Document management system and document management method using digital pen
JP5444946B2 (en) * 2009-08-26 2014-03-19 富士ゼロックス株式会社 WRITING INFORMATION PROCESSING DEVICE, WRITING INFORMATION PROCESSING SYSTEM, AND PROGRAM
JP5683817B2 (en) * 2010-01-07 2015-03-11 レノボ・イノベーションズ・リミテッド(香港) Portable transmission terminal, portable reception terminal, and portable transmission / reception system
JP5353872B2 (en) * 2010-12-21 2013-11-27 カシオ計算機株式会社 Information display device and information display program
JP2014032632A (en) 2012-08-06 2014-02-20 Toshiba Corp Electronic apparatus, method, and program
JP6303669B2 (en) * 2014-03-19 2018-04-04 大日本印刷株式会社 Document retrieval device, document retrieval system, document retrieval method, and program
WO2017149711A1 (en) * 2016-03-02 2017-09-08 株式会社日立製作所 Document management device and document management method
JP6439738B2 (en) * 2016-04-18 2018-12-19 カシオ計算機株式会社 Image processing apparatus and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4192729B2 (en) * 2002-09-16 2008-12-10 富士ゼロックス株式会社 Method for highlighting free-form annotation, annotation highlighting device, and program for highlighting free-form annotation
JP2005182460A (en) * 2003-12-19 2005-07-07 Canon Inc Information processor, annotation processing method, information processing program, and recording medium having information processing program stored therein
JP2006301695A (en) * 2005-04-15 2006-11-02 Fuji Xerox Co Ltd Document processing device and program

Also Published As

Publication number Publication date
JP2009098763A (en) 2009-05-07

Similar Documents

Publication Publication Date Title
CN109992645B (en) Data management system and method based on text data
JP5205028B2 (en) Handwritten annotation management device and interface
US9323731B1 (en) Data extraction using templates
US7519900B2 (en) System and method for processing digital annotations
US10423697B2 (en) User interface with navigation controls for the display or concealment of adjacent content
JP4682284B2 (en) Document difference detection device
US20070047816A1 (en) User Interface for Mixed Media Reality
US20080195657A1 (en) Context-based community-driven suggestions for media annotation
US20140245121A1 (en) Creating and Switching a View of a Collection Including Image Data and Symbolic Data
JP2000222394A (en) Document managing device and method and recording medium for recording its control program
Ugale et al. Document management system: A notion towards paperless office
CN104123269A (en) Semi-automatic publication generation method and system based on template
Stoffel et al. Enhancing document structure analysis using visual analytics
US9558400B2 (en) Search by stroke
CN114064851A (en) Multi-machine retrieval method and system for government office documents
WO2008041367A1 (en) Document searching device, document searching method, document searching program
CN114023414A (en) Physical examination report multi-level structure input method, system and storage medium
KR20120058544A (en) Image element searching
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents
JP7086424B1 (en) Patent text generator, patent text generator, and patent text generator
JP5550959B2 (en) Document processing system and program
JP2000020549A (en) Device for assisting input to document database system
CN104516941A (en) Related document search apparatus and method, and program
JP7377565B2 (en) Drawing search device, drawing database construction device, drawing search system, drawing search method, and program
Mitocaru et al. The Lib2Life Platform-Processing, Indexing and Semantic Search for Old Romanian Documents.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees