JP6277921B2 - 用語集管理装置および用語集管理プログラム - Google Patents

用語集管理装置および用語集管理プログラム Download PDF

Info

Publication number
JP6277921B2
JP6277921B2 JP2014194569A JP2014194569A JP6277921B2 JP 6277921 B2 JP6277921 B2 JP 6277921B2 JP 2014194569 A JP2014194569 A JP 2014194569A JP 2014194569 A JP2014194569 A JP 2014194569A JP 6277921 B2 JP6277921 B2 JP 6277921B2
Authority
JP
Japan
Prior art keywords
character string
glossary
unit
extracted character
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014194569A
Other languages
English (en)
Other versions
JP2016066233A (ja
Inventor
雄一 大林
雄一 大林
知佳 辻
知佳 辻
克洋 實
克洋 實
中村 剛
中村  剛
高志 野村
高志 野村
淳平 ▲高▼木
淳平 ▲高▼木
吉田 大輔
大輔 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2014194569A priority Critical patent/JP6277921B2/ja
Priority to CN201510607171.5A priority patent/CN105468581B/zh
Priority to US14/862,981 priority patent/US9529792B2/en
Publication of JP2016066233A publication Critical patent/JP2016066233A/ja
Application granted granted Critical
Publication of JP6277921B2 publication Critical patent/JP6277921B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)

Description

本発明は、用語集の作成に用いる用語集管理装置および用語集管理プログラムに関する。
従来から、国語や外国語の学習では、多読が有効な手段の一つとされている。そして現在では、学習のために、インターネットなどから多くの文章を入手し読むことが出来る。
しかし、インターネットから入手した文章などは、特定のレベルの学習者を対象として作成された文章ではないため、そのままでは語学学習に適しているとは言えなかった。
そのため、例えば、特許文献1において開示された技術では、英語の単語や熟語、言い回しごとに、ユーザーが習得済みのものであれば「習得」の属性を付け、次に習得すべきものであれば「習得中」の属性を付ける。そして、入手した英文を平易な英文に変換する時に、学習を目的とする英文に変換する場合は、「習得」および「習得済」の語に変換する。また、内容の理解を目的とする英文に変換する場合は、「習得済」の語のみを用いて変換する。
特開2013−72973号公報
しかし、特許文献1の技術では、英語の単語や熟語を収集しデータベースに登録する作業は人が行わなければならず、非常に手間のかかるものであった。
以上のような事情に鑑み、本発明の目的は、用語集に登録する文字列を収集する手間を低減でき、用語集の使用目的に沿った用語を収集できる用語集管理装置および用語集管理プログラムを提供することにある。
上記目的を達成するため、本発明の一形態に係る用語集管理装置は、文書を読み取る読み取り部および前記文書を出力する出力部の少なくとも一方と、前記文書から抽出された文字列により構成される用語集を記憶可能な記憶部と、ユーザーが前記文書の読み取りおよび出力の少なくとも一方を行う際、前記文書からテキストデータを取得する取得部と、前記取得部により取得された前記テキストデータを記述している言語および前記テキストデータを構成している文字列の品詞を解析し、解析結果に基づいて、前記文字列を抽出する解析部と、前記抽出された文字列を、一般的な用語が登録されたパブリック辞書とマッチングさせる用語マッチング部と、前記抽出された文字列が前記パブリック辞書の見出し語と一致しないとき、前記抽出された文字列を前記用語集に登録する登録部とを備えるので、用語集に登録する文字列を収集する手間を低減でき、用語集の使用目的に沿った用語を収集できる。
上記目的を達成するため、本発明の一形態に係る用語集管理装置では、前記取得部は、前記文書が社内文書であるとき、前記文書からテキストデータを取得する構成でもよい。
上記目的を達成するため、本発明の一形態に係る用語集管理装置では、前記解析部は、解析した前記文字列の前記品詞が名詞または動詞であるとき、前記文字列を抽出する構成でもよい。
上記目的を達成するため、本発明の一形態に係る用語集管理装置では、前記登録部は、前記テキストデータが日本語で記述されており、抽出された前記文字列がアルファベットで構成されており、抽出された前記文字列が固有名詞であるとき、抽出された前記文字列を前記用語集に登録する構成でもよい。
上記目的を達成するため、本発明の一形態に係る用語集管理プログラムは、ユーザーが文書の読み取りおよび出力の少なくとも一方を行う際、文書からテキストデータを取得し、取得された前記テキストデータを記述している言語および前記テキストデータを構成している文字列の品詞を解析し、解析結果に基づいて、前記文字列を抽出し、前記抽出し文字列を、一般的な用語が登録されたパブリック辞書とマッチングさせ、前記抽出された文字列が前記パブリック辞書の見出し語と一致しないとき、前記抽出された文字列を前記用語集に登録する手順をコンピューターに実行させる。
以上のように、本発明によれば、用語集に登録する文字列を収集する手間を低減でき、用語集の使用目的に沿った用語を収集できる。
用語集管理装置の一般的な構成を示す構成図である。 用語集管理装置を画像形成装置10として実現する場合の構成図である。 用語集管理装置を、情報処理装置を中心としたクライアント・サーバー型の用語集管理システム100で実現する場合の構成図である。 文字列を収集してからローカル用語集21aに登録するまでの処理の流れについて説明するためのフローチャートである。 ローカル用語集21aへの文字列の登録処理の詳細について説明するためのフローチャートである。
以下、図面を参照しながら、本発明の実施形態を説明する。
[概要]
最初に、本発明の一実施形態に係る用語集管理装置の概要について説明する。本発明の用語集管理装置では、用語集に登録する文字列の収集とは無関係に、ユーザーが一般的に行う、文書のコピーや印刷などの作業が行われることを前提としている。
そして、本発明に係る処理として、本発明の用語集管理装置は、まず、ユーザーが用語集に登録する文字列の収集とは無関係に行った、文書のコピーや印刷などの作業の際に、用語集に登録する文字列を収集する。
そして、本発明の用語集管理装置は、収集した文字列を用語集に登録するか否かの判断を行い、登録するとした用語の用語集への登録を行う。
なお、文字列を登録するか否かの判断においては、入力された文書が社内のものであるか、社外のものであるかの情報を利用してもよい。
また、文字列の品詞が、名詞または動詞であるものを用語集に登録するようにしてもよい。
また、文字列を抽出した元の文書が書かれている言語が日本語か否か、そして、日本語の場合、抽出した文字列がアルファベットのみで構成され、かつ固有名詞であるかに基づいて用語集への登録を判断してもよい。
以上の段階を経ることにより、本発明の用語集管理装置は、用語集に登録するために収集する文字列を適切に選別し、用語集を使用目的に沿ったものとすることが出来る。
また、ユーザーが用語集を作成する手間を削減することも出来る。
なお、用語を収集して作成した用語集に対しては、各用語の意味を登録することにより、作成した用語集の有用性を高めることが出来る。
なお、以下の説明では、用語集管理装置が管理する用語集をローカル用語集と呼び、例えばインターネットなどのネットワーク上にある、本発明の用語集管理装置とは無関係に管理されている用語集や辞書などをパブリック辞書と呼んで区別する。
以上、本発明の一実施形態に係る用語集管理装置の概要について説明した。
[構成]
次に、本発明の用語集管理装置の構成について説明する。なお、以下では、最初に用語集管理装置の一般的な構成を説明する。その後、用語集管理装置を1つの画像形成装置(MFP、Multifunction Peripheral)として実現した実施形態の構成を説明する。さらに、用語集管理装置を、ネットワークを介したクライアント・サーバー型の構成で実現する場合の構成についても説明する。
(一般的な用語集管理装置の構成)
図1は、用語集管理装置1の一般的な構成を示す構成図である。用語集管理装置1は、スキャナー2、情報処理装置3、出力装置9を備えている。
スキャナー2は、ユーザーが文書をコピーしたり電子化したりする際に、原稿を読み込むために用いられる。
出力装置9は、ディスプレイなどの表示装置や、プリンターなどの印刷装置、ネットワーク上の外部機器にデータを送信するネットワーク機器などである。ユーザーが文書の内容を閲覧したり、文書のコピーや印刷をしたり、他の機器に文書をネットワーク経由で送信したりするために用いられる。
情報処理装置3は、一般的なコンピューターを用いて実現することが出来る。情報処理装置3は、記憶部5、入力部6、制御部7、および通信部8を備えている。
記憶部5は、制御部7が後述する処理を行う際に用いる作業用のデータを保存するために用いられると共に、用語を集めたローカル用語集5aなどを記憶する。
入力部6は、ユーザーからの指示を受け付けるために用いられる。
制御部7は、概要において述べた2つの段階の処理(詳細は後述)を行う。制御部7は、OCR(Optical Character Recognition)処理部7a、取得部7b、解析部7c、用語マッチング部7d、および登録部7eを有している。
OCR処理部7aは、スキャナー2で読み込んだ原稿のイメージデータから文字を認識し、電子的なテキストデータを生成する。なお、スキャナー2およびOCR処理部7aを合わせたものが、読み取り部に相当する。
取得部7bは、ユーザーがコピーや出力を行った文書から文字列を抽出して取得することなどを行う。
解析部7cは、入力された文書や抽出した文字列の解析を行う。
用語マッチング部7dは、抽出された文字列とパブリック辞書のマッチングを行う。
登録部7cは、解析部7cによる解析結果が条件に合致した文字列やパブリック辞書とのマッチング結果が条件に合致した文字列、およびその文字列の元文書内での位置を示す情報をローカル用語集5aに登録する。
通信部8は、制御部7が情報処理装置3の外部と情報のやりとりを行う際に用いられる。
なお、出力部9がネットワーク機器である場合、このネットワーク機器と通信部8は兼用されてもよい。
以上が、一般的な用語集管理装置1の構成である。
(用語集管理装置を画像形成装置で実現した構成)
次に、用語集管理装置を画像形成装置として実現する場合の構成について説明する。図2は、用語集管理装置を画像形成装置10として実現する場合の構成図である。
画像形成装置10は、制御部11を備える。制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、および専用のハードウェア回路等から構成され、画像形成装置10の全体的な動作制御を司る。
制御部11は、画像読取部12、画像処理部13、画像メモリー14、画像形成部15、用語集部16、操作部18、ファクシミリ通信部19、ネットワークインターフェイス部20、記憶部21等と接続されている。制御部11は、接続されている上記各部(ブロック)の動作制御や、各ブロックとの間での信号又はデータの送受信を行う。
制御部11は、ユーザーから、操作部18またはネッワーク接続されたPC等を通じて入力されるジョブの実行指示に従って、スキャナー機能、印刷機能、コピー機能、およびファクシミリ送受信機能などの各機能についての動作制御を実行するために必要な機構の駆動及び処理を制御する。
また、制御部11は、概要の項で述べた処理を行う。
また、制御部11は、OCR処理部11a、取得部11b、解析部11c、用語マッチング部11d、および登録部11eを有している。
OCR処理部11a、取得部11b、解析部11c、用語マッチング部11d、および登録部11eは、それぞれ、上述したOCR処理部7a、取得部7b、解析部7c、用語マッチング部7d、および登録部7eに相当するものであり、ROMなどからRAMにロードされたプログラムがCPUにより実行されることで実現される機能ブロックである。
画像読取部12は、原稿から画像を読み取るものであり、上述した一般的な用語集管理装置1のスキャナー2に相当する。
画像処理部13は、画像読取部12で読み取られた画像の画像データを必要に応じて画像処理する。例えば、画像処理部13は、画像読取部12により読み取られた画像が画像形成された後の品質を向上させるために、シェーディング補正等の画像処理を行う。
画像メモリー14は、画像読取部12による読み取りで得られた原稿画像のデータを一時的に記憶したり、画像形成部15での印刷対象となるデータを一時的に記憶したりする領域である。
画像形成部15は、画像読取部12で読み取られた画像データ等の画像形成を行う。
操作部18は、画像形成装置10が実行可能な各種動作及び処理についてユーザーからの指示を受け付けるタッチパネル部および操作キー部を備える。タッチパネル部は、タッチパネルが設けられたLCD(Liquid Crystal Display)等の表示部18aを備えている。上述した一般的な用語集管理装置1の入力部6に相当する。
ファクシミリ通信部19は、図示しない符号化/復号化部、変復調部、およびNCU(Network Control Unit)を備え、公衆電話回線網を用いてのファクシミリの送信を行う。
ネットワークインターフェイス部20は、LANボード等の通信モジュールから構成され、ネットワークインターフェイス部20に接続されたLAN等を介して、ローカルエリア内の装置(サーバー、PC等の外部機器)と種々のデータの送受信を行う。上述した一般的な用語集管理装置1の通信部10に相当する。
記憶部21は、画像読取部12によって読み取られた原稿画像等を記憶したり、ローカル用語集21aを記憶したりする。なお、ローカル用語集21aは、上述した一般的な用語集管理装置1のローカル用語集5aに相当する。記憶部21は、HDD(Hard Disk Drive)などの大容量の記憶装置である。
以上、用語集管理装置を画像形成装置10として実現する場合の構成について説明した。
(用語集管理装置をクライアント・サーバー型で実現した構成)
次に、用語集管理装置を、情報処理装置を中心としたクライアント・サーバー型の用語集管理システムで実現する構成について説明する。図3は、用語集管理装置を、情報処理装置50を中心としたクライアント・サーバー型の用語集管理システム100で実現する場合の構成図である。
用語集管理システム100は、画像形成装置40および情報処理装置50がネットワークを介して通信することにより実現される。なお、用語集管理システム100は、外部のパブリック辞書サーバー60を用いて処理を行ってもよい。また、ネットワークには、ユーザーが利用するPC(Personal Computer、図示せず)が接続されていてもよい。
画像形成装置40は、一般的な画像形成装置に、ローカル用語集に登録する文字列を収集するための仕組みを付加したものである。付加された仕組みは、ユーザーが文字列の収集とは無関係に文書のコピーや印刷などの処理を行う際に、処理の対象となった文書から文字列を抽出して、情報処理装置50に送信するものである。
情報処理装置50は、画像形成装置40から送られてきた文字列をローカル用語集に登録する処理を行うものである。情報処理装置50は、用語集管理装置1の情報処理装置3に相当するものである。
パブリック辞書サーバー60は、インターネットなどのネットワーク上で提供されている、一般的な用語が収録された、任意の数のパブリック辞書である。
情報処理装置50は、文字列をローカル用語集に登録する前に、その文字列がパブリック辞書にあるか否か調べてもよい。外部のパブリック辞書サーバー60を調べて、パブリック辞書サーバー60上に既にある用語は登録しないようにすることにより、用語登録の重複を防止し、用語集の大きさを抑制したり、ローカル用語集をその利用目的に沿った用語集にしたりすることが出来る。
また、情報処理装置50は、社内文書でありかつ日本語の文書に含まれる、アルファベットで構成された文字列が固有名詞であるか否かを調べるために、パブリック辞書を利用してもよい。
例えば、社内向けの日本語の文書内に、Jupiterという文字列が含まれている場合、その文字列は、高い確率で社内において行われているプロジェクトの名前や新製品のコードネームとして使われているからである
なお、用語集管理装置1、画像形成装置10、および情報処理装置50は、パブリック辞書を自装置内部に備えていてもよい。
以上、用語集管理装置を、画像形成装置を中心としたクライアント・サーバー型の用語集管理システム100で実現する構成について説明した。なお、パブリック辞書サーバー60は、用語集管理システム100と組み合わせて利用される構成に限らず、用語集管理装置1または画像形成装置10と組み合わせて用いてもよい。
[処理の流れ]
次に、文字列を収集してからローカル用語集21aに登録するまでの処理の流れについて説明する。図4は、文字列を収集してからローカル用語集21aに登録するまでの処理の流れについて説明するためのフローチャートである。
なお、以下の説明では、図2に示した、用語集管理装置を1つの画像形成装置10として実施し、さらに画像形成装置10がネットワーク上にあるパブリック辞書サーバー60と連携する例を用いて説明する。
まず、ユーザーが、画像形成装置10を用いて、任意の文書のコピーや印刷を行う(ステップS1)。
次に、画像形成装置10の操作部18が、ユーザーから、コピーや印刷を行った文書が社外の文書であるか社内の文書であるかの社内外区分を受け付ける(ステップS2)。
次に、取得部11bが、前ステップで入力された社内外区分に基づいて、ステップS1においてコピーまたは印刷が行われた文書が社内文書であるか否かを判断する(ステップS3)。
ステップS1においてコピーまたは印刷が行われた文書が社内文書であると判断された場合(ステップS3のY)、取得部11bは、コピーまたは印刷が行われた文書からテキストデータを取得する(ステップS4)。なお、このステップでは、文書が画像読取部12により読み取られたものである場合、OCR処理部11aによりイメージデータからテキストデータへの変換が行われる。
次に、解析部11cが取得されたテキストデータの解析を行い、テキストデータが記述された言語が、日本語であるか、英語であるか、その他の言語であるかの解析を行う(ステップS5)。
言語の解析には、一般的に知られている技術を用いてもよいし、テキストデータの大半を構成する文字の種類、例えば日本語であれば、平仮名や片仮名が多く含まれるかにより判断してもよい。
また、テキストデータが記述されている言語の判断は、ユーザーにより行われてもよい。
次に、解析部11cは、テキストデータを記述している言語が日本語であるか否かを判断する(ステップS6)。
テキストデータが日本語で記述されている場合(ステップS6のY)、解析部11cは、次に、テキストデータから形態素解析等により抽出した文字列の品詞を解析し、品詞が名詞または動詞である文字列を抽出する(ステップS7)。
また、解析部11cは、後にユーザーに提示するために、前ステップで抽出した文字列が、元の文書のどの位置から抽出されたものであるかを示す位置情報を取得し、記憶部21に記憶させる。位置情報は、ローカル用語集21aの用語をユーザーが利用するときに、その出典を知るために利用することが出来る。
次に、解析部11cは、抽出した文字列が、アルファベットのみで構成され、かつ固有名詞であるか否かを判断する(ステップS9)。
抽出した文字列が、アルファベットのみで構成され、かつ固有名詞のもの以外の場合(ステップS9のN)、用語マッチング部11dが、抽出した文字列とパブリック辞書サーバー60上のパブリック辞書とのマッチングを行う。
次に、用語マッチング部11dは、マッチングの結果が一致したか否かを判断する(ステップS11)。なお、マッチングの結果が一致するとは、抽出した文字列がパブリック辞書の見出し語として存在するということである。
ステップS9において、抽出した文字列が、アルファベットのみで構成され、かつ固有名詞である場合(ステップS9のY)、およびステップS11において、マッチングの結果が一致しなかった場合(ステップS11のN)、登録部11eが、抽出した文字列をローカル用語集21aに登録する(ステップS12)。なお、登録処理の詳細については後述する。
以上が、文字列を収集してからローカル用語集21aに登録するまでの処理の流れについて説明した。なお、上記の処理のうち、ステップS8からステップS12までは、ステップS7において抽出した文字列それぞれに対して行われる。
[ローカル用語集への登録処理の詳細]
次に、ローカル用語集21aへの文字列の登録処理の詳細について説明する。図5は、ローカル用語集21aへの文字列の登録処理の詳細について説明するためのフローチャートである。
まず、登録部11eは、ローカル用語集21aが存在するか否かを判断する(ステップS20)。
ローカル用語集21aがまだ存在しない場合(ステップS20のN)、登録部11eは、ローカル用語集21aの枠を作成する。(ステップS21)。
ローカル用語集21aが既に存在する場合(ステップS20のY)、次に、登録部11eは、ローカル用語集21aに登録しようとしている文字列が既にローカル用語集21aに存在しているか否かを判断する(ステップS22)。
登録しようとしている文字列がローカル用語集21aに存在していない場合(ステップS22のN)、登録部11eは、抽出した文字列をローカル用語集21aに登録する(ステップS23)。
以上、ローカル用語集21aへの文字列の登録処理の詳細について説明した。
[補足事項]
その他、本技術は、上述の実施形態にのみ限定されるものではなく、本技術の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
1 … 用語集管理装置
2 … スキャナー
3 … 情報処理装置
5 … 記憶部
5a… 用語集
6 … 入力部
7 … 制御部
7a… OCR処理部
7b… 取得部
7c… 解析部
7d… 用語マッチング部
7e… 登録部
8 … 通信部
9 … 出力装置
10 … 画像形成装置
11 … 制御部
11a… OCR処理部
11b… 取得部
11c… 解析部
11d… 用語マッチング部
11e… 登録部
12 … 画像読取部
13 … 画像処理部
14 … 画像メモリー
15 … 画像形成部
18 … 操作部
18a… 表示部
19 … ファクシミリ通信部
20 … ネットワークインターフェイス部
21 … 記憶部
21a… 用語集
40 … 画像形成装置
50 … 情報処理装置
60 … パブリック辞書サーバー
100 … 用語集管理システム

Claims (5)

  1. 文書を読み取る読み取り部と、
    前記文書から抽出された文字列により構成される用語集を記憶可能な記憶部と、
    ユーザーが前記文書の読み取る際、前記文書からテキストデータを取得する取得部と、
    前記取得部により取得された前記テキストデータを記述している言語および前記テキストデータを構成している文字列の品詞を解析し、解析結果に基づいて、前記文字列を抽出する解析部と、
    前記抽出された文字列を、一般的な用語が登録されたパブリック辞書とマッチングさせる用語マッチング部と、
    前記抽出された文字列を前記用語集に登録する登録部とを具備し、
    前記解析部は、前記抽出された文字列が固有名詞であるか否かを判定し、
    前記登録部は、前記解析部により前記抽出された文字列が固有名詞であると判定された場合には、前記用語マッチング部が前記抽出された文字列を前記パブリック辞書とマッチングさせることなく、前記抽出された文字列を前記用語集に登録し、
    前記用語マッチング部は、前記解析部により前記抽出された文字列が固有名詞ではないと判定された場合には、前記抽出された文字列を前記パブリック辞書とマッチングさせ、
    前記登録部は、前記用語マッチング部によるマッチングにより前記抽出された文字列が前記パブリック辞書の見出し語と一致しないときには、前記抽出された文字列を前記用語集に登録する
    用語集管理装置。
  2. 請求項1に記載の用語集管理装置であって、
    前記取得部は、社内外区分の入力を受け付け、前記受け付けた社内外区分が社内文書を示すとき、前記文書が社内文書であると判断し、前記文書からテキストデータを取得する
    用語集管理装置
  3. 請求項1または2に記載の用語集管理装置であって、
    前記解析部は、
    解析した前記文字列の前記品詞が名詞であるとき、前記文字列を抽出する
    用語集管理装置
  4. 請求項1〜3のうちいずれか1項に記載の用語集管理装置であって、
    前記登録部は、
    前記テキストデータが日本語で記述されており、抽出された前記文字列がアルファベットで構成されており、抽出された前記文字列が固有名詞であるとき、抽出された前記文字列を前記用語集に登録する
    用語集管理装置
  5. ユーザーが前記文書の読み取る際、文書からテキストデータを取得し、
    取得された前記テキストデータを記述している言語および前記テキストデータを構成している文字列の品詞を解析し、解析結果に基づいて、前記文字列を抽出し、
    前記抽出し文字列を、一般的な用語が登録されたパブリック辞書とマッチングさせ、
    前記抽出された文字列を前記用語集に登録する手順を
    コンピューターに実行させる用語集管理プログラムであって、更に
    前記抽出された文字列が固有名詞であるか否かを判定し、
    前記抽出された文字列が固有名詞であると判定された場合には、前記抽出された文字列を前記パブリック辞書とマッチングさせることなく、前記抽出された文字列を前記用語集に登録し、
    前記抽出された文字列が固有名詞ではないと判定された場合には、前記抽出された文字列を前記パブリック辞書とマッチングさせ、
    前記抽出された文字列を前記パブリック辞書とマッチングさせて前記抽出された文字列が前記パブリック辞書の見出し語と一致しないときには、前記抽出された文字列を前記用語集に登録する手順を
    コンピューターに実行させる用語集管理プログラム
JP2014194569A 2014-09-25 2014-09-25 用語集管理装置および用語集管理プログラム Expired - Fee Related JP6277921B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014194569A JP6277921B2 (ja) 2014-09-25 2014-09-25 用語集管理装置および用語集管理プログラム
CN201510607171.5A CN105468581B (zh) 2014-09-25 2015-09-22 词汇表管理装置、词汇表管理系统和词汇表管理方法
US14/862,981 US9529792B2 (en) 2014-09-25 2015-09-23 Glossary management device, glossary management system, and recording medium for glossary generation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014194569A JP6277921B2 (ja) 2014-09-25 2014-09-25 用語集管理装置および用語集管理プログラム

Publications (2)

Publication Number Publication Date
JP2016066233A JP2016066233A (ja) 2016-04-28
JP6277921B2 true JP6277921B2 (ja) 2018-02-14

Family

ID=55584610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014194569A Expired - Fee Related JP6277921B2 (ja) 2014-09-25 2014-09-25 用語集管理装置および用語集管理プログラム

Country Status (3)

Country Link
US (1) US9529792B2 (ja)
JP (1) JP6277921B2 (ja)
CN (1) CN105468581B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146979B2 (en) * 2015-06-03 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processing visual cues to improve device understanding of user input
JP6782644B2 (ja) * 2017-01-20 2020-11-11 株式会社野村総合研究所 情報処理システム、情報処理方法、およびコンピュータプログラム
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム
US10997225B2 (en) 2018-03-20 2021-05-04 The Boeing Company Predictive query processing for complex system lifecycle management
US11966686B2 (en) * 2019-06-17 2024-04-23 The Boeing Company Synthetic intelligent extraction of relevant solutions for lifecycle management of complex systems

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
CN1922605A (zh) * 2003-12-26 2007-02-28 松下电器产业株式会社 辞典制作装置以及辞典制作方法
JP5039654B2 (ja) * 2008-07-09 2012-10-03 株式会社キーエンス 流量計
JP5106636B2 (ja) * 2008-10-02 2012-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストセグメントを有する文書から用語を抽出するためのシステム
JP2011096015A (ja) * 2009-10-29 2011-05-12 J&K Car Electronics Corp 電流値報知装置および発振制御回路
DE112010005226T5 (de) * 2010-02-05 2012-11-08 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung
EP2616927A4 (en) * 2010-09-24 2017-02-22 International Business Machines Corporation Using ontological information in open domain type coercion
JP2013072973A (ja) 2011-09-27 2013-04-22 Hitachi Solutions Ltd 語学学習教材提供システム、文章変換方法及びプログラム

Also Published As

Publication number Publication date
CN105468581A (zh) 2016-04-06
US20160092436A1 (en) 2016-03-31
JP2016066233A (ja) 2016-04-28
CN105468581B (zh) 2018-04-06
US9529792B2 (en) 2016-12-27

Similar Documents

Publication Publication Date Title
JP6277921B2 (ja) 用語集管理装置および用語集管理プログラム
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
US20060217958A1 (en) Electronic device and recording medium
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US20150309977A1 (en) Document management apparatus and recording medium for easy register and display of character string indicating meaning
US9876916B1 (en) Image forming apparatus that image-forms result of proofreading process with respect to sentence
JP2012018633A (ja) 語句解説装置、語句解説方法、翻訳制御装置および翻訳制御方法
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JP6749583B2 (ja) 情報処理装置、画像処理装置およびプログラム
CN111597827B (zh) 一种提高机器翻译准确度的方法及其装置
JP2006252164A (ja) 中国語文書処理装置
JP4797507B2 (ja) 翻訳装置、翻訳システムおよびプログラム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP5961656B2 (ja) 文書管理装置および文書管理プログラム
JP2021018520A (ja) 情報処理装置、情報処理方法及びプログラム
JP7333526B2 (ja) 漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム
US10853588B2 (en) Electronic device translating secret word using mask character string and translation support method
JP2016033743A (ja) 用語集管理装置および用語集管理プログラム
US11881041B2 (en) Automated categorization and processing of document images of varying degrees of quality
US20230177859A1 (en) Document Processing Method, and Information Processing Device
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP2023091261A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6021274B2 (ja) 文書管理装置および文書管理プログラム
JP2006349836A (ja) 文書処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180101

R150 Certificate of patent or registration of utility model

Ref document number: 6277921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees