JP7064262B2 - Knowledge graph understanding support system based on natural language generation technology - Google Patents

Knowledge graph understanding support system based on natural language generation technology Download PDF

Info

Publication number
JP7064262B2
JP7064262B2 JP2021532885A JP2021532885A JP7064262B2 JP 7064262 B2 JP7064262 B2 JP 7064262B2 JP 2021532885 A JP2021532885 A JP 2021532885A JP 2021532885 A JP2021532885 A JP 2021532885A JP 7064262 B2 JP7064262 B2 JP 7064262B2
Authority
JP
Japan
Prior art keywords
knowledge graph
subject
predicate
sentence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021532885A
Other languages
Japanese (ja)
Other versions
JP2022510031A (en
Inventor
▲勁▼松 李
勇 尚
可▲偉▼ ▲呂▼
天舒 周
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2022510031A publication Critical patent/JP2022510031A/en
Application granted granted Critical
Publication of JP7064262B2 publication Critical patent/JP7064262B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、知識グラフの技術分野に関し、特に、自然言語生成技術に基づく知識グラフ理解支援システムに関する。 The present invention relates to the technical field of the knowledge graph, and more particularly to the knowledge graph comprehension support system based on the natural language generation technique.

知識グラフは、語義の知識ベースの一つであり、一般的に、主語-述語-目的語というトリプルの形式により、一つの知識ポイントを表現する。知識グラフは、オントロジーが論理や語義を厳密に要求することに比べると、弱い語義及び弱い論理を強調していることから、学術界及び産業界では、よく普及されている。グーグルをはじめとする大手のインターネット企業は、検索の品質を高めるように、知識グラフを研究し始めてきた。2014年の報告によると、現在、グーグルの知識グラフは、既に16憶を超える事実を収集しており、そのうち、2.71億個の事実の真実性が90%を超えると考えられる。2016年5月にGoogle検索では、知識グラフは、該月の1000億回の検索における約三分の一の問題に回答した。 The knowledge graph is one of the knowledge bases of the semantics, and generally expresses one knowledge point in the triple form of subject-predicate-object. Knowledge graphs are popular in academia and industry because they emphasize weak logic and weak logic compared to ontology's rigorous demands on logic and semantics. Major Internet companies, including Google, have begun to study the knowledge graph to improve the quality of their searches. According to a 2014 report, Google's knowledge graph has already collected over 1.6 billion facts, of which 271 million are believed to be more than 90% true. In a Google search in May 2016, the knowledge graph answered about one-third of the 100 billion searches that month.

自然言語生成技術は、自然言語で処理を行う技術において、重要な技術の一つである。自然言語理解と異なり、自然言語生成技術は、コンピューターがどのように自然言語テキストにより、所定の意味や思想などを表現するかということに注目する。知識グラフ、特に、特定の分野の知識グラフについては、実際に適用される知識グラフに正確性が極めて高く要求されており、例えば、医学に関連する知識グラフは、その知識グラフの品質がシステム全体の正確性に深刻的に関係している。しかしながら、知識グラフを構築するプログラミング言語は、オントロジーと同様に、主に、RDF(Resource Description Framework、資源記述の枠組み)やOWL(Web Ontology Language、ウェブオントロジー言語)であり、採用されているソフトウェアは、主に、スタンフォード大学により開発されてきた

Figure 0007064262000001
などである。これらの言語及びソフトウェアは、その専門性が高く、長時間に亘る勉強や訓練がなければ、非関連者がその具体的な意味への理解が極めて難しい。それと同時に、OWL及びRDFにより記憶される知識ポイントは、順序付けられておらず、同じコンテンツに関連する知識ポイントであっても、プログラムにおける異なる箇所に記憶されていることから、係る分野の専門家が知識グラフのソースコードを直接に理解することがより難しくなる。知識グラフは、その大部分がコンピューターの業界の従業員により構築されるが、その使用者が当該知識グラフコンテンツに係る分野の学者や専門家であり、両者の不一致により、かかる分野の専門家が知識グラフのコンテンツを理解できないことになり、予め知識グラフのコンテンツを直感的に理解して改善することができず、使用するだけで知識グラフをさらに改善できる。これは、間接に、知識グラフの品質の不安定性及び同じコンテンツの知識グラフの二次開発現象の深刻さにつながる。ある学者によると、2017年に、米国国立生物医学オントロジーセンターにおける200個の生物医学に関連するオントロジーがランダムに選ばれたところ、その対応する設計文書において専門家らによる正式評価を得たのは17個しかないと分かった。 Natural language generation technology is one of the important technologies in the technology for processing in natural language. Unlike natural language understanding, natural language generation technology focuses on how computers express certain meanings and ideas with natural language texts. For knowledge graphs, especially for knowledge graphs in a particular field, the knowledge graphs that are actually applied are required to be extremely accurate. For example, for knowledge graphs related to medicine, the quality of the knowledge graph is the entire system. It is seriously related to the accuracy of. However, the programming languages for constructing knowledge graphs are mainly RDF (Resource Description Framework) and OWL (Web Ontology Language) as well as ontology, and the software adopted is mainly. , Primarily developed by Stanford University
Figure 0007064262000001
And so on. These languages and software are highly specialized, and without long-term study and training, it is extremely difficult for unrelated persons to understand their specific meanings. At the same time, the knowledge points stored by OWL and RDF are not ordered, and even knowledge points related to the same content are stored in different parts of the program, so experts in the field concerned It becomes more difficult to directly understand the source code of the knowledge graph. Knowledge graphs are mostly built by employees in the computer industry, but their users are scholars and experts in the field of knowledge graph content, and due to the disagreement between the two, experts in that field The content of the knowledge graph cannot be understood, and the content of the knowledge graph cannot be intuitively understood and improved in advance, and the knowledge graph can be further improved simply by using it. This indirectly leads to instability in the quality of the knowledge graph and the seriousness of the secondary development phenomenon of the knowledge graph of the same content. According to one scholar, in 2017, 200 biomedical ontology-related ontology was randomly selected at the National Center for Biomedical Ontology in the United States, and the corresponding design document received formal evaluation by experts. It turned out that there were only 17 pieces.

数多くの分野の知識グラフは、実際に使用される過程における正確性を保証するように、使用される前にかかる分野の専門家にその表現するコンテンツを深くかつ完全に分からせることが必要となる。しかしながら、知識グラフに係る言語及びソフトウェアは、その専門性が強く、同じテーマの知識ポイントでも、分布がバラバラであるため、係る分野の専門家が短時間でそれらを習得して理解することが困難である。現在に、知識グラフの理解を支援するソフトウェアは、ほとんど、検索により、視覚化の手段で、異なる知識ノードの関連を表現しているが、このように表現された知識が知識の一部に過ぎず、しかも、知識グラフ自体に関連していない。同時に、これらの方法はいずれも知識グラフを使用する過程においてその存在する問題を発見し、それを使用する前にそれを全面的に理解し評価することがない。 Knowledge graphs in many disciplines need to give experts in the discipline a deep and complete understanding of the content they represent before they are used, so as to ensure accuracy in the process of actual use. .. However, the languages and software related to the knowledge graph have strong expertise, and even knowledge points of the same theme have different distributions, so it is difficult for experts in the relevant field to learn and understand them in a short time. Is. Currently, most software that assists in understanding the knowledge graph expresses the relationship between different knowledge nodes by means of visualization by searching, but the knowledge expressed in this way is only a part of knowledge. Moreover, it is not related to the knowledge graph itself. At the same time, none of these methods discover the problem that exists in the process of using the knowledge graph and do not fully understand and evaluate it before using it.

本発明は、現在に知識グラフの品質への制御が不足であり、係る分野の専門家が関連分野の知識グラフを理解し難しいことに鑑み、自然言語生成技術に基づく知識グラフ理解支援システムを提供することを目的とする。本発明は、現実的なニーズに応じて、自然言語生成技術により、知識グラフのコンテンツに基づいて、自然言語テキストを生成すると共に、同一のテーマによる短いセンテンスをセンテンスで適正に集約し、しかも、各センテンスは、それぞれ、知識グラフにおけるプログラム言語と一対一対応することにより、係る分野の専門家が短時間で知識グラフを、迅速で、全面的かつ深く理解して、知識グラフの品質を制御するように助ける。 The present invention provides a knowledge graph understanding support system based on a natural language generation technique in view of the fact that there is currently insufficient control over the quality of the knowledge graph and it is difficult for experts in the relevant field to understand the knowledge graph in the related field. The purpose is to do. In the present invention, a natural language text is generated based on the contents of a knowledge graph by a natural language generation technique according to a realistic need, and short sentences of the same theme are properly aggregated in a sentence. Each sentence has a one-to-one correspondence with the programming language in the knowledge graph, allowing experts in the field to quickly, fully and deeply understand the knowledge graph and control the quality of the knowledge graph. To help.

本発明は、以下の技術手段により実現される。
自然言語生成技術に基づく知識グラフ理解支援システムであって、当該システムは、知識グラフ選択モジュール、知識グラフ翻訳モジュール及び結果表示モジュールを含み、
前記知識グラフ選択モジュールは、RDF又はOWLの規範文法が満たされるターゲット知識グラフを取得するためのものであり、
前記知識グラフ翻訳モジュールは、まず、ターゲット知識グラフのトリプルを抽出し、抽出されたトリプルに対して文字列分割を行って、三者間に一対一対応の関係を有する主語配列、述語配列及び目的語配列という三つの動態的配列を取得し、次に、入れ子型ループにより、simplenlgのツールを用いて、主語、述語及び目的語を組み立て、一つの完全な短いセンテンスを生成し、同時に、主語-述語-目的語の関係が1対1対多数及び1対多数対多数の場合が存在する場合、特別な文字を述語配列及び目的語配列に加えて識別することにより、当該述語とある主語との対応及び当該目的語とある主語及びある述語との対応を決定し、そして、入れ子型ループにおいて、これらの特別な文字を判断して、主語、述語、目的語の対応関係を決定し、simplenlgツールを用いて、対応する主語、述語及び目的語を組み立て、一つの完全な長いセンテンスを生成し、ただし、注釈部分に対応するトリプルは、単独でセンテンスとしてなされておらず、他のセンテンスを補充する注釈情報としてなされており、そして、ターゲット知識グラフを、短いセンテンス及び長いセンテンスに翻訳し、センテンスをさらに規範化した後でローカルデータベース(MySQLデータベースを用いてもよい)に記憶し、しかも、クラスとサブクラス及びクラスとインスタンスの関係のコンテンツを主語配列、述語配列、目的語配列という三つの動態的配列から選択して、JSONフォーマットのファイルに組み立てる。
The present invention is realized by the following technical means.
A knowledge graph comprehension support system based on natural language generation technology, which includes a knowledge graph selection module, a knowledge graph translation module, and a result display module.
The knowledge graph selection module is for acquiring a target knowledge graph that satisfies the normative grammar of RDF or OWL.
The knowledge graph translation module first extracts triples of the target knowledge graph, divides the extracted triples into character strings, and has a one-to-one correspondence between the three, a subject array, a predicate array, and a purpose. We get three dynamic sequences, the word sequence, and then use the tools of simplenlg to assemble the subject, predicate and object by a nested loop to generate one complete short sentence, and at the same time the subject-. When there are cases where the predicate-object relationship is one-to-one-to-many and one-to-many-to-many, a special character is identified in addition to the predicate sequence and the subject sequence to distinguish the predicate from a certain subject. Determine the correspondence and the correspondence between the subject and the subject and the predicate, and in the nested loop, determine these special characters to determine the correspondence between the subject, the predicate, and the object, the singlenlg tool. To assemble the corresponding subject, predicate and object into one complete long sentence, however, the triple corresponding to the commented part is not made as a sentence by itself and supplements the other sentences. It is made as annotative information, and the target knowledge graph is translated into short sentences and long sentences, and after the sentences are further predicated, they are stored in the local database (MySQL database may be used), and the classes and subclasses. And the content of the relationship between the class and the instance is selected from three dynamic sequences of subject sequence, predicate sequence, and target sequence, and assembled into a JSON format file.

前記結果表示モジュールは、ローカルデータベースから、ターゲット知識グラフの翻訳コンテンツ(つまり、短いセンテンス及び長いセンテンス)を呼び出し、翻訳コンテンツとターゲット知識グラフのソースファイル(RDF(資源記述の枠組み)、OWL(ウェブオントロジー言語))を同時に表示すると共に、JSONフォーマットのファイルを取得し、視覚化ツール(D3ツールを用いてもよい)により、樹形図を描き、知識グラフにおけるクラスとサブクラス、及び、クラスとインスタンスの階層構造を視覚化して表示する。 The result display module calls the translated content of the target knowledge graph (that is, short sentence and long sentence) from the local database, and the source file of the translated content and the target knowledge graph (RDF (Resource Description Framework), OWL (Web Ontology). Language)) is displayed at the same time, a JSON format file is acquired, a dendrogram is drawn with a visualization tool (D3 tool may be used), and classes and subclasses in the knowledge graph, and classes and instances are displayed. Visualize and display the hierarchical structure.

さらに、前記知識グラフ選択モジュールがターゲット知識グラフを取得する経路は、
オープンソース知識グラフデータベース(当該システムは、生物医学分野の知識グラフを適用して理解を支援する際に、オープンソース知識グラフデータベースは、米国国立生物医学オントロジーセンター(National Center for Biomedical Ontology、NCBO)を選択しても良い。)からRDF又はOWLの規範文法が満たされる知識グラフをクロールし、クロールされた知識グラフを知識グラフ翻訳モジュールにより翻訳し、翻訳された結果をローカルデータベースに記憶し、あるテーマの知識グラフをシステムから検索することに用いられると、名称と知識グラフの英語名称を入力して類似度計算を行い、類似度を降順でソートし、選択すべき知識グラフを取得する第一経路と、
ユーザーは、RDF又はOWLの規範文法が満たされる知識グラフをターゲット知識グラフとしてアップロードする第二経路との二種類を含む。
Further, the path for the knowledge graph selection module to acquire the target knowledge graph is
Open Source Knowledge Graph Database (The system applies knowledge graphs in the field of biomedical science to assist in understanding, and the open source knowledge graph database is available from the National Center for Biological Ontology (NCBO). You may select.) Crawl the knowledge graph that satisfies the normative grammar of RDF or OWL, translate the crawled knowledge graph by the knowledge graph translation module, store the translated result in the local database, and set a certain theme. When used to search the knowledge graph from the system, the first route is to enter the name and the English name of the knowledge graph, perform an ontology calculation, sort the similarity in descending order, and obtain the knowledge graph to be selected. When,
The user includes two types, a second path of uploading a knowledge graph satisfying the normative grammar of RDF or OWL as a target knowledge graph.

さらに、ターゲット知識グラフを取得する第一経路においては、類似度へ判断係数に、Jaccard係数(ジャッカード係数)が用いられており、それは、限られたサンプルセット間に類似度や差異性を比較することによく用いられており、Jaccard係数の値が大きいほど、サンプルの類似度が高い。 Furthermore, in the first path to acquire the target knowledge graph, the Jaccard index (Jaccard coefficient) is used as the judgment coefficient for similarity, which compares the similarity and difference between a limited sample set. The larger the value of the Jaccard index, the higher the similarity of the samples.

ユーザーにより入力された名称の概念集合をC、知識グラフの英語名称の概念集合をCとすると、両者間のJaccard係数J(C,C)が以下のとおりであり、J(C,C

Figure 0007064262000002
とCとが全く同じである場合に、J(C,C)の値が1となり、各検索結果が類似度の大きさに応じてソートされると、類似度が比較的高いN個の結果が現れ、Nがユーザーによりカスタマイズされたものである。 Assuming that the concept set of names input by the user is C 1 and the concept set of English names in the knowledge graph is C 2 , the Jaccard coefficient J (C 1 , C 2 ) between the two is as follows, and J (C). 1 , C 2 )
Figure 0007064262000002
When C 1 and C 2 are exactly the same, the value of J (C 1 , C 2 ) becomes 1, and when each search result is sorted according to the magnitude of the similarity, the similarity is relatively high. High N results appear, with N customized by the user.

さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフのトリプルを抽出するステップは、具体的に、SPARQL(SPARQL Protocol and RDF Query Language、SPARQLプロトコル及びRDFクエリ言語)を用いて、ターゲット知識グラフにおけるすべての知識ポイント(クラス、インスタンス、対象属性、データ属性、注釈など)に対応する主語、述語及び目的語を抽出して、それらを資源記述の枠組みのトリプル(RDF Triple)に符号化する。 Further, in the knowledge graph translation module, the steps for extracting triples of the target knowledge graph are specifically all in the target knowledge graph using SPARQL (SPARQL Protocol and RDF Query Language, SPARQL protocol and RDF query language). The subject, predicate and object corresponding to the knowledge points (class, instance, target attribute, data attribute, annotation, etc.) of are extracted and encoded into a triple (RDF Triple) of the resource description framework.

さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフにおける短いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築する。短いセンテンスの生成では、主語、述語及び目的語の関係が1対1対1の関係であることから、入れ子型ループにより、対応する主語、述語、目的語を、Simplenlgにより、直接に、短いセンテンスとして組み立てればよい。 Further, in the knowledge graph translation module, the step of generating a short sentence in the target knowledge graph is specifically, first, first, the acquired triple is divided into strings to acquire the names of the subject, the predicate, and the object. And construct three dynamic sequences. Since the relationship between the subject, predicate, and object is one-to-one in the generation of a short sentence, the corresponding subject, predicate, and object are directly and short sentences by Simplenlg by a nested loop. It should be assembled as.

さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフの長いセンテンスを生成するステップは具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、長いセンテンスの生成では、一つの主語が複数の述語に対応でき、各述語が複数の目的語に対応できることが考えられることから、述語配列において、異なる主語に対応する述語の間を特別な識別子によりマークし、目的語配列において、異なる主語に対応する異なる述語の目的語の間を、他の特別な識別子によりマークし、主語、述語、目的語の一対一対応の関係を実現し、そして、入れ子型ループにより、これらの特別な識別子を判断し、対応する主語、述語及び目的語をSimplenlgにより組み立て、ただし、同じ主語と異なる述語とはそれぞれ、一つのセンテンスを構成しており、主語が同じである全てのセンテンスは一つの段落を構成し、異なる目的語の間が接続詞(及び、或いは)により接続される。 Further, in the knowledge graph translation module, the step of generating a long sentence of the target knowledge graph is specifically, first, the acquired triple is divided into strings to acquire the names of the subject, the predicate, and the object. , Three dynamic sequences are constructed, and in the generation of long sentences, one subject can correspond to multiple predicates, and each predicate can correspond to multiple objects. Mark between the corresponding predicates with a special identifier, and in the object sequence, mark between the subjects of different predicates corresponding to different subjects with other special identifiers, one-on-one of subject, predicate, object. A correspondence relationship is realized, and a nested loop determines these special identifiers and assembles the corresponding subject, predicate and object with Simpleng, but one sentence for each of the same subject and different predicates. All sentences with the same subject form one paragraph, and different predicates are connected by a connective (and / or).

さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフにおけるセンテンスの注釈情報を補充するステップは、具体的に、まず、述語配列をループし、述語が「comment」(目的語が主語の注釈であることを示す)であると、対応する主語及び目的語を抽出して、一つの新たな動態的配列である注釈配列を形成し、ただし、添え字が奇数である配列要素に主語を記憶し、添え字が偶数である配列要素に目的語を記憶し、そして、主語配列、述語配列及び目的語配列を入れ子型ループし、主語と目的語が注釈配列に存在しているかどうかを判断し、存在していると、当該主語或いは目的語の後ろに括弧を付加し、括弧内がその注釈となり、そして、述語を判断し、述語が「comment」ではないと、組み立てを行い、そうでない場合は組み立てを行わない。 Further, in the knowledge graph translation module, the step of supplementing the comment information of the sentence in the target knowledge graph specifically first loops the predicate array, and the predicate is "comment" (the subject is the subject comment). (Indicating that), the corresponding subject and object are extracted to form a commentary sequence, which is a new dynamic sequence, but the subject is stored in the sequence element with an odd number of subscripts. Stores the object in an array element with an even number of subscripts, and nests the subject array, predicate array, and object array to determine if the subject and object are present in the annotation array, and is present. If so, add parentheses after the subject or object, the inside of the parentheses is the comment, and the predicate is judged, and if the predicate is not "comment", assembly is performed, and if not, assembly is performed. Do not do.

さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフの短いセンテンス及び長いセンテンスをデータベースに挿入するステップは、具体的に、JDBC(Java Data Base Connectivity)APIを用いて、データベースに接続し、まず、翻訳結果を記憶するデータベース及びテータテーブルを作成し、テーブル名、テーブルフィールドを定義し、主キーなどを確認し、そして、知識グラフの英語名称とデータベースに記憶されている名称とをマッチングし、当該知識グラフの翻訳結果が既にローカルデータベースに存在していると、挿入操作を行わず、存在しないと、生成された短いセンテンス配列及び長いセンテンス配列をテータテーブルに追加する。 Further, in the knowledge graph translation module, the step of inserting the short sentence and the long sentence of the target knowledge graph into the database is specifically connected to the database using the JDBC (Java Data Base Connectivity) API, and first, the database is connected. Create a database and data table to store translation results, define table names and table fields, check the primary key, etc., and match the English name of the knowledge graph with the name stored in the database. If the translation result of the knowledge graph already exists in the local database, the insert operation is not performed, and if it does not exist, the generated short sentence sequence and long sentence sequence are added to the data table.

さらに、前記結果表示モジュールにおいては、翻訳コンテンツ及びソースファイルを表示するステップは、具体的に、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、データベースから当該知識グラフに対応するすべての翻訳コンテンツを呼び出してインタフェースに表示すると共に、ローカルサーバーからターゲット知識グラフのソースファイルを読み出して、インタフェースに共に表示する。 Further, in the result display module, in the step of displaying the translated content and the source file, specifically, after selecting the target knowledge graph in the web interface, all the knowledge graphs corresponding to the knowledge graph are displayed from the database using ajax. In addition to calling the translated content and displaying it on the interface, the source file of the target knowledge graph is read from the local server and displayed together on the interface.

さらに、前記結果表示モジュールにおいては、視覚化して表示するステップは、具体的に、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、バックエンドに対応するJSONフォーマットのファイルを取得し、樹形図を描き、樹形図において、各ノードが主語或いは目的語を表し、各ノードが接続線により他の関連するノードに接続される。 Further, in the result display module, in the step of visualizing and displaying, specifically, after selecting the target knowledge graph in the web interface, ajax is used to acquire a JSON format file corresponding to the backend. A dendrogram is drawn, in which each node represents a subject or object, and each node is connected to another related node by a connecting line.

本発明の有益な効果は、以下の通りである。
本発明は、自然言語生成技術を用いて、知識グラフを自然言語テキストに変換することにより、係る分野の専門家は知識グラフのソースコードとソフトウェアとが分からない場合でも、知識グラフを使用する前に、その分野の知識グラフを、正確で、深くかつ全面的に理解できるように役立つ。同時に、各短いセンテンスは、知識グラフ自体に対応するソースコードと関連していることから、知識グラフに冗長な情報や誤った情報が見つかると、即時に訂正することができ、しかも、当該方法は広く適用することができる。本発明は、視覚化の方法により、係る分野の専門家による知識グラフの理解をさらに加速することができる。
The beneficial effects of the present invention are as follows.
The present invention uses a natural language generation technique to convert a knowledge graph into a natural language text so that experts in the field can not use the knowledge graph even if they do not know the source code and software of the knowledge graph. In addition, it helps to understand the knowledge graph in the field accurately, deeply and completely. At the same time, each short sentence is associated with the source code that corresponds to the knowledge graph itself, so if redundant or incorrect information is found in the knowledge graph, it can be corrected immediately, and the method is It can be widely applied. The present invention can further accelerate the understanding of the knowledge graph by experts in the art by means of visualization methods.

本発明に係る自然言語生成技術に基づく知識グラフ理解支援システムの構造ブロック図である。It is a structural block diagram of the knowledge graph understanding support system based on the natural language generation technique which concerns on this invention. 本発明に係る自然言語生成技術に基づく知識グラフ理解支援システムを実現するフローチャートである。It is a flowchart which realizes the knowledge graph understanding support system based on the natural language generation technique which concerns on this invention. 本発明に係る知識グラフ翻訳モジュールにおける自然言語生成のフローチャートである。It is a flowchart of natural language generation in the knowledge graph translation module which concerns on this invention. ある知識グラフの一部のソースコードの模式図である。It is a schematic diagram of a part of the source code of a certain knowledge graph. 自然言語技術を用いて生成された短いセンテンスの模式図である。It is a schematic diagram of a short sentence generated using natural language technology. 自然言語の技術を用いて生成された長いセンテンスの模式図である。It is a schematic diagram of a long sentence generated using the technique of natural language. クラスとサブクラスとの樹形図である。It is a dendrogram of a class and a subclass.

以下に、図面及び具体的な実施例を参照しつつ、本発明をさらに詳しく説明する。 Hereinafter, the present invention will be described in more detail with reference to the drawings and specific examples.

図1及び図2に示すように、本発明が提供する自然言語生成技術に基づく知識グラフ理解支援システムは、知識グラフ選択モジュール、知識グラフ翻訳モジュール及び結果表示モジュールを含む。
一、知識グラフ選択モジュール
知識グラフ選択モジュールは、RDF又はOWLの規範文法が満たされるターゲット知識グラフを取得するためのものである。ターゲット知識グラフを取得する経路は、以下の二種類を含む。
第一経路:オープンソース知識グラフデータベース(当該システムは、生物医学分野の知識グラフを適用して理解を支援する際に、オープンソース知識グラフデータベースは、米国国立生物医学オントロジーセンター(National Center for Biomedical Ontology、NCBO)を選択しても良い。)からRDF又はOWLの規範文法が満たされる知識グラフをクロールし、クロールされた知識グラフを知識グラフ翻訳モジュールにより翻訳し、翻訳された結果をローカルデータベースに記憶し、あるテーマの知識グラフをシステムから検索することに用いられると、名称と知識グラフの英語名称を入力して類似度計算を行い、類似度を降順でソートし、選択すべき知識グラフを取得する。
類似度への判断係数に、Jaccard係数(ジャッカード係数)が用いられており、それは、限られたサンプルセット間に類似度や差異性を比較することによく用いられており、Jaccard係数の値が大きいほど、サンプルの類似度が高い。
ユーザーにより入力された名称の概念集合をC、知識グラフの英語名称の概念集合をCとすると、両者間のJaccard係数J(C,C)が以下のとおりであり、

Figure 0007064262000003
とCとが全く同じである場合に、J(C,C)の値が1となり、各検索結果が類似度の大きさに応じてソートされると、類似度が比較的高いN個の結果が現れ、Nがユーザーによりカスタマイズされたものであり、Nが15に設置されてもよい。
第二経路:ユーザーは、RDF又はOWLの規範文法が満たされる知識グラフを、ターゲット知識グラフとしてアップロードする。 As shown in FIGS. 1 and 2, the knowledge graph comprehension support system based on the natural language generation technique provided by the present invention includes a knowledge graph selection module, a knowledge graph translation module, and a result display module.
1. Knowledge graph selection module The knowledge graph selection module is for acquiring a target knowledge graph that satisfies the normative grammar of RDF or OWL. The route for acquiring the target knowledge graph includes the following two types.
First Path: Open Source Knowledge Graph Database (When the system applies knowledge graphs in the field of biomedical science to assist understanding, the open source knowledge graph database is the National Center for Biological Ontology. , NCBO) may be selected.) Crawl the knowledge graph that satisfies the normative grammar of RDF or OWL, translate the crawled knowledge graph by the knowledge graph translation module, and store the translated result in the local database. However, when it is used to search the knowledge graph of a certain theme from the system, the similarity is calculated by inputting the name and the English name of the knowledge graph, and the similarity is sorted in descending order to obtain the knowledge graph to be selected. do.
The Jaccard index (Jaccard index) is used as the judgment coefficient for similarity, and it is often used to compare the similarity and difference between a limited sample set, and the value of the Jaccard coefficient. The larger the value, the higher the similarity of the samples.
Assuming that the concept set of names input by the user is C 1 and the concept set of English names in the knowledge graph is C 2 , the Jaccard index J (C 1 , C 2 ) between the two is as follows.
Figure 0007064262000003
When C 1 and C 2 are exactly the same, the value of J (C 1 , C 2 ) becomes 1, and when each search result is sorted according to the magnitude of the similarity, the similarity is relatively high. High N results appear, N is user-customized, and N may be installed at 15.
Second route: The user uploads a knowledge graph that satisfies the normative grammar of RDF or OWL as a target knowledge graph.

二、知識グラフ翻訳モジュール
具体的なフローは、図3に示すように、まず、ターゲット知識グラフのトリプルを抽出し、抽出されたトリプルに対して文字列分割を行って、三者間に一対一対応の関係を有する主語配列、述語配列及び目的語配列という三つの動態的配列を取得し、次に、入れ子型ループにより、simplenlgのツールを用いて、主語、述語及び目的語を組み立て、一つの完全な短いセンテンスを生成し、同時に、主語-述語-目的語の関係が1対1対多数及び1対多数対多数の場合が存在する場合、特別な文字を述語配列及び目的語配列に加えて識別することにより、当該述語とある主語との対応及び当該目的語とある主語及びある述語との対応を決定し、そして、入れ子型ループにおいて、これらの特別な文字を判断して、主語、述語、目的語の対応関係を決定し、simplenlgツールを用いて、対応する主語、述語及び目的語を組み立て、一つの完全な長いセンテンスを生成し、ただし、注釈部分に対応するトリプルは、単独でセンテンスとしてなされておらず、他のセンテンスを補充する注釈情報としてなされており、そして、ターゲット知識グラフを、短いセンテンス及び長いセンテンスに翻訳し、同時に、生成されたセンテンスは、例えば、センテンスの先頭にある英字を大文字でしたり、一部の名称にハイパーリンクを追加したりするなど、さらに規範化する必要がある。規範化されたセンテンスを、ローカルデータベースに挿入し、クラスとサブクラス、及び、クラスとインスタンスとの関係のコンテンツを主語配列、述語配列、目的語配列という三つの動態的配列から選択して、JSONフォーマットのファイルに組み立てる。ローカルデータベースは、MySQLデータベースを使用してもよい。MySQLは、現在に相対に普及している一つのオープンソースの関係型データベース管理システムであり、全てのデータを一つのセルに配置する代わりに、データを異なるテーブルに記憶できるため、速度が速くなる。
2. Knowledge graph translation module As shown in Fig. 3, the specific flow is as follows: First, the triples of the target knowledge graph are extracted, the extracted triples are divided into character strings, and one-to-one between the three parties. Obtain three dynamic sequences, the subject sequence, the predicate sequence, and the target sequence, which have a corresponding relationship, and then use the tools of simplenlg to assemble the subject, predicate, and target by using a nested loop, and create one. If there are cases where the subject-predicate-object relationship is one-to-one-to-many and one-to-many-to-many, at the same time, a special character is added to the predicate and object sequences to generate a complete short sentence. By identifying, the correspondence between the predicate and a subject and the correspondence between the subject and a subject and a predicate are determined, and in a nested loop, these special characters are determined to be the subject, the predicate. , Determine the correspondence of the objectives, and use the simpleng tool to assemble the corresponding subjects, predicates and objectives to generate one complete long sentence, except that the triple corresponding to the annotation part is a sentence alone. It is not done as, but as annotative information that supplements other sentences, and translates the target knowledge graph into short and long sentences, while the generated sentence is, for example, at the beginning of the sentence. It is necessary to further standardize, such as capitalizing alphabetic characters and adding hyperlinks to some names. Insert the standardized sentence into the local database, select the content of the class and subclass, and the relationship between the class and the instance from the three dynamic arrays of subject array, predicate array, and object array, and select them in JSON format. Assemble into a file. The local database may use a MySQL database. MySQL is one open source relational database management system that is relatively popular today, and instead of putting all the data in one cell, it can store the data in different tables, which makes it faster. ..

ターゲット知識グラフのトリプルを抽出するステップは、具体的に、SPARQL(SPARQL Protocoland RDF Query Language、SPARQLプロトコル及びRDFクエリ言語)を用いて、ターゲット知識グラフにおけるすべての知識ポイント(クラス、インスタンス、対象属性、データ属性、注釈等)に対応する主語、述語及び目的語を抽出し、それらを資源記述の枠組みのトリプル(RDF Triple)に符号化する。 The step of extracting triples in the target knowledge graph specifically uses SPARQL (SPARQL Protocolland RDF Query Language, SPARQL protocol and RDF query language) to capture all knowledge points (classes, instances, target attributes, etc.) in the target knowledge graph. Extract the subject, predicate and object corresponding to (data attributes, annotations, etc.) and encode them into a triple (RDF Triple) of the resource description framework.

ターゲット知識グラフにおける短いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築する。短いセンテンスの生成では、主語、述語及び目的語の関係が1対1対1の関係であることから、入れ子型ループにより、対応する主語、述語、目的語を、Simplenlgにより、直接に、短いセンテンスとして組み立てればよい。 The step of generating a short sentence in the target knowledge graph is specifically to first perform a string split on the obtained triples to get the names of the subject, predicate and object, and build three dynamic arrays. .. Since the relationship between the subject, predicate, and object is one-to-one in the generation of a short sentence, the corresponding subject, predicate, and object are directly and short sentences by Simplenlg by a nested loop. It should be assembled as.

ターゲット知識グラフの長いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、長いセンテンスの生成では、一つの主語が複数の述語に対応でき、各述語が複数の目的語に対応できることが考えられることから、述語配列において、異なる主語に対応する述語の間を特別な識別子によりマークし、目的語配列において、異なる主語に対応する異なる述語の目的語の間を、他の特別な識別子によりマークし、主語、述語、目的語の一対一対応の関係を実現し、そして、入れ子型ループにより、これらの特別な識別子を判断し、対応する主語、述語及び目的語をSimplenlgにより組み立て、ただし、同じ主語と異なる述語とはそれぞれ、一つのセンテンスを構成しており、主語が同じである全てのセンテンスは一つの段落を構成し、異なる目的語の間が接続詞(及び、或いは)により接続される。 The step of generating a long sentence of the target knowledge graph is specifically, first, the obtained triple is divided into strings, the names of the subject, the predicate, and the object are obtained, and three dynamic sequences are constructed. Since it is possible that one subject can correspond to multiple predicates and each predicate can correspond to multiple objects in the generation of long sentences, a special identifier between predicates corresponding to different subjects in the predicate array. Marked by other special identifiers in the subject sequence, between the subjects of different predicates corresponding to different subjects, to realize a one-to-one correspondence between subject, predicate, and subject, and Nested loops determine these special identifiers and assemble the corresponding subject, predicate and object with Simpleng, where the same subject and different predicates each make up one sentence, with the same subject. All sentences that are are constituting one paragraph, and different subjects are connected by a connective (and / or).

ターゲット知識グラフにおけるセンテンスの注釈情報を補充するステップは、具体的に、まず、述語配列をループし、述語が「comment」(目的語が主語の注釈であることを示す)であると、対応する主語及び目的語を抽出して、一つの新たな動態的配列である注釈配列を形成し、ただし、添え字が奇数である配列要素に主語を記憶し、添え字が偶数である配列要素に目的語を記憶し、そして、主語配列、述語配列及び目的語配列を入れ子型ループし、主語と目的語が注釈配列に存在しているかどうかを判断し、存在していると、当該主語或いは目的語の後ろに括弧を付加し、括弧内がその注釈となり、そして、述語を判断し、述語が「comment」ではないと、組み立てを行い、そうでない場合は組み立てを行わない。 The step of replenishing the sentence annotation information in the target knowledge graph specifically first loops through the predicate array and corresponds that the predicate is "comment" (indicating that the subject is the subject's annotation). Extract the subject and object to form a new dynamic array, the annotation array, where the subject is stored in an array element with an odd number of subscripts and the purpose is in an array element with an even number of subscripts. It memorizes the word and then nested loops the subject array, predicate array and object array to determine if the subject and object are present in the annotation array, and if so, the subject or object. Add parentheses to the end of, the inside of the parentheses is the comment, and judge the predicate, if the predicate is not "comment", assemble, if not, do not assemble.

ターゲット知識グラフの短いセンテンス及び長いセンテンスをデータベースに挿入するステップは、具体的に、JDBC(Java Data Base Connectivity)APIにより、Javaとデータベースとを接続させ、まず、翻訳結果を記憶するデータベース及びテータテーブルを作成し、テーブル名、テーブルフィールドを定義し、主キーなどを確認し、そして、知識グラフの英語名称とデータベースに記憶されている名称とをマッチングし、当該知識グラフの翻訳結果が知識ベースに存在している場合に、挿入操作を行わず、存在しないと、生成された短いセンテンス配列及び長いセンテンス配列をテータテーブルに追加する。 The step of inserting the short sentence and the long sentence of the target knowledge graph into the database is specifically a database and a data table that connects Java and the database by the JDBC (Java Data Base Connectivity) API and stores the translation result. Create, define the table name, table field, check the primary key, etc., and match the English name of the knowledge graph with the name stored in the database, and the translation result of the knowledge graph becomes the knowledge base. If it exists, the insert operation is not performed, and if it does not exist, the generated short sentence sequence and long sentence sequence are added to the data table.

三、結果表示モジュール
結果表示は、三つの部分に分けられる。ウェブページ端がターゲット知識グラフを選定するか、ウェブサイトでターゲット知識グラフをアップロードすると、ajaxにより、当該ファイル或いはパラメータをバックエンドに送信し、ファイルがバックエンドに送信された後に、そのソースコードがウェブページに表示されると共に、自然言語生成を自動的に行い、生成された結果がデータベースに挿入され、そして、データベースから、関連のコンテンツを読み出してウェブページ端に表示する。同時に、システムは、主語配列、述語配列、目的語配列という三つの動態的配列から、クラスとサブクラスと、及び、クラスとインスタンスとの関係のコンテンツを選択して、JSONフォーマットのファイルに組み立て、フロントエンドに送信すると共に、視覚化ツールD3により樹形図を描き、その主な階層構造を表示する。米国国立生物医学オントロジーセンターにより開示されている慢性腎臓病に関する一つの知識グラフを例に挙げると、その実行結果を、図4-7に示し、図7は、樹形図における一部のコンテンツを示している。
3. Result display module The result display is divided into three parts. When a web page edge selects a target knowledge graph or uploads a target knowledge graph on a website, ajax sends the file or parameter to the backend, and after the file is sent to the backend, the source code is As it is displayed on the web page, it automatically generates natural language, the generated result is inserted into the database, and the related content is read from the database and displayed at the edge of the web page. At the same time, the system selects the contents of the class and subclass, and the relationship between the class and the instance from the three dynamic arrays of the subject array, predicate array, and object array, assembles them into a JSON format file, and fronts them. Along with sending to the end, the visualization tool D3 draws a dendrogram and displays its main hierarchical structure. Taking one knowledge graph on chronic kidney disease disclosed by the National Center for Biomedical Ontology as an example, the results of its execution are shown in Figure 4-7, and Figure 7 shows some content in the dendrogram. Shows.

本発明に係るシステムによると、ターゲット知識グラフをウェブサイトにアップロードするか、又はウェブサイトでデータベースにおける知識グラフを選択すると、システムは、知識グラフにおける関連コンテンツを自動的にクエリし、文字列分割を行って、RDF Tripleを短いセンテンス及び長いセンテンスに翻訳し、センテンスの構造をさらに規範化し、最後、生成されたテキストを係る分野の専門家に表示し、ただし、各センテンスは、いずれも、その知識グラフのソースコードに対応している。同時に、システムは、知識グラフにおける重要なクラスとサブクラス、及び、クラスとインスタンスとの関係を、樹形図という形式で表示することにより、専門家が、当該知識グラフのコンテンツ及び情報を迅速に理解して把握するのに役立ち、短時間で品質の制御を行う。 According to the system according to the present invention, when a target knowledge graph is uploaded to a website or a knowledge graph in a database is selected on the website, the system automatically queries the related content in the knowledge graph and performs a string split. Go and translate the RDF Triple into short and long sentences, further standardize the structure of the sentence, and finally display the generated text to experts in the field, where each sentence has its knowledge. It corresponds to the source code of the graph. At the same time, the system quickly understands the content and information of the knowledge graph by displaying the important classes and subclasses in the knowledge graph and the relationships between the classes and instances in the form of a dendrogram. It helps you to understand and control the quality in a short time.

以上は、本発明の実施形態に過ぎず、本発明の保護範囲を限定するものではない。本発明の趣旨及び原則を逸脱しない限り、創造的労働を経ずに行われたいかなる修正、均等置換や改良などは、いずれも、本発明の保護範囲に含まれる。 The above is only an embodiment of the present invention and does not limit the scope of protection of the present invention. Any modifications, even substitutions or improvements made without creative labor, as long as they do not deviate from the spirit and principles of the invention, are within the scope of the invention.

Claims (10)

知識グラフ選択モジュール、知識グラフ翻訳モジュール、及び、結果表示モジュールを含み、
前記知識グラフ選択モジュールは、RDF又はOWLの規範文法が満たされるターゲット知識グラフを取得するためのものであり、
前記知識グラフ翻訳モジュールは、まず、ターゲット知識グラフのトリプルを抽出し、抽出されたトリプルに対して文字列分割を行って、三者間に一対一対応の関係を有する主語配列、述語配列及び目的語配列という三つの動態的配列を取得し、次に、入れ子型ループにより、simplenlgのツールを用いて、主語、述語及び目的語を組み立て、一つの完全な短いセンテンスを生成し、同時に、主語-述語-目的語の関係が1対1対多数及び1対多数対多数の場合が存在する場合、特別な文字を述語配列及び目的語配列に加えて識別することにより、当該述語とある主語との対応及び当該目的語とある主語及びある述語との対応を決定し、そして、入れ子型ループにおいて、これらの特別な文字を判断して、主語、述語、目的語の対応関係を決定し、simplenlgツールを用いて、対応する主語、述語及び目的語を組み立て、一つの完全な長いセンテンスを生成し、ただし、注釈部分に対応するトリプルは、単独でセンテンスを形成せず、他のセンテンスを補充する注釈情報として使用され、そして、ターゲット知識グラフを、短いセンテンス及び長いセンテンスに翻訳し、センテンスをさらに規範化した後でローカルデータベースに記憶し、しかも、クラスとサブクラス及びクラスとインスタンスの関係のコンテンツを主語配列、述語配列、目的語配列という三つの動態的配列から選択して、JSONフォーマットのファイルに組み立て、
前記結果表示モジュールは、ローカルデータベースからターゲット知識グラフの翻訳コンテンツを呼び出し、翻訳コンテンツとターゲット知識グラフのソースファイルとを同時に表示すると共に、JSONフォーマットのファイルを取得し、視覚化ツールにより、樹形図を描き、知識グラフにおけるクラスとサブクラス及びクラスとインスタンスの階層構造を視覚化して表示することを特徴とする自然言語生成技術に基づく知識グラフ理解支援システム。
Includes knowledge graph selection module, knowledge graph translation module, and result display module,
The knowledge graph selection module is for acquiring a target knowledge graph that satisfies the normative grammar of RDF or OWL.
The knowledge graph translation module first extracts triples of the target knowledge graph, divides the extracted triples into character strings, and has a one-to-one correspondence between the three, a subject array, a predicate array, and a purpose. We get three dynamic sequences, the word sequence, and then use the tools of simplenlg to assemble the subject, predicate and object by a nested loop to generate one complete short sentence, and at the same time the subject-. When there are cases where the predicate-object relationship is one-to-one-to-many and one-to-many-to-many, a special character is identified in addition to the predicate sequence and the subject sequence to distinguish the predicate from a certain subject. Determine the correspondence and the correspondence between the subject and the subject and the predicate, and in the nested loop, determine these special characters to determine the correspondence between the subject, the predicate, and the object, the singlenlg tool. To assemble the corresponding subject, predicate and object into one complete long sentence, however, the triple corresponding to the commentary part does not form a sentence by itself, but supplements the other sentence. Used as information, the target knowledge graph is translated into short and long sentences, the sentences are further standardized and then stored in the local database, and the content of the relationship between the class and the subclass and the class and the instance is the subject array. Select from three dynamic sequences, predicate sequence and subject sequence, and assemble them into a JSON format file.
The result display module calls the translated content of the target knowledge graph from the local database, displays the translated content and the source file of the target knowledge graph at the same time, acquires a JSON format file, and uses a visualization tool to create a dendrogram. A knowledge graph comprehension support system based on natural language generation technology, which is characterized by drawing and visualizing and displaying the hierarchical structure of classes and subclasses and classes and instances in the knowledge graph.
前記知識グラフ選択モジュールがターゲット知識グラフを取得する経路は、
オープンソース知識グラフデータベースから、RDF又はOWLの規範文法が満たされる知識グラフをクロールし、クロールされた知識グラフを、知識グラフ翻訳モジュールにより翻訳し、翻訳結果をローカルデータベースに記憶し、あるテーマの知識グラフをシステムから検索することに用いられる場合、名称と知識グラフの英語名称を入力して類似度計算を行い、類似度を降順でソートし、選択すべき知識グラフを取得する第一経路と、
ユーザーは、RDF又はOWLの規範文法が満たされる知識グラフをターゲット知識グラフとしてアップロードする第二経路との二種類を含むことを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
The route by which the knowledge graph selection module acquires the target knowledge graph is
From the open source knowledge graph database, crawl the knowledge graph that meets the RDF or OWL normative grammar, translate the crawled knowledge graph with the knowledge graph translation module, store the translation results in the local database, and know the subject. When used to search the graph from the system, enter the name and the English name of the knowledge graph to perform a similarity calculation, sort the similarity in descending order, and the first route to get the knowledge graph to select.
The knowledge graph understanding based on the natural language generation technique according to claim 1, wherein the user includes two types of a knowledge graph satisfying the normative grammar of RDF or OWL as a target knowledge graph. Support system.
ターゲット知識グラフを取得する第一経路においては、類似度への判断係数にJaccard係数が用いられており、
ユーザーにより入力された名称の概念集合をC、知識グラフの英語名称の概念集合をCとすると、両者間のJaccard係数J(C,C)が以下のとおりであり、
Figure 0007064262000004
とCとが全く同じである場合に、J(C,C)の値が1となり、各検索結果が類似度の大きさに応じてソートされることを特徴とする請求項2に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
In the first path to acquire the target knowledge graph, the Jaccard index is used as the judgment coefficient for the similarity.
Assuming that the concept set of names input by the user is C 1 and the concept set of English names in the knowledge graph is C 2 , the Jaccard index J (C 1 , C 2 ) between the two is as follows.
Figure 0007064262000004
A claim characterized in that when C 1 and C 2 are exactly the same, the value of J (C 1 , C 2 ) is 1, and each search result is sorted according to the magnitude of similarity. Knowledge graph understanding support system based on the natural language generation technology described in 2.
前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフのトリプルを抽出するステップは、具体的に、SPARQLを用いて、ターゲット知識グラフにおけるすべての知識ポイント(クラス、インスタンス、対象属性、データ属性、注釈など)に対応する主語、述語及び目的語を抽出し、それらをRDFのトリプルに符号化することを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。 In the knowledge graph translation module, the step of extracting the triple of the target knowledge graph is specifically, using SPARQL, all the knowledge points (class, instance, target attribute, data attribute, annotation, etc.) in the target knowledge graph. The knowledge graph comprehension support system based on the natural language generation technique according to claim 1, wherein the subject, predicate, and object corresponding to the above are extracted and encoded into a triple of RDF . 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフにおける短いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、短いセンテンスの生成では、主語、述語及び目的語の関係が1対1対1の関係であることから、入れ子型ループにより、対応する主語、述語、目的語を、Simplenlgにより、短いセンテンスとして組み立てればよいことを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。 In the knowledge graph translation module, the step of generating a short sentence in the target knowledge graph is specifically, first, the acquired triple is divided into strings to acquire the names of the subject, the predicate, and the object. Since the relationship between the subject, predicate, and object is one-to-one-to-one in the generation of short sentences by constructing two dynamic sequences, the corresponding subject, predicate, and object are separated by a nested loop. The knowledge graph comprehension support system based on the natural language generation technique according to claim 1, wherein the sentence may be assembled as a short sentence by Simpleng. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフにおける長いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、長いセンテンスの生成では、一つの主語が複数の述語に対応でき、各述語が複数の目的語に対応できることが考えられることから、述語配列において、異なる主語に対応する述語の間を特別な識別子によりマークし、目的語配列において、異なる主語に対応する異なる述語の目的語の間を、他の特別な識別子によりマークし、主語、述語、目的語の一対一対応の関係を実現し、そして、入れ子型ループにより、これらの特別な識別子を判断し、対応する主語、述語及び目的語をSimplenlgにより組み立て、ただし、同じ主語と異なる述語とはそれぞれ、一つのセンテンスを構成しており、主語が同じである全てのセンテンスは一つの段落を構成し、異なる目的語の間が接続詞により接続されることを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。 In the knowledge graph translation module, the step of generating a long sentence in the target knowledge graph is specifically, first, the acquired triple is divided into strings to acquire the names of the subject, the predicate, and the object. In the generation of long sentences by constructing two dynamic sequences, it is possible that one predicate can correspond to multiple predicates, and each predicate can correspond to multiple objects. Therefore, in the predicate sequence, it corresponds to different subjects. Mark between predicates with a special identifier, and in the object sequence, mark between the objects of different predicates corresponding to different subjects with other special identifiers, one-to-one correspondence between the subject, predicate, and object. Realize relationships, and use nested loops to determine these special identifiers and assemble the corresponding subject, predicate and object with Simpleng, but each of the same subject and a different predicate constitutes a sentence. A knowledge graph based on the natural language generation technique according to claim 1, wherein all sentences having the same subject constitute one paragraph, and different predicates are connected by a connective. Understanding support system. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフにおけるセンテンスの注釈情報を補充するステップは、具体的に、まず、述語配列をループし、述語が「comment」(目的語が主語の注釈であることを示す)であると、対応する主語及び目的語を抽出して、一つの新たな動態的配列である注釈配列を形成し、ただし、添え字が奇数である配列要素に主語を記憶し、添え字が偶数である配列要素に目的語を記憶し、そして、主語配列、述語配列及び目的語配列を入れ子型ループし、主語と目的語が注釈配列に存在しているかどうかを判断し、存在していると、当該主語或いは目的語の後ろに括弧を付加し、括弧内がその注釈となり、そして、述語を判断し、述語が「comment」ではないと、組み立てを行い、そうでない場合は組み立てを行わないことを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。 In the knowledge graph translation module, the step of supplementing the comment information of the sentence in the target knowledge graph specifically first loops the predicate array and indicates that the predicate is "comment" (the object is the subject's comment). ), The corresponding subject and object are extracted to form an annotation sequence, which is a new dynamic sequence, but the subject is stored in the sequence element with an odd number of subscripts, and the subscript is Stores the object in an even array element, and then nested loops the subject, predicate, and object sequences to determine if the subject and object are present in the annotation array and is present. And, add parentheses after the subject or object, the inside of the parentheses is the comment, and judge the predicate, if the predicate is not "comment", assemble, if not, do not assemble The knowledge graph comprehension support system based on the natural language generation technology according to claim 1. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフの短いセンテンス及び長いセンテンスをデータベースに挿入するステップは、具体的に、JDBC APIを用いて、データベースに接続し、まず、翻訳結果を記憶するデータベース及びテータテーブルを作成し、テーブル名、テーブルフィールドを定義し、主キーを確認し、そして、知識グラフの英語名称とデータベースに記憶されている名称とをマッチングし、当該知識グラフの翻訳結果が既にローカルデータベースに存在していると、挿入操作を行わず、存在しないと、生成された短いセンテンス配列及び長いセンテンス配列をテータテーブルに追加することを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。 In the knowledge graph translation module, the step of inserting the short sentence and the long sentence of the target knowledge graph into the database specifically connects to the database using the JDBC API and first stores the translation result in the database and the data table. Create, define the table name, table field, check the primary key, match the English name of the knowledge graph with the name stored in the database, and the translation result of the knowledge graph is already in the local database. The knowledge based on the natural language generation technique according to claim 1, wherein if it exists, the insert operation is not performed, and if it does not exist, the generated short sentence sequence and long sentence sequence are added to the data table. Graph understanding support system. 前記結果表示モジュールにおいて、翻訳コンテンツ及びソースファイルを表示するステップは、具体的に、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、データベースから当該知識グラフに対応するすべての翻訳コンテンツを呼び出してインタフェースに表示すると共に、ローカルサーバーからターゲット知識グラフのソースファイルを読み出して、インタフェースに共に表示することを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。 In the result display module, the step of displaying the translated content and the source file specifically selects the target knowledge graph in the web interface, and then uses ajax to display all the translated content corresponding to the knowledge graph from the database. The knowledge graph comprehension support system based on the natural language generation technology according to claim 1, wherein the source file of the target knowledge graph is read from a local server and displayed on the interface as well as called and displayed on the interface. 前記結果表示モジュールにおいて、視覚化して表示する具体的なステップは、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、バックエンドに対応するJSONフォーマットのファイルを取得し、樹形図を描き、樹形図において、各ノードが主語或いは目的語を表し、各ノードが接続線により他の関連するノードに接続されることを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。

In the result display module, the specific step to visualize and display is to select the target knowledge graph in the web interface, then use ajax to acquire the JSON format file corresponding to the backend and create a dendrogram. The knowledge based on the natural language generation technique according to claim 1, wherein each node represents a subject or an object in a drawing and a dendrogram, and each node is connected to another related node by a connecting line. Graph understanding support system.

JP2021532885A 2019-07-12 2020-04-07 Knowledge graph understanding support system based on natural language generation technology Active JP7064262B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910629843.0A CN110347798B (en) 2019-07-12 2019-07-12 Knowledge graph auxiliary understanding system based on natural language generation technology
CN201910629843.0 2019-07-12
PCT/CN2020/083591 WO2020233261A1 (en) 2019-07-12 2020-04-07 Natural language generation-based knowledge graph understanding assistance system

Publications (2)

Publication Number Publication Date
JP2022510031A JP2022510031A (en) 2022-01-25
JP7064262B2 true JP7064262B2 (en) 2022-05-10

Family

ID=68176110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532885A Active JP7064262B2 (en) 2019-07-12 2020-04-07 Knowledge graph understanding support system based on natural language generation technology

Country Status (3)

Country Link
JP (1) JP7064262B2 (en)
CN (1) CN110347798B (en)
WO (1) WO2020233261A1 (en)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347798B (en) * 2019-07-12 2021-06-01 之江实验室 Knowledge graph auxiliary understanding system based on natural language generation technology
CN111370127B (en) * 2020-01-14 2022-06-10 之江实验室 Decision support system for early diagnosis of chronic nephropathy in cross-department based on knowledge graph
US20210295036A1 (en) * 2020-03-18 2021-09-23 International Business Machines Corporation Systematic language to enable natural language processing on technical diagrams
CN112100322B (en) * 2020-08-06 2022-09-16 复旦大学 API element comparison result automatic generation method based on knowledge graph
CN112101040B (en) * 2020-08-20 2024-03-29 淮阴工学院 Ancient poetry semantic retrieval method based on knowledge graph
CN112380864B (en) * 2020-11-03 2021-05-28 广西大学 Text triple labeling sample enhancement method based on translation
CN112749184B (en) * 2021-01-13 2024-02-20 广东粤通天下科技有限公司 SPARQL joint query data source selection method
US11829726B2 (en) 2021-01-25 2023-11-28 International Business Machines Corporation Dual learning bridge between text and knowledge graph
CN114840563B (en) * 2021-02-01 2024-05-03 腾讯科技(深圳)有限公司 Method, device, equipment and storage medium for generating field description information
CN112966493A (en) * 2021-02-07 2021-06-15 重庆惠统智慧科技有限公司 Knowledge graph construction method and system
CN113111458B (en) * 2021-04-13 2022-10-21 合肥工业大学 DXF-based sheet metal part automatic identification and positioning method
CN113094517A (en) * 2021-04-27 2021-07-09 中国美术学院 Method and system for constructing product knowledge unit
CN113157891B (en) * 2021-05-07 2023-11-17 泰康保险集团股份有限公司 Knowledge graph path ordering method, system, equipment and storage medium
CN113282762B (en) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 Knowledge graph construction method, knowledge graph construction device, electronic equipment and storage medium
CN113407688B (en) * 2021-06-15 2022-09-16 西安理工大学 Method for establishing knowledge graph-based survey standard intelligent question-answering system
CN113377349B (en) * 2021-06-21 2022-05-13 浙江工业大学 Method for detecting difference between service processes and translating natural language
CN113467755B (en) * 2021-07-12 2022-07-26 卡斯柯信号有限公司 Demand compliance analysis method, system, electronic device and storage medium
CN113553443B (en) * 2021-07-18 2023-08-22 北京智慧星光信息技术有限公司 Relation map generation method and system for recording knowledge map migration path
CN113434626B (en) * 2021-08-27 2021-12-07 之江实验室 Multi-center medical diagnosis knowledge map representation learning method and system
CN113810480B (en) * 2021-09-03 2022-09-16 海南大学 Emotion communication method based on DIKW content object
CN113890899B (en) * 2021-09-13 2022-11-18 北京交通大学 Protocol conversion method based on knowledge graph
CN113805847A (en) * 2021-09-15 2021-12-17 南通在渡教育咨询有限公司 On-line codeless development system
CN114201618B (en) * 2022-02-17 2022-09-13 药渡经纬信息科技(北京)有限公司 Drug development literature visualization interpretation method and system
WO2023159650A1 (en) * 2022-02-28 2023-08-31 Microsoft Technology Licensing, Llc Mining and visualizing related topics in knowledge base
CN115271683B (en) * 2022-09-26 2023-01-13 西南交通大学 BIM automatic standard checking system based on standard knowledge map element structure
CN115545006B (en) * 2022-10-10 2024-02-13 清华大学 Rule script generation method, device, computer equipment and medium
CN115577713B (en) * 2022-12-07 2023-03-17 中科雨辰科技有限公司 Text processing method based on knowledge graph
CN116628229B (en) * 2023-07-21 2023-11-10 支付宝(杭州)信息技术有限公司 Method and device for generating text corpus by using knowledge graph
CN117436420A (en) * 2023-12-18 2024-01-23 武汉大数据产业发展有限公司 Method and device for generating business process model based on natural language processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033260A (en) 2018-07-06 2018-12-18 天津大学 Knowledge mapping Interactive Visualization querying method based on RDF

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020148A (en) * 2012-11-23 2013-04-03 复旦大学 System and method for converting Chinese phrase structure tree banks into interdependent structure tree banks
EP3281122A4 (en) * 2015-07-24 2018-04-25 Samsung Electronics Co., Ltd. Method for automatically generating dynamic index for content displayed on electronic device
US10229195B2 (en) * 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN107766483A (en) * 2017-10-13 2018-03-06 华中科技大学 The interactive answering method and system of a kind of knowledge based collection of illustrative plates
US11361227B2 (en) * 2017-11-21 2022-06-14 Google Llc Onboarding of entity data
CN107798136B (en) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 Entity relation extraction method and device based on deep learning and server
CN110019471B (en) * 2017-12-15 2024-03-08 微软技术许可有限责任公司 Generating text from structured data
CN108829696B (en) * 2018-04-18 2019-10-25 西安理工大学 Towards knowledge mapping node method for auto constructing in metro design code
CN109062939A (en) * 2018-06-20 2018-12-21 广东外语外贸大学 A kind of intelligence towards Chinese international education leads method
CN108959613B (en) * 2018-07-17 2021-09-03 杭州电子科技大学 RDF knowledge graph-oriented semantic approximate query method
CN109146078B (en) * 2018-07-19 2021-04-30 桂林电子科技大学 Knowledge graph representation learning method based on dynamic path
CN109408811B (en) * 2018-09-29 2021-10-22 联想(北京)有限公司 Data processing method and server
CN110347798B (en) * 2019-07-12 2021-06-01 之江实验室 Knowledge graph auxiliary understanding system based on natural language generation technology

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033260A (en) 2018-07-06 2018-12-18 天津大学 Knowledge mapping Interactive Visualization querying method based on RDF

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ngan T. Dong et al.,"Natural Language Generation from Graphs",International Journal of Semantic Computing,World Scientific Publishing Company,2014年,Vol. 8, No. 3,pp.335-384,DOI:10.1142/S1793351X14500068
片山 俊明,「JavaScriptによるSPARQL検索結果の可視化ライブラリ」,2015年度 人工知能学会全国大会(第29回)論文集[CD-ROM],社団法人 人工知能学会,2015年,1G3-OS-08b-1,pp.1-2

Also Published As

Publication number Publication date
WO2020233261A1 (en) 2020-11-26
CN110347798B (en) 2021-06-01
CN110347798A (en) 2019-10-18
JP2022510031A (en) 2022-01-25

Similar Documents

Publication Publication Date Title
JP7064262B2 (en) Knowledge graph understanding support system based on natural language generation technology
Shigarov et al. Rule-based spreadsheet data transformation from arbitrary to relational tables
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
US7739257B2 (en) Search engine
Zhao et al. Facilitating discourse analysis with interactive visualization
Utama et al. An end-to-end neural natural language interface for databases
CN111475623A (en) Case information semantic retrieval method and device based on knowledge graph
Brando et al. REDEN: named entity linking in digital literary editions using linked data sets
CN105701253A (en) Chinese natural language interrogative sentence semantization knowledge base automatic question-answering method
WO2021213314A1 (en) Data processing method and device, and computer readable storage medium
CN113806563A (en) Architect knowledge graph construction method for multi-source heterogeneous building humanistic historical material
Ta'a et al. Al-Quran ontology based on knowledge themes
US20230205996A1 (en) Automatic Synonyms Using Word Embedding and Word Similarity Models
Carta et al. Iterative zero-shot llm prompting for knowledge graph construction
Prudhomme et al. Automatic Integration of Spatial Data into the Semantic Web.
Cocco et al. Machine learning of SPARQL templates for question answering over LinkedSpending
Dhandapani et al. Question answering system over semantic web
Isemann et al. Ontological access to images of fine art
CN114064913A (en) Knowledge graph-based document retrieval method and system
CN114238653A (en) Method for establishing, complementing and intelligently asking and answering knowledge graph of programming education
Li et al. Neural factoid geospatial question answering
CN116306504B (en) Candidate entity generation method and device, storage medium and electronic equipment
Borsje et al. Graphical query composition and natural language processing in an RDF visualization interface
To et al. Question-answering system with linguistic terms over RDF knowledge graphs
Xie et al. Research and implementation of automatic question answering system based on ontology

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210609

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220415

R150 Certificate of patent or registration of utility model

Ref document number: 7064262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150