CN107133271A - 语义脑图实时表达系统及其操作方法 - Google Patents

语义脑图实时表达系统及其操作方法 Download PDF

Info

Publication number
CN107133271A
CN107133271A CN201710213799.6A CN201710213799A CN107133271A CN 107133271 A CN107133271 A CN 107133271A CN 201710213799 A CN201710213799 A CN 201710213799A CN 107133271 A CN107133271 A CN 107133271A
Authority
CN
China
Prior art keywords
node
semantic
incidence matrix
mind map
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710213799.6A
Other languages
English (en)
Other versions
CN107133271B (zh
Inventor
耿亦兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd
Original Assignee
SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd filed Critical SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd
Priority to CN201710213799.6A priority Critical patent/CN107133271B/zh
Publication of CN107133271A publication Critical patent/CN107133271A/zh
Priority to US16/314,840 priority patent/US10970489B2/en
Priority to PCT/CN2018/081327 priority patent/WO2018177411A1/zh
Application granted granted Critical
Publication of CN107133271B publication Critical patent/CN107133271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语义脑图实时表达系统及其操作方法,该系统包括关联矩阵、聚焦关联操作模块,关联矩阵与聚焦关联操作模块相连,其中:关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块等,聚焦关联操作模块包括聚焦节点、聚焦关联节点等。本发明应用于搜索引擎包括跨库搜索引擎时,是对搜索结果服务界面的扩充,用以实时帮助用户更好地鉴别和发现相关兴趣文献。

Description

语义脑图实时表达系统及其操作方法
技术领域
本发明涉及一种表达系统及其操作方法,特别是涉及一种语义脑图实时表达系统及其操作方法。
背景技术
就文献搜索引擎而言,通常是依据搜索提问给出一组相关文献列表。也有不少搜索引擎在文献检出结果中,试图对文献的某些特征进一步细分和聚类(比如将搜索结果按年代细分聚类或者按作者细分聚类等等),以帮助用户更好地区分和识别相关兴趣文献。
现有的搜索结果呈现模式缺乏实时深层次地揭示文献中文本信息之间的复杂语义网络关系的手段,也不能够同时揭示这些相关文本信息之间的共现文献指引。
发明内容
本发明所要解决的技术问题是提供一种语义脑图实时表达系统及其操作方法,其能够以文献中的文本特征词构建一个m行乘n列关联矩阵,并在此关联矩阵基础上,揭示文本信息之间多层次的语义网络关系,以及揭示相关文本信息之间的共现文献指引;本发明应用于搜索引擎包括跨库搜索引擎时,是对搜索结果服务界面的扩充,用以实时帮助用户更好地鉴别和发现相关兴趣文献。
本发明是通过下述技术方案来解决上述技术问题的:一种语义脑图实时表达系统,其包括:
关联矩阵,与聚焦关联操作模块相连,关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块,其中:
起点节点,与直接关联模块相连,在一个显示界面上用于标注关联矩阵左侧第一列,可以是1到m个文本特征词,初始值可以是用户的搜索提问词,m为自然数;
直接关联模块,与间接关联模块相连,用于标注关联矩阵中起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点;
间接关联模块,与弱关联模块相连,用于标注关联矩阵中各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点;
弱关联模块,与角标模块相连,用于标注关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,或者用于减少层级复杂性而将关联矩阵中的全部剩余未标注节点;
角标模块,赋予关联矩阵中的各个节点右上角角标,用于标注该节点在当前搜索结果子集中的相关联文献数;
聚焦关联操作模块,其包括聚焦节点、聚焦关联节点,其中:
聚焦节点,用于选取关联矩阵任意节点,使之成为当前聚焦节点;
聚焦关联节点,与聚焦节点相连,用于标注关联矩阵各列中所有与聚焦节点文本特征词有同句或同篇共现关系的节点。
优选地,所述赋予聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;赋予聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
优选地,所述关联矩阵受屏幕界面显示面积的物理限制,关联矩阵表现为一个m行乘n列关联矩阵阵列显示,关联矩阵中的各个节点是从搜索文本文献中分解提取的文本特征词,n为自然数。
本发明还提供一种语义脑图实时表达系统的操作方法,其包括以下步骤:
步骤九十,获取语义脑图实时数据源;
步骤九十一,提取语义脑图文本特征词;
步骤九十二,构成语义脑图的关联矩阵基本数据;
步骤九十三,对语义脑图的呈现及表达;
步骤九十四,对语义脑图中聚焦节点操作;
步骤九十五,对语义脑图中文献揭示操作;
步骤九十六,重构语义脑图;
其中:
步骤九十包括以下步骤:
步骤一,在文献搜索过程中,实时截获当前文献搜索结果的前若干篇文献,也就是动态获得与读者提问相关的Top-N篇文献;
步骤二,截获内容包括每篇文献的文献篇名、文献摘要、甚至扩展到文献全文的文本信息;
步骤九十一包括以下步骤:
步骤十,文本信息的预处理,以句子为单位进行文本切分,获得句子中一连串的自由词或自由词组片段;
步骤十一,取自由词或自由词组片段的词干模式为文本特征信息;由此,每一文本句子转换为一组文本特征词串;每一文本句子依据其文献在搜索结果中的权重,以及在当前文献中的位置赋予一定的经验权重;
步骤九十二是对一个知识发现数据发散的过程,其包括以下步骤:
步骤二十,将语义脑图的基本数据集定义为一个m行乘n列的关联矩阵;
步骤二十一,将读者搜索提问的文本特征词作为语义脑图的左侧第一列起始节点;
步骤二十二,依据当前列中的现有文本特征词,在搜索结果的所有句子全集当中,搜索密切相关的文本特征词;
步骤二十三,去重语义脑图关联矩阵中左侧中已经出现过的文本特征词;
步骤二十四,依据所获取的新文本特征词的权重,取权值最高的m个文本特征词作为语义脑图新的一列;
步骤二十五,重复步骤二十二至步骤二十四,直至完成全部n列数据;
步骤九十三是对一个知识发现数据层级收敛的过程,其包括以下步骤:
步骤三十,语义脑图的呈现是在语义脑图基本数据集m行乘n列的关联矩阵基础上,针对其中的每个节点元素分别赋予不同节点类型;节点类型包括起点节点、直接关联节点、间接关联节点、弱关联节点等四种节点类型;
步骤三十一,语义脑图左侧第一列定义为当前语义脑图的起点节点;
步骤三十二,将关联矩阵起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点,标注为直接关联节点;
步骤三十三,将关联矩阵各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点,标注为间接关联节点;
步骤三十四,将关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,标注为弱关联节点,为减少层级复杂性而将关联矩阵中的全部剩余未标注节点也标注为弱关联节点;
步骤三十五,在关联矩阵各个节点右上角的角标处,标注该节点在当前搜索结果子集中的相关联文献数;
步骤九十四是对一个知识联想发现过程,其包括以下步骤:
步骤四十,选取关联矩阵中的任意一个语义节点,使之成为当前聚焦节点,以表示当前节点是用户选中的兴趣聚焦节点;
步骤四十一,在语义脑图中计算该聚焦节点文本特征词的所有同句共现或同篇共现的节点词,标注为聚焦关联节点;
步骤四十二,赋予所述聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;
步骤四十三,赋予所述聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现文献数;
步骤九十五包括以下步骤:
步骤五十,单击语义脑图关联矩阵中任意节点上角标数字,系统弹出窗口,显示该数字所链接的相关文献详细介绍;
步骤五十一,在文献详情窗口,点击具体的任意一篇文献,则转跳到原始搜索引擎的具体文献显示页面;
步骤九十六包括以下步骤:
步骤六十,在当前语义脑图关联矩阵中拖拽任意语义节点词至核心词列的位置,则该语义节点词成为新的核心词;
步骤六十一,语义脑图将以此新的核心词在原先文献搜索结果的基础上重构一幅新的语义脑图。
本发明的积极进步效果在于:本发明能够通过关联矩阵的呈现模式能够揭示一个搜索主题下语义概念的扩展关联和多层次的语义网络关系,能够揭示关联矩阵中任一节点相互间的的直接联想关系,每个语义节点的不同角标能够揭示该节点在搜索结果中的相关文献数,揭示相关节点之间的同句或同篇共现文献数及其链接,关联矩阵列内语义节点保有语义权重的有序性。本发明应用于搜索引擎包括跨库搜索引擎时,是对搜索结果服务界面的扩充,以实时帮助用户更好地鉴别和启发相关兴趣文献。
附图说明
图1为本发明的结构示意图。
图2为本发明显示界面的结构示意图。
图3为本发明的聚焦节点的结构示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明语义脑图实时表达系统包括关联矩阵、聚焦关联操作模块,关联矩阵与聚焦关联操作模块相连,其中:
关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块,其中:
起点节点,与直接关联模块相连,在一个显示界面上用于标注关联矩阵左侧第一列,可以是1到m个文本特征词(m为自然数),初始值可以是用户的搜索提问词;
直接关联模块,与间接关联模块相连,用于标注关联矩阵中起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点;
间接关联模块,与弱关联模块相连,用于标注关联矩阵中各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点;
弱关联模块,与角标模块相连,用于标注关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,或者用于减少层级复杂性而将关联矩阵中的全部剩余未标注节点;
角标模块,赋予关联矩阵中的各个节点右上角角标,用于标注该节点(文本特征词)在当前搜索结果子集中的相关联文献数;
聚焦关联操作模块包括聚焦节点、聚焦关联节点,其中:
聚焦节点,用于选取关联矩阵任意节点,使之成为当前聚焦节点;
聚焦关联节点,与聚焦节点相连,用于标注关联矩阵各列中所有与聚焦节点文本特征词有同句或同篇共现关系的节点。
所述赋予聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;赋予聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
所述关联矩阵受屏幕界面显示面积的物理限制,关联矩阵表现为一个m行乘n列关联矩阵阵列显示(n为自然数),关联矩阵中的各个节点是从搜索文本文献中分解提取的文本特征词。
本发明语义脑图实时表达系统的操作方法包括以下步骤:
步骤九十,获取语义脑图实时数据源;
步骤九十一,提取语义脑图文本特征词;
步骤九十二,构成语义脑图的关联矩阵基本数据;
步骤九十三,对语义脑图的呈现及表达;
步骤九十四,对语义脑图中聚焦节点操作;
步骤九十五,对语义脑图中文献揭示操作;
步骤九十六,重构语义脑图;
其中:
步骤九十包括以下步骤:
步骤一,在文献搜索过程中,实时截获当前文献搜索结果的前若干篇文献,也就是动态获得与读者提问相关的Top-N(前N个,N为自然数)篇文献;
步骤二,截获内容包括每篇文献的文献篇名、文献摘要、甚至扩展到文献全文的文本信息;
步骤九十一包括以下步骤:
步骤十,文本信息的预处理,以句子为单位进行文本切分,获得句子中一连串的自由词或自由词组片段;
步骤十一,取自由词或自由词组片段的词干模式为文本特征信息;由此,每一文本句子转换为一组文本特征词串;每一文本句子依据其文献在搜索结果中的权重,以及在当前文献中的位置赋予一定的经验权重;
步骤九十二是对一个知识发现数据发散的过程,其包括以下步骤:
步骤二十,将语义脑图的基本数据集定义为一个m行乘n列的关联矩阵;
步骤二十一,将读者搜索提问的文本特征词作为语义脑图的左侧第一列起始节点;
步骤二十二,依据当前列中的现有文本特征词,在搜索结果的所有句子全集当中,搜索密切相关(具有同句共现关系)的文本特征词;
步骤二十三,去重语义脑图关联矩阵中左侧(前期)中已经出现过的文本特征词;
步骤二十四,依据所获取的新文本特征词的权重,取权值最高的m个文本特征词(保持关联矩阵每列节点的先后有序)作为语义脑图新的一列;
步骤二十五,重复步骤二十二至步骤二十四,直至完成全部n列数据;
步骤九十三是对一个知识发现数据层级收敛的过程,其包括以下步骤:
步骤三十,语义脑图的呈现是在语义脑图基本数据集m行乘n列的关联矩阵基础上,针对其中的每个节点元素分别赋予不同节点类型;节点类型包括起点节点、直接关联节点、间接关联节点、弱关联节点等四种节点类型;
步骤三十一,语义脑图左侧第一列定义为当前语义脑图的起点节点;
步骤三十二,将关联矩阵起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点,标注为直接关联节点;
步骤三十三,将关联矩阵各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点,标注为间接关联节点;
步骤三十四,将关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,标注为弱关联节点,为减少层级复杂性而将关联矩阵中的全部剩余未标注节点也标注为弱关联节点;
步骤三十五,在关联矩阵各个节点右上角的角标处,标注该节点(文本特征词)在当前搜索结果子集中的相关联文献数;
步骤九十四是对一个知识联想发现过程,其包括以下步骤:
步骤四十,选取关联矩阵中的任意一个语义节点,使之成为当前聚焦节点(加亮显示),以表示当前节点是用户选中的兴趣聚焦节点;
步骤四十一,在语义脑图中计算该聚焦节点文本特征词的所有同句共现或同篇共现的节点词,标注为聚焦关联节点;
步骤四十二,赋予所述聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;
步骤四十三,赋予所述聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现文献数;
步骤九十五包括以下步骤:
步骤五十,单击语义脑图关联矩阵中任意节点上角标数字,系统弹出窗口,显示该数字所链接的相关文献详细介绍;
步骤五十一,在文献详情窗口,点击具体的任意一篇文献,则转跳到原始搜索引擎的具体文献显示页面;
步骤九十六包括以下步骤:
步骤六十,在当前语义脑图关联矩阵中拖拽任意语义节点词至核心词列的位置,则该语义节点词成为新的核心词;
步骤六十一,语义脑图将以此新的核心词在原先文献搜索结果的基础上重构一幅新的语义脑图。
所述步骤九十五对实时搜索语义脑图中文献检出文献文本内容的一个语义关联揭示,将突破搜索引擎现有的搜索结果呈现模式,为用户提供一个启发式发散思维脑图,以帮助用户更好地区分和识别相关兴趣文献。
所述启发式发散思维脑图具有以下特性:
一、使用关联矩阵揭示语义网络关系,将语义脑图定义为一个m行乘n列的关联矩阵。中,以起点节点词作为第一起始列,后续的第n列数据是由前n-1列的节点元素在文献搜索结果中推导而得;
二、揭示多层次的语义网络关系,在语义脑图中,由任意核心节点词起始,推导并揭示核心节点的直接关联节点、间接关联节点和弱关联节点等四个层级关系表达;
三、关联矩阵的每个语义节点同时揭示该节点在搜索结果中的相关文献数,利用语义节点的右上角的角标所显示的相关文献数,以达到搜索结果进一步聚类细分的指引目的;
四、揭示相关节点之间的共现文献数,当选中任意一个节点作为兴趣点时(我们称之为聚焦节点),系统会推导并揭示当前脑图中该兴趣节点的所有直接关联节点,同时揭示聚焦节点与各个关联节点之间同篇共现的相关文献数(通过节点左上标方式);揭示聚焦节点与各个关联节点之间同句共现的相关文献数(通过节点左下标方式);
五、语义脑图的列内语义节点有序性,语义脑图单一列的向量空间内,所有节点之间依据该文本自由词的语义权重和文献时序权重,反映列内语义节点的先后有序特性。
本发明是依据搜索结果中的文本特征词构建一幅动态语义脑图;并提供一组针对此脑图的启发式语义关联操作;以激发读者在搜索过程中的发散思维和迅速定位检索命中文献。
实施例
本实施例中的系统包括一个语义脑图显示界面,该语义脑图显示界面是一个20行乘6列的关联矩阵,矩阵中的各个节点元素是从搜索文本文献中分解提取的文本特征词。
如图2所示,在实施例中,关联矩阵的节点有四种不同类型:
起始节点,例如:当前用户的搜索词是“bronchitis”(支气管炎);
直接关联节点,例如:第2列第1行节点元素是“antibiotic”(抗生素),第6列第8行节点元素是“cytokines”(细胞因子);
间接关联节点,例如:第2列第9行节点元素是“sleep apnoea”(睡眠磨牙),第4列第10行节点元素是“emphysema”(气肿);
弱关联节点,例如:第5列第2行节点元素是“IL-1”(白细胞介素-1),第5列第6行节点元素是“lung tissues”(肺部组织);
关联矩阵中的各个元素(节点)右上角角标,用于标注该节点(文本特征词)在当前搜索结果子集中的相关联文献数。
第2列第1行节点“antibiotic”(抗生素)的权重序值(重要程度)大于等于同列第2行节点“asthma”(哮喘),第2行节点的权重序值大于同列第3行节点“chronic bronchitis”(慢性支气管炎),依次类推。
本实施例是针对实时文献搜索结果的一种启发式知识关联与发散思维表达模式,是对实时文献搜索结果语义层面的再加工、整合和文献内容的深度揭示。
如图3所示,在本实施例中,语义脑图实时表达系统包括:
聚焦关联操作,选取关联矩阵任意节点,使之成为当前聚焦节点;例如:选取第6列第7行节点元素“cytokines”(细胞因子)作为当前感兴趣的聚焦节点,则语义脑图显示界面的第2列第5行节点元素“pneumonia”(肺炎)、第5列第2行节点元素是“IL-1”(白细胞介素-1)以及第5列第6行节点元素“lung tissues”(肺部组织)等节点被提示为当前聚焦节点的直接关联节点;
聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数。
聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种语义脑图实时表达系统,其特征在于,其包括:
关联矩阵,与聚焦关联操作模块相连,关联矩阵包括起点节点、直接关联模块、间接关联模块、弱关联模块、角标模块,其中:
起点节点,与直接关联模块相连,在一个显示界面上用于标注关联矩阵左侧第一列,是1到m个文本特征词,初始值是用户的搜索提问词,m为自然数;
直接关联模块,与间接关联模块相连,用于标注关联矩阵中起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点;
间接关联模块,与弱关联模块相连,用于标注关联矩阵中各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点;
弱关联模块,与角标模块相连,用于标注关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,或者用于减少层级复杂性而将关联矩阵中的全部剩余未标注节点;
角标模块,赋予关联矩阵中的各个节点右上角角标,用于标注该节点在当前搜索结果子集中的相关联文献数;
聚焦关联操作模块,其包括聚焦节点、聚焦关联节点,其中:
聚焦节点,用于选取关联矩阵任意节点,使之成为当前聚焦节点;
聚焦关联节点,与聚焦节点相连,用于标注关联矩阵各列中所有与聚焦节点文本特征词有同句或同篇共现关系的节点。
2.如权利要求1所述的语义脑图实时表达系统,其特征在于,所述赋予聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;赋予聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现的句子数。
3.如权利要求1所述的语义脑图实时表达系统,其特征在于,所述关联矩阵受屏幕界面显示面积的物理限制,关联矩阵表现为一个m行乘n列关联矩阵阵列显示,关联矩阵中的各个节点是从搜索文本文献中分解提取的文本特征词,n为自然数。
4.一种语义脑图实时表达系统的操作方法,其特征在于,其包括以下步骤:
步骤九十,获取语义脑图实时数据源;
步骤九十一,提取语义脑图文本特征词;
步骤九十二,构成语义脑图的关联矩阵基本数据;
步骤九十三,对语义脑图的呈现及表达;
步骤九十四,对语义脑图中聚焦节点操作;
步骤九十五,对语义脑图中文献揭示操作;
步骤九十六,重构语义脑图;
其中:
步骤九十包括以下步骤:
步骤一,在文献搜索过程中,实时截获当前文献搜索结果的前若干篇文献,也就是动态获得与读者提问相关的Top-N篇文献;
步骤二,截获内容包括每篇文献的文献篇名、文献摘要、甚至扩展到文献全文的文本信息;
步骤九十一包括以下步骤:
步骤十,文本信息的预处理,以句子为单位进行文本切分,获得句子中一连串的自由词或自由词组片段;
步骤十一,取自由词或自由词组片段的词干模式为文本特征信息;由此,每一文本句子转换为一组文本特征词串;每一文本句子依据其文献在搜索结果中的权重,以及在当前文献中的位置赋予一定的经验权重;
步骤九十二是对一个知识发现数据发散的过程,其包括以下步骤:
步骤二十,将语义脑图的基本数据集定义为一个m行乘n列的关联矩阵;
步骤二十一,将读者搜索提问的文本特征词作为语义脑图的左侧第一列起始节点;
步骤二十二,依据当前列中的现有文本特征词,在搜索结果的所有句子全集当中,搜索密切相关的文本特征词;
步骤二十三,去重语义脑图关联矩阵中左侧中已经出现过的文本特征词;
步骤二十四,依据所获取的新文本特征词的权重,取权值最高的m个文本特征词作为语义脑图新的一列;
步骤二十五,重复步骤二十二至步骤二十四,直至完成全部n列数据;
步骤九十三是对一个知识发现数据层级收敛的过程,其包括以下步骤:
步骤三十,语义脑图的呈现是在语义脑图基本数据集m行乘n列的关联矩阵基础上,针对其中的每个节点元素分别赋予不同节点类型;节点类型包括起点节点、直接关联节点、间接关联节点、弱关联节点四种节点类型;
步骤三十一,语义脑图左侧第一列定义为当前语义脑图的起点节点;
步骤三十二,将关联矩阵起点节点右侧后续各列中与起点节点文本特征词有文本同句共现关系的节点,标注为直接关联节点;
步骤三十三,将关联矩阵各直接关联节点右侧后续各列中与前期任一直接关联节点文本特征词有文本同句共现关系的未标注节点,标注为间接关联节点;
步骤三十四,将关联矩阵各间接关联节点右侧后续各列中与间接关联节点文本特征词有同句共现关系的未标注节点,标注为弱关联节点,为减少层级复杂性而将关联矩阵中的全部剩余未标注节点也标注为弱关联节点;
步骤三十五,在关联矩阵各个节点右上角的角标处,标注该节点在当前搜索结果子集中的相关联文献数;
步骤九十四是对一个知识联想发现过程,其包括以下步骤:
步骤四十,选取关联矩阵中的任意一个语义节点,使之成为当前聚焦节点,以表示当前节点是用户选中的兴趣聚焦节点;
步骤四十一,在语义脑图中计算该聚焦节点文本特征词的所有同句共现或同篇共现的节点词,标注为聚焦关联节点;
步骤四十二,赋予所述聚焦关联节点的左上角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同篇共现文献数;
步骤四十三,赋予所述聚焦关联节点的左下角数字角标,标注当前聚焦相关节点基于聚焦节点的文本特征词同句共现文献数;
步骤九十五包括以下步骤:
步骤五十,单击语义脑图关联矩阵中任意节点上角标数字,系统弹出窗口,显示该数字所链接的相关文献详细介绍;
步骤五十一,在文献详情窗口,点击具体的任意一篇文献,则转跳到原始搜索引擎的具体文献显示页面;
步骤九十六包括以下步骤:
步骤六十,在当前语义脑图关联矩阵中拖拽任意语义节点词至核心词列的位置,则该语义节点词成为新的核心词;
步骤六十一,语义脑图将以此新的核心词在原先文献搜索结果的基础上重构一幅新的语义脑图。
CN201710213799.6A 2017-04-01 2017-04-01 语义脑图实时表达系统及其操作方法 Active CN107133271B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710213799.6A CN107133271B (zh) 2017-04-01 2017-04-01 语义脑图实时表达系统及其操作方法
US16/314,840 US10970489B2 (en) 2017-04-01 2018-03-30 System for real-time expression of semantic mind map, and operation method therefor
PCT/CN2018/081327 WO2018177411A1 (zh) 2017-04-01 2018-03-30 语义脑图实时表达系统及其操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710213799.6A CN107133271B (zh) 2017-04-01 2017-04-01 语义脑图实时表达系统及其操作方法

Publications (2)

Publication Number Publication Date
CN107133271A true CN107133271A (zh) 2017-09-05
CN107133271B CN107133271B (zh) 2021-04-06

Family

ID=59715997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710213799.6A Active CN107133271B (zh) 2017-04-01 2017-04-01 语义脑图实时表达系统及其操作方法

Country Status (3)

Country Link
US (1) US10970489B2 (zh)
CN (1) CN107133271B (zh)
WO (1) WO2018177411A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018177411A1 (zh) * 2017-04-01 2018-10-04 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法
CN113050933A (zh) * 2021-06-02 2021-06-29 上海钛米机器人股份有限公司 脑图数据处理方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023481B2 (en) * 2018-08-08 2021-06-01 commos inc. Navigation platform for performing search queries
US11587347B2 (en) * 2021-01-21 2023-02-21 International Business Machines Corporation Pre-processing a table in a document for natural language processing

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852124A (zh) * 2006-05-18 2006-10-25 复旦大学 播存网格环境下客户端资源检索及自动下载方法
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
CN104598629A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 基于流式图模型的社交网络突发事件检测方法
US20150127650A1 (en) * 2013-11-04 2015-05-07 Ayasdi, Inc. Systems and methods for metric data smoothing
CN104933032A (zh) * 2015-06-29 2015-09-23 电子科技大学 一种基于复杂网络的博客关键词提取方法
CN105069080A (zh) * 2015-07-31 2015-11-18 中国农业科学院农业信息研究所 一种文献检索方法及系统
US20160012044A1 (en) * 2014-07-14 2016-01-14 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US9558265B1 (en) * 2016-05-12 2017-01-31 Quid, Inc. Facilitating targeted analysis via graph generation based on an influencing parameter

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145677B2 (en) * 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
CN101281530A (zh) * 2008-05-20 2008-10-08 上海大学 基于概念衍生树的关键词层次聚类方法
CN102222115B (zh) * 2011-07-12 2013-09-11 厦门大学 基于关键词共现的研究热点边连通度分析方法
US20170103439A1 (en) * 2015-10-07 2017-04-13 Gastown Data Sciences Searching Evidence to Recommend Organizations
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
CN107133271B (zh) * 2017-04-01 2021-04-06 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
CN1852124A (zh) * 2006-05-18 2006-10-25 复旦大学 播存网格环境下客户端资源检索及自动下载方法
US20150127650A1 (en) * 2013-11-04 2015-05-07 Ayasdi, Inc. Systems and methods for metric data smoothing
US20160012044A1 (en) * 2014-07-14 2016-01-14 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
CN104598629A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 基于流式图模型的社交网络突发事件检测方法
CN104933032A (zh) * 2015-06-29 2015-09-23 电子科技大学 一种基于复杂网络的博客关键词提取方法
CN105069080A (zh) * 2015-07-31 2015-11-18 中国农业科学院农业信息研究所 一种文献检索方法及系统
US9558265B1 (en) * 2016-05-12 2017-01-31 Quid, Inc. Facilitating targeted analysis via graph generation based on an influencing parameter

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱君瑞,等: "数字图书馆协同阅览服务平台的设计与实现", 《数字图书馆论坛》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018177411A1 (zh) * 2017-04-01 2018-10-04 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法
US10970489B2 (en) 2017-04-01 2021-04-06 Shanghai Banpo Network Technologies Ltd. System for real-time expression of semantic mind map, and operation method therefor
CN113050933A (zh) * 2021-06-02 2021-06-29 上海钛米机器人股份有限公司 脑图数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20200012722A1 (en) 2020-01-09
CN107133271B (zh) 2021-04-06
US10970489B2 (en) 2021-04-06
WO2018177411A1 (zh) 2018-10-04

Similar Documents

Publication Publication Date Title
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Surdeanu Overview of the TAC2013 Knowledge Base Population Evaluation: English Slot Filling and Temporal Slot Filling.
Zhong et al. It makes sense: A wide-coverage word sense disambiguation system for free text
CN104504150B (zh) 新闻舆情监测系统
CN103699525B (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
Mishra et al. MAULIK: an effective stemmer for Hindi language
CN107133271A (zh) 语义脑图实时表达系统及其操作方法
CN102043808B (zh) 利用网页结构抽取双语词条的方法及设备
Anthony Visualisation in corpus-based discourse studies
Mihalcea et al. Open mind word expert: Creating large annotated data collections with web users’ help
Remus et al. Three knowledge-free methods for automatic lexical chain extraction
CN106484676A (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN110929022A (zh) 一种文本摘要生成方法及系统
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Touileb et al. Constructions: a new unit of analysis for corpus-based discourse analysis
CN103019924A (zh) 输入法智能性评测系统和方法
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Jijkoun et al. Preprocessing documents to answer Dutch questions
Al-Serhan et al. A triliteral word roots extraction using neural network for Arabic
Ficek et al. How to tackle an emerging topic? Combining strong and weak labels for Covid news NER
Asker et al. Applying machine learning to Amharic text classification
Reddy et al. Text Summarization of Telugu Scripts
Lin et al. Support vector machines for text categorization in Chinese question classification
US11775751B2 (en) Method and system for extracting valuable words and forming valuable word net
CN106649263A (zh) 一种多词表达抽取方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant