CN111401055A - 从金融资讯提取脉络信息的方法和装置 - Google Patents

从金融资讯提取脉络信息的方法和装置 Download PDF

Info

Publication number
CN111401055A
CN111401055A CN202010264403.2A CN202010264403A CN111401055A CN 111401055 A CN111401055 A CN 111401055A CN 202010264403 A CN202010264403 A CN 202010264403A CN 111401055 A CN111401055 A CN 111401055A
Authority
CN
China
Prior art keywords
vocabulary
path
nodes
vectors
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010264403.2A
Other languages
English (en)
Other versions
CN111401055B (zh
Inventor
柴志伟
赵路路
丑晓慧
许冠宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Deepq Information Technology Co ltd
Ningbo Deepq Information Technology Co ltd
Original Assignee
Shanghai Deepq Information Technology Co ltd
Ningbo Deepq Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Deepq Information Technology Co ltd, Ningbo Deepq Information Technology Co ltd filed Critical Shanghai Deepq Information Technology Co ltd
Priority to CN202010264403.2A priority Critical patent/CN111401055B/zh
Publication of CN111401055A publication Critical patent/CN111401055A/zh
Application granted granted Critical
Publication of CN111401055B publication Critical patent/CN111401055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种从金融资讯提取脉络信息的方法和装置。所述方法包括:获取金融资讯;提取文本内容中包含的关键词,根据金融领域的知识图谱,对关键词进行匹配,得到关键词汇,以关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图,采用广度优先搜索法计算初始节点到公司名称的节点的最短路径,选择最短路径中二级以上的连接路径,分别获取关键词汇的词汇向量和连接路径对应的路径向量,根据词汇向量和路径向量的相似度,确定与关键词汇相似的连接路径。采用本方法能够从金融资讯中提取脉络信息。

Description

从金融资讯提取脉络信息的方法和装置
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种从金融资讯提取脉络信息的方法和装置。
背景技术
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术主要包括5个子领域分别为知识表示与建模、知识获取、知识融合、知识图谱查询推理以及知识图谱应用。其中知识图谱应用主要是研究,如何利用知识图谱建立基于知识的智能服务系统,更好的解决实际应用问题。知识图谱分为通用知识图谱和领域知识图谱,
通用知识图谱可以形象地看成是一个面向通用领域的百科全书,包含了现实世界中大量的常识性知识。而领域知识图谱,通常面向某一个特定的领域,因其基于特定的行业数据构建,数据模式严格丰富,所以对该领域知识的深度、知识准确性有着更高的要求。知识图谱已经应用在很多场景,比如推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项;金融风控:利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等。利用知识图谱从金融数据中抽取有价值的信息也是非常重要的一个应用。
发明内容
基于此,有必要针对上述技术问题,提供一种能够利用知识图谱从大量数据中提取到金融资讯信息的从金融资讯提取脉络信息的方法和装置。
一种从金融资讯提取脉络信息的方法,所述方法包括:
获取金融资讯;所述金融咨询包括:文本内容;
提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;
选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;
根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
在其中一个实施例中,还包括:遍历所述资讯脉络图中的公司名称对应的节点,获取所述公司名称对应的节点的前节点;获取所述前节点对应实体的实体词向量,根据所述实体词向量和所述词汇向量的相似度,确定预设数量的相似公司节点;遍历所述连接路径,若所述公司节点与所述连接路径存在连接关系,则将所述连接路径与所述公司节点进行拼接,得到与所述关键词汇相似的连接路径。
在其中一个实施例中,还包括:从互联网获取文本数据;将所述文本数据输入预先设置的分类模型,得到金融资讯。
在其中一个实施例中,还包括:对所述文本内容进行分词处理,得到文本内容分词,提取所述文本内容分词中的关键词;根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇。
在其中一个实施例中,还包括:选择所述最短路径中二级以上的连接路径;所述连接路径不包含路径终点对应的公司名称的节点;分别采用bert_as_service方法获取所述关键词汇的词汇向量和所述连接路径对应的路径向量。
在其中一个实施例中,还包括:根据所述词汇向量和所述路径向量的余弦相似度,对与所述关键词汇相似的连接路径进行从高到低的排序;选择排序靠前的多个连接路径作为脉络信息。
在其中一个实施例中,还包括:根据所述实体词向量和所述词向量的余弦相似度,对与所述实体词向量相似的所述词向量的相似度进行从高到低进行排序;选择排序靠前的预设数量的词向量,得到所述词向量对应的相似公司节点。
一种从金融资讯提取脉络信息的装置,所述装置包括:
提取模块,用于获取金融资讯;所述金融咨询包括:文本内容;提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
脉络图构建模块,用于以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
脉络提取模块,用于采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取金融资讯;所述金融咨询包括:文本内容;
提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;
选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;
根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取金融资讯;所述金融咨询包括:文本内容;
提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;
选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;
根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
上述从金融资讯提取脉络信息的方法、装置、计算机设备和存储介质,通过知识图谱提取金融资讯中的关键词汇,然后采用深度优先搜索法,构建资讯脉络图,通过在资讯脉络图中提取连接路径,通过二级以上的连接路径与关键词的相似度,确定脉络信息中的连接路径。本实施例的方法,可以从大量的金融资讯中提取对应的连接路径,从而读取得到脉络信息。
附图说明
图1为一个实施例中从金融资讯提取脉络信息的方法的流程示意图;
图2为一个实施例中从金融资讯提取脉络信息的装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种从金融资讯提取脉络信息的方法,包括以下步骤:
步骤102,获取金融资讯。
金融咨询包括:文本内容,文本内容指的是汉字组成带有一定信息的文本,或者其他语言的信息文本。金融资讯指的是带有金融信息的文本,例如:从金融服务器获取的文本,金融服务器例如:同花顺、东方财富等。
步骤104,提取文本内容中包含的关键词,根据金融领域的知识图谱,对关键词进行匹配,得到关键词汇。
关键词指的是文本内容包含的带有信息量的词汇,关键词是相对于停顿词、地名等而言的。金融领域的知识图谱包括了金融领域的大量知识,通过关键词匹配的方式,可以提取到文本内容中的关键词汇。
值得说明的是,金融领域的知识图谱可以采用开源的知识图谱,可以是使用networkx/neo4j从行业->产品->公司等方面构建的知识图谱。
步骤106,以关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图。
深度优先搜索法属于图算法的一种,英文缩写为DFS即Depth First Search,其过程简要来说是对每一个可能的分支路径深入到不能再深入为止,而且每个节点只能访问一次。预设深度可以根据实际需求设置,例如,设置深度为2,对于分支“有色金属>有色冶炼加工>小金属>002460.SZ/江西赣锋锂业股份有限公司”,有色金属到小金属的深度为2,到002460.SZ的深度为3。
步骤108,采用广度优先搜索法计算初始节点到公司名称的节点的最短路径。
广度优先搜索法是一种图搜索算法,其目的是系统的展开并且检查图中所有的节点。
步骤110,选择最短路径中二级以上的连接路径,分别获取关键词汇的词汇向量和连接路径对应的路径向量。
二级指的是初始节点到终点的图中有两个节点,此处词汇向量指的是所有关键词汇的词汇组成的向量。路径向量指的是路径中所有词汇组成的向量。
步骤112,根据词汇向量和所述路径向量的相似度,确定与关键词汇相似的连接路径。
相似指的是通过向量匹配得到的相似度,通过相似度可以确定二者之间的关联,从而提取到公司实体、关键词汇以及金融咨询之间的内在联系。
上述从金融资讯提取脉络信息的方法中,通过知识图谱提取金融资讯中的关键词汇,然后采用深度优先搜索法,构建资讯脉络图,通过在资讯脉络图中提取连接路径,通过二级以上的连接路径与关键词的相似度,确定脉络信息中的连接路径。本实施例的方法,可以从大量的金融资讯中提取对应的连接路径,从而读取得到脉络信息。
在其中一个实施例中,在步骤112之前,还需要遍历资讯脉络图中的公司名称对应的节点,获取公司名称对应的节点的前节点;获取前节点对应公司名称的实体词向量,根据实体词向量和词汇向量的相似度,确定预设数量的相似公司节点;遍历连接路径,若公司节点与连接路径存在连接关系,则将所述连接路径与所述公司节点进行拼接,得到与关键词汇相似的连接路径。本实施例中,采用前节点代表公司名称节点,从而使得实体词向量带有公司名称节点的信息,从而在于词汇向量进行匹配时,可以筛选出与金融资讯最为匹配的公司名称。
具体的,本实施例可以选择6个最为匹配的公司名称,进行路径的拼接。
在其中一个实施例中,从互联网获取文本数据,将文本数据输入预先设置的分类模型,得到金融资讯。
具体的,分类模型可以是fastText/TextCnn等分类模型。
在其中一个实施例中,对文本内容进行分词处理,得到文本内容分词,提取文本内容分词中的关键词,根据金融领域的知识图谱,对关键词进行匹配,得到关键词汇。本实施例中,采用分词的方式提取到关键词,然后通过知识图谱的方式筛选出关键词汇,从而实现自动对金融资讯进行信息提取。
在其中一个实施例中,选择最短路径中二级以上的连接路径;连接路径不包含路径终点对应的公司名称的节点;分别采用bert_as_service方法获取关键词汇的词汇向量和连接路径对应的路径向量。本实施例中,采用bert_as_service方法可以输出文本的词向量。
在其中一个实施例中,根据词汇向量和路径向量的余弦相似度,对与关键词汇相似的连接路径进行从高到低的排序,选择排序靠前的多个连接路径作为脉络信息。
在其中一个实施例中,根据实体词向量和词向量的余弦相似度,对与实体词向量相似的词向量的相似度进行从高到低进行排序;选择排序靠前的预设数量的词向量,得到词向量对应的相似公司节点。
本实施例中,相似度的计算还可以采用gensim相似计算,在进行相似度匹配时,还可以采用词频等方式实现。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种从金融资讯提取脉络信息的装置,包括:提取模块202、脉络图构建模块204和脉络提取模块206,其中:
提取模块202,用于获取金融资讯;所述金融咨询包括:文本内容;提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
脉络图构建模块204,用于以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
脉络提取模块206,用于采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
在其中一个实施例中,还包括:名称提取模块,还用于遍历所述资讯脉络图中的公司名称对应的节点,获取所述公司名称对应的节点的前节点;获取所述前节点对应实体的实体词向量,根据所述实体词向量和所述词汇向量的相似度,确定预设数量的相似公司节点;遍历所述连接路径,若所述公司节点与所述连接路径存在连接关系,则将所述连接路径与所述公司节点进行拼接,得到与所述关键词汇相似的连接路径。
在其中一个实施例中,提取模块202还用于从互联网获取文本数据;将所述文本数据输入预先设置的分类模型,得到金融资讯。
在其中一个实施例中,脉络提取模块206还用于对所述文本内容进行分词处理,得到文本内容分词,提取所述文本内容分词中的关键词;根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇。
在其中一个实施例中,脉络提取模块206还用于选择所述最短路径中二级以上的连接路径;所述连接路径不包含路径终点对应的公司名称的节点;分别采用bert_as_service方法获取所述关键词汇的词汇向量和所述连接路径对应的路径向量。
在其中一个实施例中,脉络提取模块206还用于根据所述词汇向量和所述路径向量的余弦相似度,对与所述关键词汇相似的连接路径进行从高到低的排序;选择排序靠前的多个连接路径作为脉络信息。
在其中一个实施例中,名称提取模块还用于根据所述实体词向量和所述词向量的余弦相似度,对与所述实体词向量相似的所述词向量的相似度进行从高到低进行排序;选择排序靠前的预设数量的词向量,得到所述词向量对应的相似公司节点。
关于从金融资讯提取脉络信息的装置的具体限定可以参见上文中对于从金融资讯提取脉络信息的方法的限定,在此不再赘述。上述从金融资讯提取脉络信息的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种从金融资讯提取脉络信息的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种从金融资讯提取脉络信息的方法,所述方法包括:
获取金融资讯;所述金融咨询包括:文本内容;
提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;
选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;
根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
2.根据权利要求1所述的方法,其特征在于,在根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径,所述方法还包括:
遍历所述资讯脉络图中的公司名称对应的节点,获取所述公司名称对应的节点的前节点;
获取所述前节点对应实体的实体词向量,根据所述实体词向量和所述词汇向量的相似度,确定预设数量的相似公司节点;
遍历所述连接路径,若所述公司节点与所述连接路径存在连接关系,则将所述连接路径与所述公司节点进行拼接,得到与所述关键词汇相似的连接路径。
3.根据权利要求1所述的方法,其特征在于,所述获取金融资讯,包括:
从互联网获取文本数据;
将所述文本数据输入预先设置的分类模型,得到金融资讯。
4.根据权利要求1所述的方法,其特征在于,提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇,包括:
对所述文本内容进行分词处理,得到文本内容分词,提取所述文本内容分词中的关键词;
根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇。
5.根据权利要求1至4任一项所述的方法,其特征在于,选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量,包括:
选择所述最短路径中二级以上的连接路径;所述连接路径不包含路径终点对应的公司名称的节点;
分别采用bert_as_service方法获取所述关键词汇的词汇向量和所述连接路径对应的路径向量。
6.根据权利要求1至4任一项所述的方法,其特征在于,根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径,包括:
根据所述词汇向量和所述路径向量的余弦相似度,对与所述关键词汇相似的连接路径进行从高到低的排序;
选择排序靠前的多个连接路径作为脉络信息。
7.根据权利要求2所述的方法,其特征在于,根据所述实体词向量和所述词向量的相似度,确定预设数量的相似公司节点,包括:
根据所述实体词向量和所述词向量的余弦相似度,对与所述实体词向量相似的所述词向量的相似度进行从高到低进行排序;
选择排序靠前的预设数量的词向量,得到所述词向量对应的相似公司节点。
8.一种从金融资讯提取脉络信息的装置,其特征在于,所述装置包括:
提取模块,用于获取金融资讯;所述金融咨询包括:文本内容;提取所述文本内容中包含的关键词,根据金融领域的知识图谱,对所述关键词进行匹配,得到关键词汇;
脉络图构建模块,用于以所述关键词汇为初始节点,采用深度优先搜索法搜索预设深度内为公司名称的节点,根据公司名称对应的节点,构建资讯脉络图;
脉络提取模块,用于采用广度优先搜索法计算所述初始节点到所述公司名称的节点的最短路径;选择所述最短路径中二级以上的连接路径,分别获取所述关键词汇的词汇向量和所述连接路径对应的路径向量;根据所述词汇向量和所述路径向量的相似度,确定与所述关键词汇相似的连接路径。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010264403.2A 2020-04-07 2020-04-07 从金融资讯提取脉络信息的方法和装置 Active CN111401055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010264403.2A CN111401055B (zh) 2020-04-07 2020-04-07 从金融资讯提取脉络信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010264403.2A CN111401055B (zh) 2020-04-07 2020-04-07 从金融资讯提取脉络信息的方法和装置

Publications (2)

Publication Number Publication Date
CN111401055A true CN111401055A (zh) 2020-07-10
CN111401055B CN111401055B (zh) 2023-04-18

Family

ID=71431474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010264403.2A Active CN111401055B (zh) 2020-04-07 2020-04-07 从金融资讯提取脉络信息的方法和装置

Country Status (1)

Country Link
CN (1) CN111401055B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395506A (zh) * 2020-12-04 2021-02-23 上海帜讯信息技术股份有限公司 一种资讯推荐方法、装置、电子设备和存储介质
CN113239280A (zh) * 2021-06-18 2021-08-10 中国银行股份有限公司 金融资讯的推荐方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150206070A1 (en) * 2012-10-01 2015-07-23 Parag Arun Kulkarni Context based co-operative learning system and method for representing thematic relationships
US20170091470A1 (en) * 2015-09-25 2017-03-30 Intel Corporation Contextual access of data
CN107133274A (zh) * 2017-04-10 2017-09-05 浙江鸿程计算机系统有限公司 一种基于图知识库的分布式信息检索集合选择方法
CN107273426A (zh) * 2017-05-18 2017-10-20 四川新网银行股份有限公司 一种基于深度语义路径搜索的短文本聚类方法
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN109558586A (zh) * 2018-11-02 2019-04-02 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109815497A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150206070A1 (en) * 2012-10-01 2015-07-23 Parag Arun Kulkarni Context based co-operative learning system and method for representing thematic relationships
US20170091470A1 (en) * 2015-09-25 2017-03-30 Intel Corporation Contextual access of data
CN107133274A (zh) * 2017-04-10 2017-09-05 浙江鸿程计算机系统有限公司 一种基于图知识库的分布式信息检索集合选择方法
CN107273426A (zh) * 2017-05-18 2017-10-20 四川新网银行股份有限公司 一种基于深度语义路径搜索的短文本聚类方法
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN109558586A (zh) * 2018-11-02 2019-04-02 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109815497A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARKUS GLAS: "Social Relation Extraction from Chatbot Conversations" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395506A (zh) * 2020-12-04 2021-02-23 上海帜讯信息技术股份有限公司 一种资讯推荐方法、装置、电子设备和存储介质
CN113239280A (zh) * 2021-06-18 2021-08-10 中国银行股份有限公司 金融资讯的推荐方法及装置

Also Published As

Publication number Publication date
CN111401055B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN110837550A (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
US20170161619A1 (en) Concept-Based Navigation
JP6403382B2 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
US20170262783A1 (en) Team Formation
CN111444724B (zh) 医疗问答对质检方法、装置、计算机设备和存储介质
CN113806550A (zh) 个性化知识图谱的生成方法、装置及计算机设备
JP5907393B2 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
CN113544689A (zh) 为文档的来源观点生成并提供附加内容
CN105912645A (zh) 一种智能问答方法及装置
CN112069329B (zh) 文本语料的处理方法、装置、设备及存储介质
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN111401055B (zh) 从金融资讯提取脉络信息的方法和装置
CN111460810A (zh) 众包任务的抽检方法、装置、计算机设备及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN116304341A (zh) 基于用户网络大数据的欺诈判别方法及系统
CN113591480A (zh) 电力计量的命名实体识别方法、装置和计算机设备
CN113707304A (zh) 分诊数据处理方法、装置、设备及存储介质
CN112163098A (zh) 一种知识图谱的创建方法、装置、存储介质和服务器
CN110263083B (zh) 知识图谱的处理方法、装置、设备和介质
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN114676237A (zh) 语句相似度确定方法、装置、计算机设备和存储介质
CN114201607A (zh) 一种信息处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant