CN112199512B - 面向科技服务的事理图谱构建方法、装置、设备及存储介质 - Google Patents

面向科技服务的事理图谱构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112199512B
CN112199512B CN202011099915.4A CN202011099915A CN112199512B CN 112199512 B CN112199512 B CN 112199512B CN 202011099915 A CN202011099915 A CN 202011099915A CN 112199512 B CN112199512 B CN 112199512B
Authority
CN
China
Prior art keywords
events
scientific
demand
technological service
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011099915.4A
Other languages
English (en)
Other versions
CN112199512A (zh
Inventor
孙圣力
寇森杰
李青山
司华友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxin Yunfu Technology Co ltd
Nanjing Boya Blockchain Research Institute Co ltd
Peking University
Original Assignee
Beijing Guoxin Yunfu Technology Co ltd
Nanjing Boya Blockchain Research Institute Co ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxin Yunfu Technology Co ltd, Nanjing Boya Blockchain Research Institute Co ltd, Peking University filed Critical Beijing Guoxin Yunfu Technology Co ltd
Priority to CN202011099915.4A priority Critical patent/CN112199512B/zh
Publication of CN112199512A publication Critical patent/CN112199512A/zh
Application granted granted Critical
Publication of CN112199512B publication Critical patent/CN112199512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种面向科技服务的事理图谱构建方法、装置、设备及存储介质,其中的事理图谱构建方法包括:获取科技服务需求文本;对科技服务需求文本进行预处理;对科技服务需求文本进行事件抽取;对科技服务需求文件进行事件关系抽取;基于抽取出的需求事件和需求事件之间的逻辑关系建立事理图谱,事理图谱为有向有环图,其中的节点代表需求事件,有向边代表需求事件之间的逻辑关系;计算出各有向边连接的两个需求事件之间的演化概率,并将演化概率作为权重值添加至有向边上。通过构建面向科技服务的事理图谱,本发明能够快速匹配到与用户需求直接相关的需求事件以及与用户需求之间联系最为紧密的其他需求事件,从而对客户需求实现更有效的感知。

Description

面向科技服务的事理图谱构建方法、装置、设备及存储介质
技术领域
本发明涉及科技服务领域,具体而言,本申请涉及一种面向科技服务的事理图谱构建方法、装置、设备及存储介质。
背景技术
科技服务是指利用科学技术知识、技术设备等相关资源向社会提供智力服务的一种新兴产业。国务院《关于加快科技服务业发展的若干意见》中指出,我国科技服务业以研究开发、技术转移、检验检测认证、创业孵化、知识产权、科技咨询、科技金融、科学技术普及等专业科技服务和综合科技服务为发展重点,逐步提升科技服务业对科技创新和产业发展的支撑作用。随着经济的发展、科技的进步,人们对科技服务需求呈现出多样化、快速增长的特点。由于我国科技服务业起步晚,现阶段科技服务对产业还不能形成很好的支撑,主要体现在供需双方的信息不对称。对于供方来说,从需方用户的需求得到的科技资源应用或价值存在属性缺失,不利于科技服务价值的发现和增值,无法对科技成果进行有效地输出;对于需方来说,由于无法对科技资源的相关资源进行有效地掌握,增加了技术掌握的成本,不利于科技成果的转换和资源共享。因此,对于用户需求的挖掘和分析对于科技服务行业有着积极的意义。
现阶段,科技服务业的研究主要集中在科技服务平台的建设上,缺少对科技服务之间的联系、特别是演化规律的研究。另一方面,对于响应用户需求的科技服务研究还不够重视,使得服务匹配中不能很好地满足用户的偏好需求。
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、空间上相继发生的演化规律和模式是一种十分有价值的知识。只有实现了对事件的演化规律的深刻理解,才能实现对相关用户需求的深度挖掘。以隐式消费意图识别为例,只有让机器知道“结婚”事件伴随着后续一系列消费事件,例如“买房子”、“买汽车”和“去旅行”,我们才能在观察到“结婚”事件的时候,准确地识别出用户潜在的隐式消费意图。
事理图谱是一种描述事件之间逻辑关系的有向图,包括事件之间的顺承、因果、条件等关系。给定一个抽象事件,通过事理图谱可以给出围绕这个事件在时间演化顺序上可能存在的事件。事理图谱是事件演化规律和模式的知识库,可以对用户的需求进行很好的挖掘分析。基于海量的用户需求、行为等数据文本,可以构建出相关领域的事理图谱对用户的需求进行捕获、描述与分解,提高供需双方服务的匹配程度。
发明内容
为了解决上述技术问题中的至少一个,本发明第一方面提供了一种面向科技服务的事理图谱构建方法,其包括:
获取科技服务需求文本;
对所述科技服务需求文本进行预处理;
对所述科技服务需求文本进行事件抽取以获得需求事件;
对所述科技服务需求文件进行事件关系抽取以获得需求事件之间的逻辑关系;
基于抽取出的所述需求事件和所述需求事件之间的逻辑关系建立事理图谱,所述事理图谱为有向有环图,其中的节点代表所述需求事件,有向边代表所述需求事件之间的逻辑关系;
计算出各所述有向边连接的两个所述需求事件之间的演化概率,并将所述演化概率作为权重值添加至所述有向边上。
本发明第二方面提供了一种面向科技服务的事理图谱构建装置,其包括:
获取模块,用于获取科技服务需求文本;
预处理模块,用于对所述科技服务需求文本进行预处理;
事件抽取模块,用于对所述科技服务需求文本进行事件抽取以获得需求事件;
逻辑关系抽取模块,用于对所述科技服务需求文件进行事件关系抽取以获得需求事件之间的逻辑关系;
事理图谱构建模块,用于基于抽取出的所述需求事件和所述需求事件之间的逻辑关系建立事理图谱,所述事理图谱为有向有环图,其中的节点代表所述需求事件,有向边代表所述需求事件之间的逻辑关系;
权重值添加模块,用于计算出各所述有向边连接的两个所述需求事件之间的演化概率,并将所述演化概率作为权重值添加至所述有向边上。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序。所述处理器执行所述程序时实现本发明第一方面提供的所述事理图谱构建方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的所述事理图谱构建方法。
通过构建面向科技服务的事理图谱,本发明能够快速匹配到与用户需求直接相关的需求事件以及与用户需求之间联系最为紧密的其他需求事件,从而对客户的真实需求实现更加有效的感知。
附图说明
图1为本发明一个实施例提供的面向科技服务的事理图谱构建方法的流程示意图;
图2为本发明又一个实施例提供的面向科技服务的事理图谱构建方法的流程示意图;
图3为本发明又一个实施例提供的面向科技服务的事理图谱构建方法的流程示意图;
图4为本发明又一个实施例提供的面向科技服务的事理图谱构建方法的流程示意图;
图5为本发明实施例提供的面向科技服务的事理图谱构建装置的流程示意图;
图6为本发明实施例提供的电子设备的流程示意图;
图7为本发明实施例中的需求事件泛化的原理示例图;
图8为本发明一个实施例提供的一个完成权重添加后的事理图谱的示意图;
图9为本发明又一个实施例提供的一个完成权重添加后的事理图谱的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现阶段,科技服务业的研究主要集中在科技服务平台的建设上,缺少对科技服务之间的联系、特别是演化规律的研究。另一方面,对于响应用户需求的科技服务研究还不够重视,使得服务匹配中不能很好地满足用户的偏好需求。
本发明的目的即是提供一种面向科技服务的事理图谱构建方法、装置、设备及存储介质。
通过构建面向科技服务的事理图谱,本发明能够快速获取到与用户需求直接相关的需求事件以及与用户需求之间存在演化关联的其他需求事件,从而提高科技服务的推荐效率和准确率。此外,本发明通过需求事件之间的权重来确定需求之间的演化概率,能够判断出与用户需求联系最紧密的其他需求,进而为用户提供其可能需要的科技服务。
方法实施例
如图1所示的,本发明实施例提供的面向科技服务的事理图谱构建方法包括如下步骤:
S101、获取科技服务需求文本。
为了构建科技服务业需求的事理图谱,需要采集相关的科技服务需求数据。在科技服务的领域中,以研究开发、技术转移、检验检测认证、创业孵化、知识产权、科技咨询、科技金融、科学技术普及等方面为科技服务重点。所需科技服务需求数据主要是从科技服务平台上采集。确定目标领域后,按照通常科技服务平台上所发布的需求内容,利用爬虫等技术或者已有的数据库资源对需求标题、需求描述、需求类型等数据进行采集,并对采集到的数据进行整理从而获得若干科技服务需求文本。
S102、对科技服务需求文本进行预处理。
可选的,如图2所示,对科技服务需求文本进行预处理包括如下子步骤:
S1021、采用Jieba分词工具对科技服务需求文本进行分句、分词处理。
S1022、利用LTP依存语法分析工具对句子进行依存语法分析,获取到句子中各词语之间的关系。
S1023、基于分词结果对句子中的词语进行词性标注。
可选的采用Viterb算法进行词性标注,Viterb算法进行词性标注的过程大致如下:
a)获取预备好的语料库,该语料库包含了已经正确标注了词性的大量语句。
b)对语料库中的内容进行统计,包括以下数据:所有可能的词性、所有出现的词语、每个词语以不同词性出现的次数、句首词为不同词性的次数、句子中任意两种词性相邻的次数。
c)对于b)中统计的结果,进行分析计算,包括:
计算每类词性作为句首出现的比例;
对于词性x和y,计算后词的词性为x时,前词的词性为y占总情况的比例;
对于一个词的词性x,计算其词性为x出现的次数占词性为x的总词数的比例。
d)对于输入的句子,每个词有多个词性,根据c)中结果计算句子在不同词性下的概率,选择概率最大的一个确定句子中每个词语的词性。
S103、对科技服务需求文本进行事件抽取以获得需求事件。
为了构建科技服务业需求的事理图谱,需要从科技服务需求文本中抽取出需求事件作为事理图谱的节点。
事件触发词是句子中表示事件发生的核心词,一般来说,事件触发词为动词。可以根据词性过滤的方式对事件触发词进行提取,为了保证语义的完整性,需要对事件组成部分的修饰词进行提取。
如图3所示,可选的,事件抽取的具体步骤为:
S1031、确定逻辑关系提示词。
在实际生活中,事件之间的逻辑关系包括顺承关系、因果关系、条件关系和上下位关系。本发明构造的需求演化事理图谱中,重点考虑事件之间的顺承关系和因果关系。
S1032、对句子进行词性过滤,将距离逻辑关系提示词位置最近的动词作为事件触发词。
S1033、根据依存语法分析的结果,提取事件触发词的主语和宾语,并对主语和宾语的修饰词进行提取,从而获得所述多个需求事件。
语和宾语的修饰词包括名词组合、限定词修饰、补语、状语等。需求事件的表现形式可以为{主语及相关修饰词,事件触发词及相关修饰词,宾语及相关修饰词}。
在获取的需求文本中,可能存在相同的需求有着不同的表述,比如“需要抓取某个网站内容”和“采集某个网站内容”。
处于此考虑,可选的,本发明还对抽取出的需求事件进行表述的归一化,即事件的泛化。图7显示了事件泛化的过程,图中的节点代表事件,边上的数值代表事件对出现的次数。从中可以看到事件B1和B2具有相似性,可以将其划分到事件类B中;同理,事件D1和D2也划分到事件类D中。
事件的泛化可以通过计算需求文本之间的相似度来解决。词嵌入可以很好的从大量无监督数据中捕获到每个单词的语义信息,可以用来计算文本之间的相似度。利用word2vec的skip-gram模型将需求文本构建成词嵌入向量,如果文本之间相似度越高,则其词嵌入向量的空间距离也更接近。设定两个需求事件的词嵌入向量为Ei和Ej,两个向量的相似度可以用余弦相似度度量:
Figure BDA0002724983980000061
余弦相似度是常用的度量文本相似性的方法,适合对短文本进行处理。为两个需求事件的相似度设定一个最低阈值a,如果两个需求事件的词嵌入向量的余弦相似度超过阈值a,则考虑将这两个需求事件的节点合并。
S104、对科技服务需求文件进行事件关系抽取以获得需求事件之间的逻辑关系。
可选的,采用模式匹配方法进行事件关系抽取。模式匹配方法是指通过分析语法模式,构造出语义模板,然后基于模板抽取事件之间的逻辑关系,这个方法需要设计出具有广泛适用性的模板和抽取规则。
一种通用的规则模板可以用<Pattern,Constraint,Priority>来表示,其中Pattern表示句子匹配的规则,Constraint表示匹配的约束条件,Priority表示进行匹配的优先级。匹配的优先级可以从匹配模板在相关的语料库中出现的次数确定,出现的次数越多,则其优先级越高。比如需求“现有一套程序,需要申请著作权”,就可以依照规则模板[有,需要]判断出“一套程序”和“申请著作权”具有逻辑关系。
S105、基于抽取出的需求事件和所述需求事件之间的逻辑关系建立事理图谱,事理图谱为有向有环图,其中的节点代表需求事件,有向边代表需求事件之间的逻辑关系。
在提取到的需求事件和需求事件之间的逻辑关系的基础上,构造出事理图谱。以需求事件为节点,以具有逻辑关系的需求事件对为边,利用相关的可视化工具,比如Gephi,构造需求演化事理图谱。
S106、计算出各有向边连接的两个需求事件之间的演化概率,并将演化概率作为权重值添加至有向边上。
事理图谱是一个描述事件之间顺承、因果关系的事理演化逻辑有向图,可以将其表示为G=(V,E),其中V中每个节点代表事件,E中每条边代表事件之间的关系。则每条边的权重可以表示为:
Figure BDA0002724983980000071
其中,count(vi,vj)表示事件对(vi,vj)在需求文本中出现的次数。
图8示出了一个实施例中的完成边权重添加后的事理图谱。
至此,已经获得了一个完整的面向科技服务的事理图谱。基于该事理图谱能够快速匹配到与用户需求直接相关的需求事件以及与用户需求之间存在演化关联的其他需求事件,从而对客户的真实需求实现更加有效的感知。
可选的,使用面向科技服务的事理图谱匹配到与用户需求直接相关的需求事件以及与用户需求之间存在演化关联的其他需求事件的步骤如下:
S107、获取用户需求。
S108、根据用户需求从所述事理图谱中确定目标节点,所述目标节点代表的需求事件与所述用户需求相似。
可选的,将用户需求预处理成与各节点所代表的需求事件的格式一致的用户需求事件,然后计算该用户需求事件与事理图谱中各节点所代表的需求事件之间的相似度,选择相似度最大的节点作为目标节点即可。该目标节点表的需求事件最能反映用户的直接需求。
可选的,利用word2vec的skip-gram模型将用户需求事件、各节点所代表的需求事件构建成词嵌入向量。相似度越高,则其词嵌入向量的空间距离也更接近。
S109、获取与所述目标节点有逻辑关系的关联节点。
关联节点也就是与目标节点之间存在边的节点。
S110、根据所述目标节点与各关联节点之间的权重挑选出若干关联节点代表的需求事件作为用户的潜在需求。
如前文所述,事理图谱中,边上的权重值代表了需求事件之间的演化概率,可以用来判断其联系的紧密程度。可选的,预先设置一个阈值,形式为一个百分比数值。按照这个阈值对与目标节点相连的其他节点进行筛选,找到用户最可能需要的潜在需求。进一步的,可以按照事理图谱中的演化概率对这些潜在需求进行排序,构建相应的服务列表推荐给用户。
如图9所示,其示出了一个实施例构造的机器人领域的一部分事理图谱,从构造的事理图谱中我们可以看到,工业自动化、光伏农业系统、激光焊接节点在事理图谱中与机器人节点相连,说明这些领域需要机器人技术的应用。而对于机器人这个需求来说,设计控制程序、算法研究、申请专利是与其联系紧密的事件,可以认为这三种需求为用户的潜在需求。同时,它们与机器人这一需求之间演化概率分别为0.3、0.2、0.1,那么可以推断设计控制程序是用户接下来最可能的潜在需求。另外,可以按照演化概率的大小对潜在的需求进行排序,并构造相应的科技服务列表推荐给用户。
装置实施例
如图5示,本实施例中的面向科技服务的事理图谱构建装置包括获取模块201、预处理模块202、事件抽取模块203、逻辑关系抽取模块204、逻辑关系抽取模块205、权重值添加模块206。其中:
获取模块201,用于获取科技服务需求文本;
预处理模块202,用于对所述科技服务需求文本进行预处理;
事件抽取模块203,用于对所述科技服务需求文本进行事件抽取以获得需求事件;
逻辑关系抽取模块204,用于对所述科技服务需求文件进行事件关系抽取以获得需求事件之间的逻辑关系;
逻辑关系抽取模块205,用于基于抽取出的所述需求事件和所述需求事件之间的逻辑关系建立事理图谱,所述事理图谱为有向有环图,其中的节点代表所述需求事件,有向边代表所述需求事件之间的逻辑关系;
权重值添加模块206,用于计算出各所述有向边连接的两个所述需求事件之间的演化概率,并将所述演化概率作为权重值添加至所述有向边上。
由于本实施例中的事理图谱构建装置的处理过程与前述实施例一中的事理图谱构建方法的处理过程一致,因此本实施例不再对事理图谱构建装置的各功能模块的处理过程进行重复描述,可以参考实施例一的相关描述。
电子设备实施例
图6为本申请实施例提供的电子设备的结构示意图,如图6所示,该电子设备包括处理器301和存储器303,处理器301和存储器303相连,如通过总线303相连。
处理器301可以是CPU,通用处理器、DSP,ASIC,FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处理器的组合等。
总线302可以包括一通路,在上述组件之间传送信息。总线302可以是PCI总线或EISA总线等。总线302可以分为地址总线、数据总线、控制总线等。为了便于表示,图中仅以一条粗线表示,但是并不表示仅有一根总线或一种类型的总线。
存储器303可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可以储存信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器303用于存储本申请方案的应用程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码,以实现实施例一的事理图谱构建方法。
本申请实施例最后还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一中的事理图谱构建方法。
上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解,实施例中的描述仅仅是示例性的,在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的,而不是由实施例中的上述描述来限定的。

Claims (7)

1.一种面向科技服务的事理图谱构建方法,其特征在于,其包括:
获取科技服务需求文本;
对所述科技服务需求文本进行预处理;
对所述科技服务需求文本进行事件抽取以获得需求事件;
对所述科技服务需求文件进行事件关系抽取以获得需求事件之间的逻辑关系;
基于抽取出的所述需求事件和所述需求事件之间的逻辑关系建立事理图谱,所述事理图谱为有向有环图,其中的节点代表所述需求事件,有向边代表所述需求事件之间的逻辑关系;
计算出各所述有向边连接的两个所述需求事件之间的演化概率,并将所述演化概率作为权重值添加至所述有向边上;
所述对所述科技服务需求文本进行预处理包括:
采用Jieba分词工具对所述科技服务需求文本进行分句、分词处理;
利用LTP依存语法分析工具对句子进行依存语法分析,获取到句子中各词语之间的关系;
基于分词结果对句子中的词语进行词性标注;
所述对所述科技服务需求文本进行事件抽取以获得多个需求事件包括:
确定逻辑关系提示词;
对句子进行词性过滤,将距离逻辑关系提示词位置最近的动词作为事件触发词;
根据依存语法分析的结果,提取所述事件触发词的主语和宾语,并对主语和宾语的修饰词进行提取,从而获得所述多个需求事件;
其还包括:
计算各需求事件之间的相似度;
当两个所述需求事件之间的相似度高于预定阈值时,则将所述两个所述需求事件泛化为一个需求事件。
2.如权利要求1所述的事理图谱构建方法,其特征在于,所述计算各需求事件之间的相似度包括:
基于word2vec算法将所述需求事件转换为词嵌入向量;
计算出各所述需求事件对应的所述词嵌入向量之间的余弦相似度。
3.如权利要求1所述的事理图谱构建方法,其特征在于,采用模式匹配方法对所述科技服务需求文件进行事件关系抽取以获得所述需求事件之间的逻辑关系。
4.如权利要求1所述的事理图谱构建方法,其特征在于,其还包括:
获取用户需求;
根据用户需求从所述事理图谱中确定目标节点,所述目标节点代表的需求事件与所述用户需求相似;
获取与所述目标节点关联的候选节点;
根据所述目标节点与各所述候选节点之间的权重挑选出若干候选节点代表的候选需求事件进行推荐。
5.一种面向科技服务的事理图谱构建装置,其特征在于,其包括:
获取模块,用于获取科技服务需求文本;
预处理模块,用于对所述科技服务需求文本进行预处理;
事件抽取模块,用于对所述科技服务需求文本进行事件抽取以获得需求事件;
逻辑关系抽取模块,用于对所述科技服务需求文件进行事件关系抽取以获得需求事件之间的逻辑关系;
事理图谱构建模块,用于基于抽取出的所述需求事件和所述需求事件之间的逻辑关系建立事理图谱,所述事理图谱为有向有环图,其中的节点代表所述需求事件,有向边代表所述需求事件之间的逻辑关系;
权重值添加模块,用于计算出各所述有向边连接的两个所述需求事件之间的演化概率,并将所述演化概率作为权重值添加至所述有向边上;
所述对所述科技服务需求文本进行预处理包括:
采用Jieba分词工具对所述科技服务需求文本进行分句、分词处理;
利用LTP依存语法分析工具对句子进行依存语法分析,获取到句子中各词语之间的关系;
基于分词结果对句子中的词语进行词性标注;
所述对所述科技服务需求文本进行事件抽取以获得多个需求事件包括:
确定逻辑关系提示词;
对句子进行词性过滤,将距离逻辑关系提示词位置最近的动词作为事件触发词;
根据依存语法分析的结果,提取所述事件触发词的主语和宾语,并对主语和宾语的修饰词进行提取,从而获得所述多个需求事件;
计算各需求事件之间的相似度;
当两个所述需求事件之间的相似度高于预定阈值时,则将所述两个所述需求事件泛化为一个需求事件。
6.一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的事理图谱构建方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至4任一项所述的事理图谱构建方法。
CN202011099915.4A 2020-10-15 2020-10-15 面向科技服务的事理图谱构建方法、装置、设备及存储介质 Active CN112199512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011099915.4A CN112199512B (zh) 2020-10-15 2020-10-15 面向科技服务的事理图谱构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011099915.4A CN112199512B (zh) 2020-10-15 2020-10-15 面向科技服务的事理图谱构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112199512A CN112199512A (zh) 2021-01-08
CN112199512B true CN112199512B (zh) 2022-12-06

Family

ID=74008664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011099915.4A Active CN112199512B (zh) 2020-10-15 2020-10-15 面向科技服务的事理图谱构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112199512B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905774A (zh) * 2021-02-22 2021-06-04 武汉市聚联科软件有限公司 一种基于事理图谱的人机对话深度意图理解方法
CN113239127B (zh) * 2021-05-13 2024-02-09 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113656602A (zh) * 2021-09-01 2021-11-16 中国人民解放军31007部队 一种事理图谱的创建方法和装置
CN114817575B (zh) * 2022-06-24 2022-09-02 国网浙江省电力有限公司信息通信分公司 基于扩展模型的大规模电力事理图谱处理方法
CN114860960B (zh) * 2022-07-11 2022-11-11 南京师范大学 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954613B2 (en) * 2018-02-01 2024-04-09 International Business Machines Corporation Establishing a logical connection between an indirect utterance and a transaction
CN111506734B (zh) * 2019-01-30 2024-01-26 国家计算机网络与信息安全管理中心 一种事件演化知识图谱构建方法、装置、设备及存储介质
CN110781317B (zh) * 2019-10-29 2022-03-01 北京明略软件系统有限公司 事件图谱的构建方法、装置及电子设备
CN110968700B (zh) * 2019-11-01 2023-04-07 数地工场(南京)科技有限公司 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN110968699B (zh) * 2019-11-01 2023-07-18 数地工场(南京)科技有限公司 一种基于事理推荐的逻辑图谱构建及预警方法和装置

Also Published As

Publication number Publication date
CN112199512A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112199512B (zh) 面向科技服务的事理图谱构建方法、装置、设备及存储介质
CN114647741B (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
CN107102993B (zh) 一种用户诉求分析方法和装置
Babur et al. Hierarchical clustering of metamodels for comparative analysis and visualization
CN103207855A (zh) 针对产品评论信息的细粒度情感分析系统及方法
CN107844533A (zh) 一种智能问答系统及分析方法
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN114547611A (zh) 一种基于多模态特征的智能合约庞氏骗局检测方法及系统
CN113641833B (zh) 服务需求匹配方法及装置
CN109766416A (zh) 一种新能源政策信息抽取方法及系统
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN114900346A (zh) 基于知识图谱的网络安全测试方法及系统
Balaji et al. Text summarization using NLP technique
CN109359288B (zh) 一种对于法务领域文书量化评估的方法
CN118113806A (zh) 一种大模型检索增强生成的可解释事件脉络生成方法
CN116955534A (zh) 投诉工单智能处理方法、装置、设备及存储介质
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
CN116841869A (zh) 基于代码结构化信息及审查知识的Java代码审查评论生成方法及装置
Rybak et al. Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations
CN114722159A (zh) 针对数控机床制造资源的多源异构数据处理方法及系统
Rattan et al. Detecting high level similarities in source code and beyond

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant