CN111428053B - 一种面向税务领域知识图谱的构建方法 - Google Patents

一种面向税务领域知识图谱的构建方法 Download PDF

Info

Publication number
CN111428053B
CN111428053B CN202010238326.3A CN202010238326A CN111428053B CN 111428053 B CN111428053 B CN 111428053B CN 202010238326 A CN202010238326 A CN 202010238326A CN 111428053 B CN111428053 B CN 111428053B
Authority
CN
China
Prior art keywords
tax
knowledge
data
information
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010238326.3A
Other languages
English (en)
Other versions
CN111428053A (zh
Inventor
郑庆华
董博
李睿
师斌
吴琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010238326.3A priority Critical patent/CN111428053B/zh
Publication of CN111428053A publication Critical patent/CN111428053A/zh
Priority to PCT/CN2020/113308 priority patent/WO2021196520A1/zh
Application granted granted Critical
Publication of CN111428053B publication Critical patent/CN111428053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明公开了一种面向税务领域知识图谱的构建方法。该构建方法采用自顶向下与自底向上相结合的方式。方法过程如下:首先基于税务专家系统中的税务知识构建税务知识图谱的模式;然后是数据处理,包括税务数据源的选择与获取、数据的清洗等;之后是信息抽取,对处理后的数据根据模式图按照不同的类型进行信息抽取得到;接着是税务知识融合,税务知识图谱中的知识来源不同,存在知识重复、关系冗余等问题需要进行模式匹配、实体对齐等完成知识融合之后存入知识库。最后是知识反馈,利用税务专家系统解决智能税务模型构建中的知识冲突。最终解决了知识图谱与税务场景结合不紧密的问题。

Description

一种面向税务领域知识图谱的构建方法
技术领域
本发明属于税务技术领域,特别涉及一种面向税务领域知识图谱的构建方法。
背景技术
随着市场经济的快速发展和改革开放的不断推进,我国纳税人户数总量大幅度增长目前已达6000多万。然而在我国大概有70多万税务干部,其中基层税务机关人数占到97%大约有68万人。依托于现有的税务服务系统,对纳税人进行定制化服务和管理的工作量越来越大,人力资源越来越紧张,减负工作举步维艰。现有的税务信息系统采集到大量纳税人数据,根据现有的模型对数据进行分析得到一些信息结果,但是信息的可解释性差,对基层税务人员不友好。从纳税人角度出发,一方面国家颁布的税收政策专业性强,普通纳税人不能够准确理解政策内容,只能通过专家解读了解政策的具体内容。然而专家解读与政策之间有一定的时间差,并且不同专家对政策有不同的解读,这使得普通纳税人不能够及时准确的了解政策内容。另一方面大量的政策规则无法根据企业的真实特征进性精准匹配出现应享未享,不应享而享的情况。
谷歌于2012年5月提出的知识图谱技术可以将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术从网页中抽取出实体及其属性信息以及实体间的关系,从语义层面上解释海量数据和知识。目前已有知识图谱都是通用领域知识图谱比如百度知心、搜狗知立方等,在特定领域中知识图谱的构建仍旧没有统一的规范与参考,尤其是税务领域一直缺少基于知识图谱的智能税务模型构建的相关研究。为此,参考其他领域中知识图谱的构建方法对解决智能税务构建问题具有一定的参考意义。
以下文献介绍了可参考的领域知识图谱的构建方法:
文献1.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(04):8-13;
文献2.一种基于DBpedia的水务领域概念知识图谱构建方法(201910161944.X).
文献1提供了一种在中医药领域利用中医药结构化信息构建知识图谱的方法,该方法主要是根据已有的医药数据集结合关系数据库中的中医药结构化信息与其他数据源信息创建中医药知识模式,完成知识图谱构建。文献2提供了一种人工构建概念词库与通用数据集结合构建领域知识图谱的方法。
在税务领域中运用上述文献的方法主要存在以下问题:文献1使用的数据源大部分是结构化、成熟化的医学数据集,处理的无标注的非结构化数据较少;文献2结合通用数据集构建领域知识图谱难以满足领域知识要求的知识深度的特性。
事实上,税务作为国家经济的重要部分,建设智能税务对国家和个人都有着巨大的影响。在我国经济飞速发展,人民物质生活极大丰富的今天,基于知识图谱的智能税务的构建是一个亟需科研人员解决的问题。
发明内容
为了解决基于知识图谱的智能税务的技术问题,本发明提供了一种面向税务领域知识图谱的构建方法。该构建方法采用自顶向下与自底向上相结合的方式。自顶向下是通过税务专家系统的专家经验聚焦知识本体结构,通过本体编辑器定义模式图进行概念模型的设计;自底向上是通过大数据技术,将小知识与大数据相结合成为大知识,聚焦知识内容实例,定义数据图。方法过程如下:首先基于税务专家系统的税务知识构建税务知识图谱的模式;然后是数据处理,包括税务数据源的选择与获取、数据的清洗等;之后是信息抽取,对处理后的数据根据模式图按照不同的类型进行信息抽取得到;接着是税务知识融合,税务知识图谱中的知识来源不同,存在知识重复、关系冗余等问题需要进行模式匹配、实体对齐等完成知识融合之后存入知识库。最后是知识反馈,利用税务专家系统解决智能税务模型构建中的知识冲突。
本发明采用如下技术方案来实现的:
一种面向税务领域知识图谱的构建方法,包括以下步骤:
(1)构建税务知识图谱模式图
首先税务专家系统根据输入的税务知识确定税务知识图谱整体的概念,将税务知识图谱形式化定义为一张图G,G=<Gs,Gd,R>,其由税务模式图Gs、税务数据图Gd以及二者之间的关系R组成;税务模式图是描述税务领域中各种抽象概念及其相互之间关系的图,形式化定义为Gs=<Ns,Es>,其中Ns为图中的结点集合代表税务图谱中税务抽象概念,Es为属性边集合代表概念之间的语义关系,之后将确定的税务抽象概念按照层次关系填入税务模式图中;
(2)数据处理
税务知识图谱中包含的税务数据来源于发票信息、纳税人基本信息、中国税务网站、国家税法教材、国家税务术语集以及税收优惠案例;这些税务数据包含结构化数据、半结构化数据和非结构化数据,按照数据类型收集、整理、存储和清洗数据;
(3)税务数据信息抽取
信息抽取将处理后的数据作为输入,抽取的目标是抽取出形为E,或实体、关系和属性/实体的三元组;根据数据源的不同制定的抽取方法有:有基于规则的方法和基于统计模型和深度学习的方法;
(4)税务知识融合
税务知识图谱的构建是一个不断迭代不断更新的过程,由于数据源不同、知识库不同导致税务知识图谱中的数据具有多样性和异构性;由步骤(2)得到的发票信息和纳税人基本信息作为数据采用上述步骤构建出企业生产经营知识图谱和产业链图谱,作为税务知识图谱的子图;
(5)税务知识反馈
当构建税务知识图谱过程中出现数据冲突、知识质量难以确定以及知识无法抽取问题时税务知识反馈具体的方法是将问题收集起来分门别类转发到专家系统中,由税务专家系统给出解决方案从而保证知识库的质量。
本发明进一步改进在于,步骤(2)中的具体实现方法包括以下步骤:
(201)将结构化数据即发票、纳税人基本信息存储到关系型数据库中
纳税人基本信息表刻画出企业生产经营的详细状况,发票反映纳税人之间的交易关系事实即产业链流动情况;首先将纳税人基本信息存储到Mysql数据库中,之后将于纳税人基本信息中的id字段对应于发票的外键按照规格存储到Mysql数据库中;
(202)爬取搜集关于中国税务的相关网站网址
首先利用爬虫技术搜集所有有关于中国税务相关网站的网址,之后将这些网址按照信任度等级排序,最后去除信任度低于80%的网址并存储;
(203)收集整理国家税法教材、国家税务术语集以及税收优惠案例
首先将统一所有非结构化数据的格式将其转换成文本文件存储,然后根据制定的模式图使用人工标注,最后将国家税务术语集使用Bert工具将文字预训练产生词向量文件。
本发明进一步改进在于,步骤(3)中的信息抽取的具体流程如下:
(301)使用基于规则的方法抽取中国税务网页信息、国家税法教材信息
将数据处理中得到的信任度较高的中国税务网站的网址作为输入,使用有监督的机器学习技术,学习每个网站中标注好的网页的数据抽取规则,即包装器归纳法,抽取出税务关键词、税务关系词和税务属性词,从而对相似结构的web页面直接抽取出所需的三元组信息;接着,学习税法教材的半结构化信息比如章节标题、段落标题和层级关系学习到抽取规则,之后抽取所需的税务概念三元组信息;
(302)使用基于统计模型和深度学习的方法抽取
首先进行实体抽取,将税收优惠案例以及其他税务中的非结构化数据作为输入,如果有标注的数据则能够使用条件随机场模型、隐马尔可夫模型和最大熵模型统计模型抽取信息,如果没有标注数据则可以使用双向LSTM-CRF与双向LSTM-CNNs-CRF直接将词向量作为输入,通过端到端的方式输出词的新的向量再经过CRF层输出词的识别结果;接着使用正则表达式抽取分层结构或是通过无标签远程监督的方法抽取关系,最后属性抽取对于税务实体比如纳税人,抽取的内容有经营范围、信用等级和风险分值。
本发明进一步改进在于,子图与税务知识融合的具体方法如下:
首先对相似字符串计算编辑距离计算属性相似度,然后根据属性相似度采用回归或者聚类的方法计算实体相似度,最终达到税务知识融合的目的。
本发明至少具有如下有益的技术效果:
本发明提供的一种面向税务领域知识图谱的构建方法,税务数据主要来源于中国税务政策相关网站、国家税法教材、国家税务局术语集以及收集整理税收优惠具体案例,数据特点是结构化数据、半结构化数据和无标注的非结构化数据并存。因此本发明提出的一种面向税务领域知识图谱的构建方法中对于数据有两种解决方案:一种是基于规则的税务三元组抽取方法;一种是基于统计模型和深度学习的税务三元组抽取方法。此外,税务业务场景复杂,单一的税务知识图谱不能涵盖所有的应用场景,因此在构建基于知识图谱的智能税务模型的过程中,提出了税务子图方法,针对不同的业务场景自动构建不同的子图,并且多个子图可以自动更新融合成大型的税务知识图谱。
附图说明
图1为本发明一种面向税务领域知识图谱的构建方法的流程图;
图2为税务知识图谱定义图;
图3为税务数据预处理流程图;
图4为税务数据信息抽取流程图。
具体实施方式
为了更清楚的说明本发明的技术方案,下面结合附图和具体实例对本发明一种面向税务领域知识图谱的构建方法进行详细描述。
图1展示了本发明一实施例提供的一种面向税务领域知识图谱的构建方法的流程图,如图1所示,本实施例中,本发明提供的一种面向税务领域知识图谱的构建方法,包括以下步骤:
步骤1.税务知识图谱模式图的制定
由专家系统制定模式图的定义规则,选取税务领域中有代表性的关键词以及相互之间的语义关系,最主要的关系是父子关系即体现在继承关系上。模式图遵循RDF框架标准,关系的表示形式为rdfs:subclassof代表二者之间是继承关系箭头指向的一方为继承的对象
如图2所示按照这种关系,税务抽象概念词分别为:事务,事务是领域中所有实体的统称;事务的子类包含税务和媒介,税务即本专利的构建对象,媒介是实体交互的传递对象;税务领域大致可以划分为两类即税收和税法;税法中包含税收的相关政策法规等;媒介包含人、组织和物品等对象;税务中的人和组织包含自然人、纳税人、法人、非法人;非法人其中有包括合伙企业和个人独资企业。除了继承关系,税务领域还有计税关系(tax)和类型关系(type),以rdfs:tax和rdf:type的形式表示。税务数据图描述知识图谱中具体的事实,结点代表实例结点和属性值,边表示实例结点和属性值之间的关系,形式化表达为Gd=<Nd,Eb>。Nd即结点集合,Ed即边集合。模式图与数据图之间的关系用rdf:type表示,代表数据图中的实例与所属概念之间的关系,事实<容缺式注销规则,信用等级,A>,企业A是纳税人的实体,企业A满足容缺式注销规则的要求是信用等级为A,在数据图中的表示如图2所示。
步骤2.准备税务数据
数据目标为浙江省的税务数据,具体步骤如图3所示:
S301.提取发票数据和纳税人基本信息
选取浙江省脱敏后的发票数据属性和纳税人基本信息相关属性存储到mysql数据库中,纳税人基本信息表包含以下字段{NSRDZDAH,NSRSBH,SHXYDM,NSRMC,NSRBM,HY_ID,HY_DM,HYMC,MXHY_ID,MXHY_DM},代表的含义分别为{纳税人电子档案号,纳税人识别号,社会信用代码,纳税人名称,纳税人编码,行业序号,行业代码,行业名称,明细行业,明细行业代码}。将纳税人基本信息表中的纳税人电子档案号字段作为发票信息表的外键,发票信息表包含以下字段{FP_ID,FPHM,GFNSRDZDAH,XFNSRDZDAH,JE,SE},代表的含义分别为{发票编号,发票货物,购房纳税人电子识别号,销方纳税人电子识别号,金额,税额}。
S302.确定税务网站数据源
使用python爬虫爬取中国税务网站网址,将网址以列表的形式保存成txt文件,之后使用PageRank算法,对列表网页的重要性和相关性进行排序,选择排名前十的网站作为半结构化数据的数据源。
S303.税务文本数据预处理
使用python爬虫技术自动下载国家税法教材、国家税务术语集以及从国税总局网站上合理合规自动下载税收优惠的案例,并利用调用格式转换的接口将下载的文件转换成txt格式。最后使用BERT工具将国家税务术语集预处理,产生词向量文件。
步骤3.税务数据信息抽取
如图4所示将步骤2处理的数据作为输入,根据业务场景按照数据类型进行税务信息抽取。具体步骤如下:
S401.提取发票交易信息
处理结构化数据浙江省发票数据和纳税人基本信息表,提取交易信息确认企业id和交易关系为交易明细即交易的商品。
S402.采用自动提取方法提取中国税务网页信息
处理半结构化数据中国税务网页信息采用的是自动抽取的方法具体步骤如下:
将相似的网页通过聚类分成若干组,使用web组集合Gr={g1,g2,…gn}挖掘出同一组中相似网页的重复模式,生成该组网页特有的包装器wrapper,每组包装器组成包装器集合W={w1,w2,…,wn}之后对需要抽取信息的中国税务页面{web1,web2,…web10}聚类划分到相应的web页面组,每个页面组对应于一个包装器,之后利用对应的包装器抽取税务信息。处理国家税法教材采用相似的方法只不过将web页面对应不同的章节即可,具体过程见上。
S403.识别文本中税务实体属性与关系
最后是处理非结构化数据,本实施例中包含的有税收优惠案例以及抽取其他类型数据过程中产生的文本信息等非结构化数据。具体步骤如下:
首先将非结构化数据输入到Bert模型中得到词向量,之后将词向量作为输入,输入到模型Bi-LSTM(长短时记忆网络)+CRF(条件随机场)中得到实体识别的结果文件,以<entityid,entity>形式表示,接着使用远程监督的方法识别出关系,以<relationid,relation>形式表示,最后生成事实三元组<entityid,relationid,entityid>。可以看出属性是对实体的完整勾画,是实体与属性值之间一种名称性关系,因此大部分属性抽取问题可以转换成上文所述的关系抽取问题。
步骤4.税务知识融合
税务领域中个税和个人所得税实际上指代含义是相同的,因此需要处理对多个名称指代同一实体的问题,对税务知识进行融合。具体方法如下:
首先将上一步骤得到的文本的词向量作为输入,输入到语义模型中即采用奇异值分解技术对向量空间进行分解得到语义特征,之后取名称词附近的词作为特征向量使用向量余弦相似度比较,即采用聚类与语义相似度结合的方法计算出实体相似度从而达到实体消歧的目的。
步骤5.税务知识反馈
根据步骤4得到的基于知识图谱的智能税务基本模型,将这个基本模型的数据作为输入传递到专家系统中,由专家系统判定模型存在的问题,标记问题数据,给出解决方案。最终达到保证模型质量的目的。

Claims (1)

1.一种面向税务领域知识图谱的构建方法,其特征在于,包括以下步骤:
(1)构建税务知识图谱模式图
首先税务专家系统根据输入的税务知识确定税务知识图谱整体的概念,将税务知识图谱形式化定义为一张图G,G=<Gs,Gd,R>,其由税务模式图Gs、税务数据图Gd以及二者之间的关系R组成;税务模式图是描述税务领域中各种抽象概念及其相互之间关系的图,形式化定义为Gs=<Ns,Es>,其中Ns为图中的结点集合代表税务图谱中税务抽象概念,Es为属性边集合代表概念之间的语义关系,之后将确定的税务抽象概念按照层次关系填入税务模式图中;
(2)数据处理
税务知识图谱中包含的税务数据来源于发票信息、纳税人基本信息、中国税务网站、国家税法教材、国家税务术语集以及税收优惠案例;这些税务数据包含结构化数据、半结构化数据和非结构化数据,按照数据类型收集、整理、存储和清洗数据;具体实现方法包括以下步骤:
(201)将结构化数据即发票、纳税人基本信息存储到关系型数据库中
纳税人基本信息表刻画出企业生产经营的详细状况,发票反映纳税人之间的交易关系事实即产业链流动情况;首先将纳税人基本信息存储到Mysql数据库中,之后将于纳税人基本信息中的id字段对应于发票的外键按照规格存储到Mysql数据库中;
(202)爬取搜集关于中国税务的相关网站网址
首先利用爬虫技术搜集所有有关于中国税务相关网站的网址,之后将这些网址按照信任度等级排序,最后去除信任度低于80%的网址并存储;
(203)收集整理国家税法教材、国家税务术语集以及税收优惠案例
首先将统一所有非结构化数据的格式将其转换成文本文件存储,然后根据制定的模式图使用人工标注,最后将国家税务术语集使用Bert工具将文字预训练产生词向量文件;
(3)税务数据信息抽取
信息抽取将处理后的数据作为输入,抽取的目标是抽取出形为E,或实体、关系和属性/实体的三元组;根据数据源的不同制定的抽取方法有:有基于规则的方法和基于统计模型和深度学习的方法;信息抽取的具体流程如下:
(301)使用基于规则的方法抽取中国税务网页信息、国家税法教材信息
将数据处理中得到的信任度较高的中国税务网站的网址作为输入,使用有监督的机器学习技术,学习每个网站中标注好的网页的数据抽取规则,即包装器归纳法,抽取出税务关键词、税务关系词和税务属性词,从而对相似结构的web页面直接抽取出所需的三元组信息;接着,学习税法教材的半结构化信息比如章节标题、段落标题和层级关系学习到抽取规则,之后抽取所需的税务概念三元组信息;
(302)使用基于统计模型和深度学习的方法抽取
首先进行实体抽取,将税收优惠案例以及其他税务中的非结构化数据作为输入,如果有标注的数据则能够使用条件随机场模型、隐马尔可夫模型和最大熵模型统计模型抽取信息,如果没有标注数据则可以使用双向LSTM-CRF与双向LSTM-CNNs-CRF直接将词向量作为输入,通过端到端的方式输出词的新的向量再经过CRF层输出词的识别结果;接着使用正则表达式抽取分层结构或是通过无标签远程监督的方法抽取关系,最后属性抽取对于税务实体比如纳税人,抽取的内容有经营范围、信用等级和风险分值;
(4)税务知识融合
税务知识图谱的构建是一个不断迭代不断更新的过程,由于数据源不同、知识库不同导致税务知识图谱中的数据具有多样性和异构性;由步骤(2)得到的发票信息和纳税人基本信息作为数据采用上述步骤构建出企业生产经营知识图谱和产业链图谱,作为税务知识图谱的子图;
子图与税务知识融合的具体方法如下:
首先对相似字符串计算编辑距离计算属性相似度,然后根据属性相似度采用回归或者聚类的方法计算实体相似度,最终达到税务知识融合的目的;
(5)税务知识反馈
当构建税务知识图谱过程中出现数据冲突、知识质量难以确定以及知识无法抽取问题时税务知识反馈具体的方法是将问题收集起来分门别类转发到专家系统中,由税务专家系统给出解决方案从而保证知识库的质量。
CN202010238326.3A 2020-03-30 2020-03-30 一种面向税务领域知识图谱的构建方法 Active CN111428053B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010238326.3A CN111428053B (zh) 2020-03-30 2020-03-30 一种面向税务领域知识图谱的构建方法
PCT/CN2020/113308 WO2021196520A1 (zh) 2020-03-30 2020-09-03 一种面向税务领域知识图谱的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010238326.3A CN111428053B (zh) 2020-03-30 2020-03-30 一种面向税务领域知识图谱的构建方法

Publications (2)

Publication Number Publication Date
CN111428053A CN111428053A (zh) 2020-07-17
CN111428053B true CN111428053B (zh) 2023-10-20

Family

ID=71549940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010238326.3A Active CN111428053B (zh) 2020-03-30 2020-03-30 一种面向税务领域知识图谱的构建方法

Country Status (2)

Country Link
CN (1) CN111428053B (zh)
WO (1) WO2021196520A1 (zh)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428053B (zh) * 2020-03-30 2023-10-20 西安交通大学 一种面向税务领域知识图谱的构建方法
CN111813961B (zh) * 2020-08-25 2020-12-18 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置及电子设备
CN112148890B (zh) * 2020-09-23 2023-07-25 中国科学院自动化研究所 基于网络群体智能的教学知识点图谱系统
CN112148840A (zh) * 2020-09-30 2020-12-29 神思电子技术股份有限公司 一种基于自然语言理解的税务知识中台及其构建方法
CN112231418A (zh) * 2020-10-15 2021-01-15 南方电网数字电网研究院有限公司 电力标准知识图谱构建方法、装置、计算机设备和介质
CN112434532A (zh) * 2020-11-05 2021-03-02 西安交通大学 一种支持人机双向理解的电网环境模型及建模方法
CN112199515B (zh) * 2020-11-17 2023-08-15 西安交通大学 一种多形态知识图谱驱动的知识服务创新方法
CN112434224A (zh) * 2020-12-08 2021-03-02 神州数码信息系统有限公司 一种基于知识图谱的税收优惠政策推荐方法及其系统
CN112612906B (zh) * 2020-12-29 2022-01-11 广东电网有限责任公司中山供电局 一种基于最大熵模型的规则知识图谱构建方法及系统
CN112784064B (zh) * 2021-01-28 2023-05-12 电子科技大学 一种面向社交网络的层次化超维知识图谱构建方法
CN112905746A (zh) * 2021-03-08 2021-06-04 国能大渡河流域水电开发有限公司 一种基于知识图谱技术的制度档案知识挖掘处理方法
CN112966057B (zh) * 2021-04-22 2022-08-12 上海深杳智能科技有限公司 知识图谱构建方法、系统、信息处理系统、终端及介质
CN113269331B (zh) * 2021-04-25 2023-07-25 云南电网有限责任公司信息中心 一种变压器检修作业的知识库构建方法
CN113139022B (zh) * 2021-04-29 2022-09-13 同济大学 一种基于混合规则的企业物流数据按需融合方法
CN113849659A (zh) * 2021-08-18 2021-12-28 国网天津市电力公司 一种审计制度时序知识图谱的构建方法
CN113902533B (zh) * 2021-10-11 2023-08-25 税安科技(杭州)有限公司 一种适用于财税领域指标自定义和自动化运行的应用方法
CN113918677A (zh) * 2021-10-18 2022-01-11 智联(无锡)信息技术有限公司 基于知识图谱自动化链路分层的数据处理方法、装置及计算机可读介质
CN116150384A (zh) * 2021-11-18 2023-05-23 华为技术有限公司 一种数据处理的合规性检测方法、装置和相关设备
CN114055451B (zh) * 2021-11-24 2023-07-07 深圳大学 基于知识图谱的机器人操作技能表达方法
CN114118483A (zh) * 2021-12-08 2022-03-01 北京鼎兴达信息科技股份有限公司 一种铁路维修作业指导方法及系统
CN114547324B (zh) * 2021-12-31 2023-02-14 华中农业大学 食品安全国家标准领域本体的构建方法、系统和介质
CN114186759A (zh) * 2022-02-16 2022-03-15 杭州杰牌传动科技有限公司 基于减速机知识图谱的物料调度控制方法及其系统
CN114201619B (zh) * 2022-02-18 2022-06-21 中国电子技术标准化研究院 多层结构标准知识图谱构建、标准检索方法及装置
CN114580418B (zh) * 2022-03-04 2024-03-26 河北师范大学 一种警察体能训练知识图谱系统
CN114626368B (zh) * 2022-03-18 2023-06-09 中国电子科技集团公司第十研究所 一种垂直领域规则常识知识获取方法及系统
CN114417020B (zh) * 2022-03-29 2022-09-09 浙江省标准化研究院(金砖国家标准化(浙江)研究中心浙江省物品编码中心) 一种产业链图谱构建系统及方法
CN114647743B (zh) * 2022-05-20 2022-08-26 国网浙江省电力有限公司 电力营销全业务门禁规则图谱生成及处理方法、装置
CN114912637B (zh) * 2022-05-21 2023-08-29 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN114969364A (zh) * 2022-05-23 2022-08-30 冶金自动化研究设计院有限公司 企业生产物料跟踪系统知识图谱构建方法
WO2023225960A1 (en) * 2022-05-26 2023-11-30 Siemens Aktiengesellschaft Industrial data processing method and apparatus for edge device
CN114780083B (zh) * 2022-06-17 2022-10-18 之江实验室 一种知识图谱系统的可视化构建方法及装置
CN114896426B (zh) * 2022-07-14 2023-10-13 中国人民解放军国防科技大学 一种电子目标认知图谱的构建方法
CN115203436B (zh) * 2022-07-15 2023-12-15 国网江苏省电力有限公司信息通信分公司 一种基于有向图数据融合的电力知识图谱构建方法和装置
CN114936295A (zh) * 2022-07-21 2022-08-23 北斗天下卫星导航有限公司 一种基于领域知识图谱的通用热点分析方法和系统
CN115079588A (zh) * 2022-08-05 2022-09-20 福州大学 基于时空数据驱动的智能家居服务管控方法
CN115114458B (zh) * 2022-08-29 2022-11-11 北京北投智慧城市科技有限公司 一种基于智慧建筑知识图谱的设备控制方法及系统
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN115525776A (zh) * 2022-10-31 2022-12-27 中国电信股份有限公司 事件抽取模型训练方法、事件抽取方法以及相关设备
CN115545799B (zh) * 2022-11-04 2023-03-24 北京赛西科技发展有限责任公司 信息技术服务质量评估方法、装置、设备及介质
CN115600601B (zh) * 2022-11-08 2023-03-31 税友软件集团股份有限公司 一种税法知识库构建方法、装置、设备及介质
CN115759256A (zh) * 2022-11-24 2023-03-07 中安华邦(北京)安全生产技术研究院股份有限公司 一种安全生产数字化知识库构建方法、系统、介质及设备
CN116701643A (zh) * 2022-12-15 2023-09-05 重庆交通大学 基于社会传感数据的人群出行行为解析方法及存储介质
CN116010583B (zh) * 2023-03-17 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种级联耦合的知识增强对话生成方法
CN116010587A (zh) * 2023-03-23 2023-04-25 中国人民解放军63921部队 航天测发保障性条件知识推送方法、装置、介质及设备
CN116136861B (zh) * 2023-04-18 2023-08-15 中国电子科技集团公司第十研究所 基于知识图谱的分布式多源异构数据管理系统及方法
CN116842099B (zh) * 2023-05-09 2024-03-19 中电科大数据研究院有限公司 一种多源异构数据处理方法和系统
CN116340547A (zh) * 2023-05-24 2023-06-27 江苏微皓智能科技有限公司 一种对话式报表可视化生产方法及系统
CN116992959B (zh) * 2023-06-02 2024-03-15 广州数说故事信息科技有限公司 一种基于知识图谱的食品类产品创意概念生成验证方法
CN116756396B (zh) * 2023-06-29 2023-12-22 广东齐峰信息科技有限公司 基于知识图谱的数字档案管理系统及方法
CN116562265B (zh) * 2023-07-04 2023-12-01 南京航空航天大学 一种信息智能解析方法、系统及存储介质
CN116611903B (zh) * 2023-07-18 2023-09-22 太仓市律点信息技术有限公司 基于数字金融服务的大数据处理方法、服务器及存储介质
CN116702899B (zh) * 2023-08-07 2023-11-28 上海银行股份有限公司 一种适用于公私联动场景的实体融合方法
CN116701665A (zh) * 2023-08-08 2023-09-05 滨州医学院 基于深度学习的中医古籍知识图谱构建方法
CN116719955B (zh) * 2023-08-09 2023-10-27 北京国电通网络技术有限公司 标签标注信息生成方法、装置、电子设备和可读介质
CN116821712B (zh) * 2023-08-25 2023-12-19 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置
CN116821376B (zh) * 2023-08-30 2024-03-08 北京华琦远航国际咨询有限公司 煤矿安全生产领域的知识图谱构建方法及系统
CN117150049B (zh) * 2023-09-15 2024-03-22 上海峻思寰宇数据科技有限公司 一种个案图谱架构系统
CN116955589B (zh) * 2023-09-19 2024-01-30 山东山大鸥玛软件股份有限公司 一种基于教材知识图谱的智能命题方法、系统、命题终端及存储介质
CN117112806B (zh) * 2023-10-12 2024-01-26 北京大学深圳研究生院 一种基于知识图谱的信息结构化方法和装置
CN117131245B (zh) * 2023-10-27 2024-03-05 江苏数兑科技有限公司 一种运用知识图谱技术实现目录资源推荐机制的方法
CN117151122B (zh) * 2023-10-30 2024-03-22 湖南三湘银行股份有限公司 基于自然语言处理的银行客服会话问答处理方法及系统
CN117312565B (zh) * 2023-11-28 2024-02-06 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法
CN117313855B (zh) * 2023-11-28 2024-03-15 支付宝(杭州)信息技术有限公司 规则决策方法和装置
CN117473431A (zh) * 2023-12-22 2024-01-30 青岛民航凯亚系统集成有限公司 一种基于知识图谱的机场数据分类分级方法及系统
CN117743558A (zh) * 2024-02-20 2024-03-22 青岛海尔科技有限公司 基于大模型的知识加工、知识问答方法、装置及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218679A (zh) * 2013-01-30 2013-07-24 北京税恒科技有限公司 一种企业税务知识管理平台
WO2017084362A1 (zh) * 2015-11-18 2017-05-26 百度在线网络技术(北京)有限公司 模型生成方法、推荐方法及对应装置、设备和存储介质
CN106933814A (zh) * 2015-12-28 2017-07-07 航天信息股份有限公司 税务数据异常分析方法及系统
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN109408643A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 基金相似度计算方法、系统、计算机设备和存储介质
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置
CN110825882A (zh) * 2019-10-09 2020-02-21 西安交通大学 一种基于知识图谱的信息系统管理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180366013A1 (en) * 2014-08-28 2018-12-20 Ideaphora India Private Limited System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110347844A (zh) * 2019-07-15 2019-10-18 中国人民解放军战略支援部队航天工程大学 一种太空目标知识图谱构建系统
CN111428053B (zh) * 2020-03-30 2023-10-20 西安交通大学 一种面向税务领域知识图谱的构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218679A (zh) * 2013-01-30 2013-07-24 北京税恒科技有限公司 一种企业税务知识管理平台
WO2017084362A1 (zh) * 2015-11-18 2017-05-26 百度在线网络技术(北京)有限公司 模型生成方法、推荐方法及对应装置、设备和存储介质
CN106933814A (zh) * 2015-12-28 2017-07-07 航天信息股份有限公司 税务数据异常分析方法及系统
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN109408643A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 基金相似度计算方法、系统、计算机设备和存储介质
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110825882A (zh) * 2019-10-09 2020-02-21 西安交通大学 一种基于知识图谱的信息系统管理方法
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Knowledge Graph Embedding Based On Multi-information Fusion;Dehai Zhang 等;《2019 IEEE International Conference on Computer Science and Educational Informatization (CSEI)》;1-10 *
基于大数据的企业图谱的研究与应用;袁安云;《中国优秀硕士学位论文全文数据库》;20180515;第J152-228页 *
面向财税领域的实体识别与标注研究;仇瑜 等;《计算机工程》;20190808;第1-10页 *

Also Published As

Publication number Publication date
CN111428053A (zh) 2020-07-17
WO2021196520A1 (zh) 2021-10-07

Similar Documents

Publication Publication Date Title
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
US11222052B2 (en) Machine learning-based relationship association and related discovery and
US11386096B2 (en) Entity fingerprints
Yang et al. Research on enterprise risk knowledge graph based on multi-source data fusion
Akerkar et al. Intelligent techniques for data science
CN114003791B (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
Jalali et al. Research trends on big data domain using text mining algorithms
CN103425740A (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN114661914A (zh) 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质
Jindal et al. Construction of domain ontology utilizing formal concept analysis and social media analytics
CN116383399A (zh) 一种事件舆情风险预测方法及系统
Zhang Application of data mining technology in digital library.
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
Hu et al. EGC: A novel event-oriented graph clustering framework for social media text
Frolov et al. Parsimonious generalization of fuzzy thematic sets in taxonomies applied to the analysis of tendencies of research in data science
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
Pang et al. Methodology and mechanisms for federation of heterogeneous metadata sources and ontology development in emerging collaborative environment
CN116484023A (zh) 一种基于人工智能的电力行业知识库构建方法及系统
Pujadas-Mora et al. The Barcelona Historical Marriage Database and the Baix Llobregat Demographic Database. From algorithms for handwriting recognition to individual-level demographic and socioeconomic data
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
CN113821718A (zh) 一种物品信息推送方法和装置
Zhang et al. Big data-assisted urban governance: A comprehensive system for business documents classification of the government hotline
Lu et al. Overview of knowledge mapping construction technology
Qiu et al. BusinessDetect: an advanced business information mining application for intelligent marketing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Qinghua

Inventor after: Dong Bo

Inventor after: Li Rui

Inventor after: Shi Bin

Inventor after: Wu Yan

Inventor before: Dong Bo

Inventor before: Zheng Qinghua

Inventor before: Wu Yan

GR01 Patent grant
GR01 Patent grant