CN111581950A - 同义名称词的确定方法和同义名称词的知识库的建立方法 - Google Patents
同义名称词的确定方法和同义名称词的知识库的建立方法 Download PDFInfo
- Publication number
- CN111581950A CN111581950A CN202010361585.5A CN202010361585A CN111581950A CN 111581950 A CN111581950 A CN 111581950A CN 202010361585 A CN202010361585 A CN 202010361585A CN 111581950 A CN111581950 A CN 111581950A
- Authority
- CN
- China
- Prior art keywords
- data
- corpus data
- corpus
- name
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 168
- 230000014509 gene expression Effects 0.000 claims abstract description 55
- 238000005065 mining Methods 0.000 claims description 82
- 238000001514 detection method Methods 0.000 claims description 34
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004900 laundering Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中,同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,来挖掘确定出目标对象的同义名称词。从而能够有效地避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。
Description
技术领域
本说明书属于互联网技术领域,尤其涉及同义名称词的确定方法和同义名称词的知识库的建立方法。
背景技术
在对数据对象进行风险检测时,常常需要根据该数据对象当前使用的名称,通过检索匹配风险名单中记录的风险对象的名称,来判断该数据对象是否存风险。但是一个数据对象往往可能会同时拥有或使用多个不同的名称。
因此,亟需一种能够较为准确、全面地挖掘出目标对象的同义名称词的方法。
发明内容
本说明书提供了一种同义名称词的确定方法和同义名称词的知识库的建立方法,以便能够有效避免遗漏,准确、全面地挖掘出目标对象的同义名称词。
本说明书提供的一种同义名称词的确定方法和同义名称词的知识库的建立方法是这样实现的:
一种同义名称词的确定方法,包括:获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
一种同义名称词的知识库的建立方法,包括:获取多个数据对象中各个数据对象的第一名称词,以及第一语料数据和第二语料数据,其中,所述第一语料数据为包含有数据对象的第一名称词的数据,所述第二语料数据为与第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与各个数据对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与各个数据对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据挖掘出各个数据对象的同义名称词;根据所述各个数据对象的同义名称词,建立同义名称词的知识库。
一种同义名称词的确定装置,包括:获取模块,用于获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;预处理模块,用于根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;第一确定模块,用于根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;第二确定模块,用于根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
本说明书提供的同义名称词的确定方法和同义名称词的知识库的建立方法,通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并综合利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,来挖掘确定出目标对象的同义名称词。从而能够有效地避免出现遗漏,较为准确、全面地挖掘出目标对象的同义名称词。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的同义名称词的确定方法的系统结构组成的一个实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的同义名称词的确定方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的同义名称词的确定方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的同义名称词的确定方法的一种实施例的示意图;
图5是本说明书的一个实施例提供的同义名称词的确定方法的流程示意图;
图6是本说明书的一个实施例提供的同义名称词的知识库的建立方法的流程示意图;
图7是本说明书的一个实施例提供的服务器的结构组成示意图;
图8是本说明书的一个实施例提供的同义名称词的确定装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种同义名称词的确定方法,所述同义名称词的确定方法具体可以应用于包含有第一服务器和第二服务器的系统架构中。具体可以参阅图1所示。第一服务器和第二服务器可以通过有线或无线的方式相连。
具体实施时,第一服务器可以用于获取目标对象的第一名称词;根据所述目标对象的第一名称词,搜集包含有的目标对象的第一名称词的第一语料数据;同时根据第一语料数据,搜集与第一语料数据关联的第二语料数据;再将上述目标对象的第一名称词、第一粒语料数据和第二语料数据发送至第二服务器进行处理。第二服务器可以用于接收第一服务器提供的目标对象的第一名称词、第一语料数据和第二语料数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。从而可以较为高效、全面地挖掘确定出目标对象的同义名称词。
在本实施例中,所述第一服务器、第二服务器具体可以包括一种应用于网络平台数据处理系统一侧,能够实现数据传输、数据处理等功能的服务器。具体的,所述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述第一服务器、第二服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述第一服务器、第二服务器的数量。所述第一服务器、第二服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在一个具体的场景示例中,可以参阅图2所示,某金融服务平台可以应用本说明书实施例提供的同义名称词的确定方法挖掘建立交易风险对象同义名称词的知识库,并利用该交易风险对象同义名称词的知识库对该金融服务平台上的数据对象进行交易风险检测,以便及时、精准地识别出交易风险对象。
在本场景示例,该金融服务平台可以为符合要求(例如,不存在交易风险)的企业对象或个人对象提供多种金融服务。例如,可以为企业对象提供产品推广服务、融资服务等。也可以为个人对象提供创业资金支持服务、信用借贷服务等。
金融监管机构会定期对外发布交易风险名单(例如,涉及洗钱风险的风险名单或者涉及欺诈风险的风险名单),以及时对外提醒名单上所记录的数据对象存在相应的交易风险,应当谨慎合作。其中,上述交易风险名单上具体包含有被监管机构判定为存在交易风险的风险对象的名称等信息。
在本场景示例中,该金融服务平台的检测服务器会根据上述交易风险名单对金融服务平台上的数据对象进行风险检测。如果通过检测,确定平台上的某个数据对象的名称词与交易风险名单中的某个风险对象的名称词匹配(例如,名称词相同),则可以确定该数据对象为存在交易风险的风险对象,进而可以根据相应的风险处理规则,对该数据对象进行相应处理。
但是,对于一个数据对象(例如,一个具体的企业,或者自然人等)而言可能同时会拥有多个不同的名称词。例如,一家注册在A国的某企业拥有基于A国语言的名称词“聚力公司”。同时,该企业还拥有基于B国语言翻译后的名称词“Juli company”。此外,该企业还有拥有正式的缩略写名称词“JL”,以及正式的简称名称词“聚力”。进一步,该企业还拥有非正式的、但在A国等区域被公众所熟知的名称词“力力”。虽然“力力”这个名称词并不是该企业的正式名称词,但是在A国区域许多新闻报道常常会使用“力力”这个带有昵称性质的名称词来指代该企业,并且A国区域的人大多只要看到“力力”这个名称词从就会联想到该企业。
可见一个数据对象往往可能会同时拥有多个不同的名称词,并且在不同情况系也会同时使用多个不同的名称词,而上述多个不同的名称词实际上指示的都是同一个数据对象。
而交易风险名单中往往对于每一个风险对象,只会记录有用于指示该风险对象的一个或几个名称词。例如,在交易风险名单中可能只记录有“聚力公司”这一个名称词。即,交易风险名单中所记录的用于指示风险对象的名称词是往往相对有限、不全面的。在这种情况下,如果仅根据交易风险名单来检测判断数据对象是否为风险对象,很容易出现检测误差。
例如,在该金融服务平台上,“聚力公司”所使用的名称词为基于B国语言翻译后的名称“Juli company”。当检测服务器根据交易风险名单对该企业进行风险检测时,发现在交易风险名单上无法找到名称词与“Juli company”匹配的风险对象,进而错误地将该企业判断为不是风险对象。实际上该企业也是风险交易名称上记录的风险对象。
在本场景示例中,为了能够准确地对金融服务平台上的数据对象进行检测识别,可以参阅图2所示,该金融服务平台除包含有检测服务器外,还包含有挖掘服务器,用于挖掘并建立交易风险对象同义名称词的知识库。其中,上述交易风险对象同义名称词的知识库具体可以包括一种记录有用于指示同一个风险对象的多种不同的同义名称词的数据库。进而,检测服务器对该金融服务平台上的数据对象进行检测时,可以综合利用交易风险名单,以及上述风险对象同义名称的知识库,较为准确地判断出平台上待检测的数据对象是否为风险对象。
在本场景示例中,具体实施时,当挖掘服务器接收到监管机构新发布的交易风险名单时,可以先根据该交易风险名单,确定出交易风险名单上所记录的风险对象作为目标对象,并获取交易风险名单上所记录的风险对象的名称词,作为目标对象的第一名称词。例如,在交易风险名单上记录有存在交易风险的某企业,以及指示该企业的名称词“聚力公司”。挖掘服务器可以将该企业确定为目标对象,并将“聚力公司”作为该目标对象的第一名称词。
按照上述方式,挖掘服务器可以根据交易风险名单确定出该名单上的各个风险对象所对应的目标对象(可以是一个企业对象,也可以是一个自然人对象),以及各个目标对象的第一名称词。进一步,挖掘服务器可以基于各个目标对象的第一名称词,通过获取并对语料数据进行相应挖掘,得到对应各个目标对象的除第一名称词以外的其他的同义名称词。进而可以根据所挖掘到的目标对象的同义名称词,构架较为准确、全面的风险对象同义名称词的知识库。下面以对多个目标对象中的任意一个目标对象为例,具体说明挖掘服务器如何挖掘出目标对象的同义名称词。
挖掘服务器具体实施时,可以参阅图3所示,根据目标对象的第一名称词,从预设的网络数据源中获取相应的第一语料数据和第二语料数据。其中,上述预设的网络数据源具体可以包括包含有大量文本数据,和/或使用多种不同语种语言来处理上述文本数据的网站。
具体的,可以选择使用现有的维基百科网作为一种预设的网络数据源。其中,维基百科网包含有多个基于不同语言的版本,例如有中文版本、英文版本、德文版本等等。对于每一个版本的维基百科网又分别包含有大量使用所对应的语言的文本数据描述具体条目内容的网页数据,且每个网页数据进一步还会携带有一个或多个超链接数据,用于链接与该网页数据中所出现的文本数据相关的其他的网页数据(例如,锚文本数据)。因此,在本场景示例中选择维基百科网这种包含有大量文本数据,且涉及多种不同语言的网站作为预设的网络数据源,可以获得数量庞大、内容丰富的语料数据。当然,具体实施时,根据具体的应用场景,也可以选择其他合适的信息类网站作为上述预设的网络数据源。例如,还可以选择使用BD文库等信息类网站作为预设的网络数据源。此外,除了从使用上述类型的网站作为预设的网络数据源来获取语料数据外,还可以选择使用例如,新闻类网站,以及微博、YouTube、Facebook等社交类网站或APP等作为预设的网络数据源来获取语料数据。对此,本说明书不作限定。
下面具体以使用例如维基百科网等信息类网站作为预设的网络数据源为例进行具体说明。挖掘服务器可以先根据目标对象的第一名称词,检索维基百科网中不同语言版本的网页数据,找到包含有目标对象的第一名称词的网页数据作为第一语料数据。进一步,可以检索并获取在第一语料数据的网页上设置的超链接数据,进而根据第一语料数据的超链接数据搜索到与该第一语料数据的网页上的文本数据相关的其他网页数据,作为与该第一语料数据关联的第二语料数据。
例如,挖掘服务器根据风险名单上记录的风险对象的名称词“聚力公司”在检索预设的网络数据源中的网页数据时,发现某个网页数据的文本数据中包含有“聚力公司”这个词,进而可以将该网页数据确定为一个第一语料数据。进一步,可以搜索获取该网页上设置的超链接,例如,得到了设置在该网页上的超链接数据1、超链接数据2和超链接数据3。再根据上述超链接数据所携带的地址数据,搜索并获取上述超链接数据所分别指示的网页1、网页2和网页3。进而可以获取上述网页1、网页2和网页3上的网页数据作为与上述第一语料数据关联的第二语料数据。
通过上述方式挖掘服务器可以从预设的网络数据源中得到大量涉及不同语言的、内容丰富的第一语料数据和第二语料数据。进一步,为了减少后续处理所涉及的数据处理量,提高语料数据的数据质量。挖掘服务器可以先对上述第一语料数据和第二语料数据进行数据过滤,以去除例如网页上所包含的非文本类的数据,得到过滤后的较为纯净的第一语料数据和第二语料数据。
具体实施时,考虑到所获取的网页数据中往往可能还会夹杂有非文本的类的数据,例如图像数据。因此,挖掘服务器可以先计算出所获取的第一语料数据和第二语料数据中各个数据的置信度,其中,上述置信度可以用于表征所对应的数据为文本数据的概率值。进而可以根据置信度,从第一语料数据和第二语料数据中剔除置信度小于等于预设的置信度阈值的数据(在本场景示例中可以记为脏数据),以过滤脏数据,实现数据清洗,得到较为纯净的,只包含文本数据的过滤后的第一语料数据,以及过滤后的第二语料数据。进一步,可以将上述过滤后的第一语料数据、过滤后的第二语料数据保存成文本格式,便于后续处理。
在本场景示例中,又考虑到所获取的第一语料数据和第二语料数据可能会是基于不同语种语言的文本数据,而基于不同语言的文本数据在格式上会存在区别。例如,在一个基于英文或德文等拉丁语系的文本数据中,不同的词单位之间本身就已经存在间隔。因此,对这类文本数据可以不用再作分词处理。而在一个基于中文或泰文等非拉丁语系的文本数据中,不同的词单位之间本身是没有间隔的。因此,对这类文本数据还需要再进行分词处理。
考虑到上述情况,挖掘服务器在获得了第一语料数据和第二语料数据这些语料数据后,还可以先获取语料数据中字符的字符特征,根据字符特征确定出语料数据所使用的语言,并确定该语言是否为拉丁语系。如果确定所使用的语言为拉丁语系(例如,英文、德文、意大利文等),则不用对该语料数据进行分词处理。如果确定所使用的语言为非拉丁语系(例如,中文、泰文、日文等),则可以先对该语料数据进行分词处理,便于后续的数据处理。
在本场景示例中,在获取了第一语料数据和第二语料数据后,为了后续能够利用第一语料数据和第二语料数据之间的相互关系,来更加全面地挖掘目标对象的同义名称词,挖掘服务器可以先确定出在第一语料数据的网页数据中与第二语料数据对应的超链接数据的链接类型。进一步,可以根据超链接的链接类型,对第二语料数据进行分类,确定出超链接数据所对应的第二语料数据与第一语料数据之间的关联类型。例如,可以将在第一语料数据的网页上的超链接数据的链接类型,确定为与该超链接数据所对应的第二语料数据与该第一语料数据之间的关联类型。并且,还可以在第二语料数据中设置相应的关联类型标签,以标记出该第二语料数据与第一语料数据之间的关联类型。这样就能较初步地确定并标识出包含有目标对象的第一名称词的第一语料数据,与可能包含有目标对象的同义名称词的第二语料数据之间的关联关系,后续可以利用这种关联关系来对第二语料数据进行针对性的挖掘,以便后续能够更加准确地挖掘出更多目标对象的同义名称词。
其中,上述超链接数据的链接类型具体可以包括:不同语种语言之间的链接(Interlanguage Links)、分类与子类之间的链接(Category to Subcategory)、分类与解释页面之间的链接(Category to Article)、重定向页面与解释页面之间的链接(Redirectto Article)等。当然,上述所列举的超链接数据的链接类型只是一种示意性说明。具体实施时,根据具体情况,还可以包含其他相应的链接类型,例如,还可以包括解释页面与解释页面之间的链接(Article to Article)等。
在本场景示例中,为了便于后续可以同时采用多种不同的挖掘处理方式,以便能够相对更准确、全面地从第一语料数据和第二语料数据中、挖掘出目标对象的同义名称词。挖掘服务器可以根据预设的处理规则,对所获取的第一语料数据和的第二语料数据分别进行基于自然语言理解(NLU,Natural Language Understanding)的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据。
其中,上述预设的处理规则具体可以包括一种基于自然语言理解,集合了语法词性识别、命名实体对象检测,以及句法依存关系分析等多种文本数据处理的处理规则的规则集。相应的,基于预设的处理规则所进行的多组预设处理具体可以包括:基于语法词性识别的第一预设处理、基于命名实体对象检测的第二预设处理,以及基于句法依存关系分析的第三预设处理等多组不同预设处理。
具体实施时,首先,挖掘服务器可以根据预设的处理规则,对第一语料数据和第二语料数据中的文本数据进行词性识别,确定出第一语料数据和第二语料数据中的文本数据(例如,单词,或者分词处理后的词单位等)在所对应的语料数据中词性,得到对应的词性识别结果。例如,名词(Noun,可以标记为NN)、动词(Verb,可以记为VB)、副词(Adverb,可以记为RB)、形容(Adjective,可以记为JJ)等。当然,上述所列举的词性识别结果只是一种示意性说明。具体实施时,根据具体情况,还可以包括有其他类型的词性识别结果,例如,还可以包括:介词(Preposision)、连词(Conjunction)等,以及其他相对比较特别的词性识别结果,例如,基数词(Cardinal Number,可以标记为CD)、外来词(Foreign Word,可以标记FW)等等。
当然,上述所列举的词性识别结果为相对较初级的识别结果,根据具体的情况和精度要求,还可以再对于上述类型的词性识别结果进行更加精细的划分,得到更加精细的词性识别结果。例如,对于介词,可以进一步划分包括:并列连词(Coordinatingconjunction,可以标记为CC)、从属连词(Preposision or subordinating conjunction,可以标记为IN)等。对于名词,可以进一步划分包括:单数名词(ProperNoun,singular,可以标记为NNP)、复数名词(ProperNoun,plural,可以标记为NNPS)等。对于动词,可以进一步划分包括:过去时动词(Verb,past tense,可以标记为VBD)、现在时动词或动名词(Verb,gerund or persent participle,可以记为VBG)等等。
进而挖掘服务可以根据词性识别结果,在第一语料数据和第二语料数据中针对识别出的文本数据分别设置对应的词性标签,得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据。例如,可以参阅图4所示,在第一语料数据和第二语料数据中,在识别出的文本数据的下方设置对应的词性识别结果作为该文本数据的词性标签。
在本场景示例中,又考虑到第一语料数据和第二语料数据中的文本数据可能涉及多种不同的语种的语言,因此,可以先确定并根据第一语料数据和第二语料数据所对应的语言,确定出与该语言匹配的词性识别规则,进而可以根据该词性识别规则,通过分析第一语料数据和第二语料数据中的文本数据的数据特征,识别确定出各个文本数据的词性。
此外,挖掘服务器也可以采用Berkeley parser(一种基于NLU的词性分析器)对第一语料数据和第二语料数据进行多语种的词性识别,并标注出对象的词性识别结果作为词性标签。
然后,挖掘服务器可以根据预设的处理规则,对第一预设处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测(Named EntityRecognition,NER),从上述第一预设处理后的第一语料数据和第一预设处理后的第二语料数据中识别出用于指示例如自然人、企业公司等实体对象的文本数据,得到对应的检测结果。进而可以根据上述检测结果,在第一预设处理后的第一语料数据和第一预设处理后的第二语料数据中对被识别为命名实体对象的文本数据设置对应的命名实体对象标签,得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据。
具体的,挖掘服务器可以根据第一预设处理后的第一语料数据和第一预设处理后的第二语料数据中文本数据所携带的词性标签,结合语料数据中文本数据的之间的相对位置,根据命名实体对象的判别规则,从第一预设处理后的第一语料数据和第一预设处理后的第二语料数据中找到用于指示自然人,或企业公司等实体对象,词性为名词的文本数据,确定为命名实体对象的文本数据,得到对应的检测结果。当然,上述所列举的命名实体对象的检测方式只是一种示意性说明。具体实施时,根据具体情况还可以采用其他的检测方式来从语料数据中检测出命名实体对象的文本数据。对此,本说明书不作限定。
接着,挖掘服务器可以根据预设的处理规则,对上述得到的第二预设处理后的第一语料数据和第二预设处理后的第二语料数据分别进行句法依存分析处理,确定出在第二预设处理后的第一语料数据和第二预设处理后的第二语料数据中的各个句子数据中不同文本数据之间是否存在句法依存关系,以及所存在的句法依存关系的类型,作为对应的分析结果。进而,可以根据上述分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系。例如,可以参阅图4所示,在第二预设处理后的第一语料数据和第二预设处理后的第二语料数据中的每一个句子数据的上方使用连接线连接该句子数据中存在句法依存关系的两个文本数据,并在该连接线上标注出两个文本数据之间的句法依存关系的具体类型。例如,nsubj(nominalsubject,名词主语关系)、dep(dependent,依赖关系)、compound(组合关系)、amod(形容词修饰关系)、dobj(直接宾语关系)、det(determiner,决定词关系,例如冠词等)等等。得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据,作为所述处理后的第一语料数据和处理后的第二语料数据。当然,上述所列举的句法依存关系的类型只是一种示意性说明,具体实施时,根据具体情况还可以包含有其他类型的句法依存关系。对此,本说明书不作限定。
在完成上述多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据后,挖掘服务器可以利用上述处理后的第一语料数据和处理后的第二语料数据,将至少两种挖掘方式进行组合。参阅图所示,通过确定并根据文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数,这两种不同维度的参数数据,来对上述处理后的第一语料数据和处理后的第二语料数据进行多次不同的同义名称词的挖掘,以便能够有效地扩展挖掘的广度,挖掘相对更多的指示同一个目标对象的同义名称词。
其中,上述文本数据与目标对象的第一名称词之间的关系参数具体可以包括基于同一个语料数据所确定出的能够描述文本数据与目标对象的第一名称词之间的关系的参数数据,例如,同义关系参数等,也可以包括基于不同语料数据(例如,基于第一语料数据和关联的第二语料数据)所确定出的能够描述文本数据与目标对象的第一名称词之间的关系的参数数据,例如,相关度等。当然,上述所列举的关系参数只是一种示意性说明。具体实施时,根据具体情况,还可以进一步引入其他类型的关系参数。
在本场景示例中,挖掘服务可以通过确定并利用文本数据的正则表达式,采用基于pattern的挖掘方式,基于文本数据的本身特征,来从所述第一语料数据和所述第二语料数据中较为精准地找出一批目标对象的同义名称词,作为第一类同义名称词。
其中,上述pattern可以理解为一种正则模板。具体实施时,挖掘服务器可以根据目标对象的具体情况,针对目标对象定义一个或多个对应的正则模板,记为目标对象的正则模板。例如,对于目标对象为自然人,可以根据目标对象的情况,定义以下三种不同类型的正则模板“.*also rendered.*”、“.*also named as.*”、“.*Language:.*”。对于目标对象为企业,可以根据目标对象的情况,定义以下两种不同类型的正则模板“.*Companiesbased in.*”、“.*companies of.*”。当然,上述所列举的自定义的正则模板只是一种示意性说明。具体实施时,根据具体情况还可以定义其他合适的正则模板。
具体挖掘时,可以先确定出第一语料数据和第二语料数据中各个文本数据的正则表达式。进一步可以通过相应的挖掘算法,根据文本数据的正则表达式,基于文本数据的本身特征,从第一语料数据和第二语料数据中确定出正则表达与所述目标对象的正则模板匹配的文本数据作为与目标对象的第一名称词属于同义关系(例如,指示同一个目标对象)的文本数据,并将该文本数据确定为第一类同义名称词。通过这种方式可以挖掘到精度相对较高的同义名称词。
在本场示例中,具体实施时,例如,挖掘服务器可以采用以下的算法程序来高效地挖掘出上述第一类同义名称词。
同时,挖掘服务器还会确定并根据第一语料数据和第二语料数据中的文本数据与目标对象的第一名称词之间的关系参数,基于语料数据中文本数据之间的关系特征,来有效地扩展挖掘范围,找到另一批覆盖度更好、更加多样的目标对象的同义名称词,作为第二类同义名称词。
具体的,如果使用相关度作为关系参数,挖掘服务器可以根据处理后的第二语料数据中携带的关联类型标签,确定出第二语料数据和第一语料数据之间的关联关系。进一步,可以根据第二语料数据与第一语料数据之间的关联类型,基于语料数据之间的关系,采用基于超链接数据的路径语义相关度的挖掘方式,来确定第二语料数据中的文本数据与目标对象的第一名称词之间的语义相关度,作为上述相关度。再根据相关度,从第一语料数据和第二语料数据中筛选相关度较高,例如,高于预设的相关度阈值的文本数据作为与目标对象的第一名称词属于同义关系的文本数据,并将该文本数据确定为第二类同义名称词。
例如,可以使用一个图模型形式来表示语料数据的关联关系:G={V,E}(其中,G:可以表示为相关度,V:可以表示为第一语料数据,例如,维基百科网中某一网页,E:可以表示为关联的第二语料数据,例如,网页上的超链接数据的集合)。进一步,可以计算V中不同的第二语料数据中各个文本数据与第一语料数据之间路径数量;并根据语料数据之间的关联关系类型等属性特征确定出各个路径的路径长度。进而可以采用相应的算法,例如PF-IBF算法,根据路径数量和路径长度来计算对应的pfibf值作为相关度。可以参阅以下算式所示。
pbfibf(υi,υj)=pf(υi,υj)×ibf(υj)
其中,ibf(υj)具体可以表示为反向频率(InversedBackwardFrequency),bf(υj)具体可以表示υj所指示的语料数据的后向链接数,N具体表示为所有的链接数,pf(υi,υj)具体可以表示为频繁路径(PathFrequency)。
如果使用文本数据与目标对象的第一名称词之间的同义关系参数作为关系参数,挖掘服务器可以根据处理后的第一语料数据和处理后的第二语料数据中所标注的同一个句子数据之间的句法依存关系,基于同一语料数据中的同一个句子数据中文本数据的关系,采用基于句法依存树同义关系的挖掘方式来进行具体的同义名称词的挖掘。
具体实施时,挖掘服务器可以先将上述处理后的第一语料数据和处理后的第二语料数据,拆分成多个句子数据。再利用预设的关系预测模型对所述多个句子数据分别进行预测处理,得到句子数据中的文本数据之间的关系预测结果。再根据所述关系预测结果,确定出文本数据与目标对象的第一名称词之间的同义关系参数。进而可以根据上述同义关系参数,从处理后的第一语料数据和第二语料数据中筛选出与目标对象的第一名称词属于同义关系的文本数据,作为第二类同义名称词。
其中,上述预设的关系预测模型具体可以包括预先对样本句子数据进行学习、训练,所建立得到的能够基于句法依存关系来预测文本数据之间的同义关系的处理模型。
具体实施前,可以按照以下方式训练获得上述预设的关系预测模型:获取样本句子数据,并对所述样本句子数据进行句法依存分析,得到分析结果;根据所述分析结果,建立针对所述样本句子数据的样本句法依存关系树;根据所述样本句法依存关系树,进行模型训练,以得到所述预设的关系预测模型。其中,上述预设的关系预测模型具体可以是基于SDP-LSTM、BRCNN、DepNN等模型结构所训练得到的。
在具体确定同义关系参数时,挖掘服务器可以将拆分出的句子数据分别作为模型输入,输入至预设的关系预测模型,并运行该模型,得到对应的模型输出。进而可以根据模型输出,确定出对应的同义关系参数。
在本场景示例中,为了能够挖掘出更多的第二类同义名称词,挖掘服务器可以同时使用相关度和同义关系参数这两种关系参数,采用对应的基于超链接数据的路径语义相关度的挖掘方式和基于句法依存树同义关系的挖掘方式两种挖掘方式来挖掘得到覆盖度更广、多样性更好的第二类同义名称。当然,具体实施时,根据具体情况,也可以只选用相关度和同义关系参数中的一种作为关系参数,采用对应的一种挖掘方式来挖掘出第二类同义名称词。
进一步,参阅图3所示,挖掘服务器可以将上述基于不同挖掘方式,挖掘得到的第一类同义名称词和第二类同义名称词进行组合,得到了针对该目标对象的同义名称词。
具体实施时,在将第一类同义名和第二类同义名称词组合之后,还可以对组合后的同义名称词进行校正检测,以剔除由于误差被错误识别成与目标对象对应的同义名称词,从而提高所确定出的目标对象的同义名称词的准确率。
这样可以完成针对一个目标对象的同义名称词的确定,通过综合确定并利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,采用对应的不同的挖掘方式组合进行多次同义名称词的挖掘,从而能够有效地避免挖掘过程出现遗漏,较为准确、全面地挖掘出该目标对象的同义名称词。
在完成针对该目标对象的同义名称词的挖掘后,挖掘服务器可以继续将交易风险名单中的下一个风险对象确定为新的目标对象,对新的目标对象进行同义名称词的挖掘。
按照方式,挖掘服务器可以完成交易风险名单中各个风险对象的同义名称词的挖掘,得到各个风险对象的同义名称词。从而可以根据所挖掘出的各个风险对象的同义名称词,建立得到一个覆盖范围交广、准确度较高、效果较好的风险对象同义名称词的知识库。并且在同义名称词的挖掘过程中,可以不需要依赖人工标注,能够以较低的处理成本,高效地从大量语料数据中挖掘出目标对象的同义名称词。
在另一个场景示例中,可以参阅图2所示。检测服务器在对某金融服务平台上某个待检测的数据对象进行风险检测时。可以先获取该数据对象在该金融服务平台上注册使用的名称,以及在该金融服务平台上使用过的名称,作为该数据对象的名称。进一步,可以先检索交易风险名单,确定该数据对象的名称是否与交易风险名单上记载的风险对象的名称匹配。如果确定该数据对象的名称与交易风险名单上记载的某个风险对象的名称匹配,可以确定出该数据对象为交易风险对象。进而可以根据相应的风险处理规则,进行以下所列举的处理中的一种或多种:生成对该数据对象的风险提示警告;或者,为该数据对象设置风险对象标签;或者,暂停对该数据对象提供金融服务;还或者,对该数据对象在平台上的行为数据进行监控等等。
如果确定该数据对象的名称与交易风险名单上记载的风险对象的名称都不匹配时,检测服务器可以获取挖掘服务器所建立的风险对象同义名称词的知识库,再检索风险对象同义名称词的知识库,确定该数据对象的名称是否与风险对象同义名称词的知识库中的名称词匹配。如果检测到数据对象的名称与风险对象同义名称词的知识库中的某个名称词匹配,则可以确定出该数据对象为交易风险对象,进而可以根据相应的风险处理规则进行处理。如果检测到数据对象的名称与风险对象同义名称词的知识库中的任何一个名称词都不匹配,则可以确定该数据对象不是交易风险对象。
通过上述方式,可以利用挖掘服务器通过同义名称词的确定方法挖掘建立的风险对象同义名称词的知识库,结合风险交易名单,较为京珠地识别判断出待检测的数据对象是否为风险对象,减少了识别误差。
参阅图5所示,本说明书实施例提供了一种同义名称词的确定方法。其中,该方法具体实施时,可以包括以下内容。
S501:获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据。
在一些实施例中,上述目标对象具体可以是一种实体数据对象。具体的,上述目标对象可以是自然人,也可以是企业,还可以是其他的组织机构等。
在一些实施例中,上述目标对象的第一名称词具体可以包括已有的与目标对象对应的名称,通过上述名称可以区别于其他数据对象,指示所对应的目标对象。当然,具体实施时,上述目标对象的第一名称词还可以是其他已有的类似于名称,能够与目标对象对应的文本指示信息。例如,上述目标对象的第一名称词还可以是已有的自然人的身份标识信息,也可以是已有的企业的注册编号等等。
在一些实施例中,上述第一语料数据具体可以包括包含有目标对象的第一名称词的语料数据。例如,上述第一语料数据可以是包含有目标对象的第一名称词的网页数据;也可以是包含有目标对象的第一名称词的新闻报道;还可以是包含有目标对象的第一名称词的文章、微博等等。对于上述第一语料数据的具体形式,本说明书不作限定。
在一些实施例中,上述第二语料数据具体可以包括基于第一语料数据所确定出的,与第一语料数据存在联系的关联的语料数据。例如,上述第二语料数据具体可以是设置在第一语料数据的网页数据上的超链接数据所链接的其他的网页数据;也可以是第一语料数的新闻报道所引用,或者被引用的其他的新闻报道等等。对于第二语料数据的具体形式,本说明书不作限定。
在一些实施例中,本说明书提供的同义名称词的确定方法具体可以应用于服务器一侧。通过该方法可以对语料数据(包括第一语料数据和第二语料数据)进行挖掘,找到除第一名称词以外,其他与目标对象对应能够用于指示目标对象的名称词,作为目标对象的同义名称词。其中,上述目标对象的同义名称词具体可以包括:基于不同语种语言翻译得到的名称词、正式的缩略写名称词、正式的简称名称词,以及非正式的但与该目标对象对应且为公众所熟知的名称词(例如,目标对象的昵称或戏称等)。
在一些实施例中,上述获取目标对象的第一名称词具体实施时,可以包括以下内容:获取风险名单,将风险名单上的风险对象确定为目标对象,并将风险名单上已经记载的风险对象的名称词作为目标对象的第一名称词。其中,上述风险名单具体可以包含有一个或多个风险对象,且在风险名单中还会记录有风险对象的至少一个名称词。
具体的,上述风险名单具体可以包括交易风险名单。其中,交易风险名单进一步可以包括:涉及洗钱风险的风险名单、涉及欺诈风险的风险名单、涉及售假风险的风险名单等等。此外,上述风险名单还可以包括舆情风险的风险名单、信用风险的风险名单等等。具体实施时,根据具体情况和处理需要,上述风险名单还可以包括其他类型的风险名单。对此,本说明书不作限定。
在一些实施例中,上述所列举的获取目标对象的第一名称词的方式只是一种示意说明。具体的实时,根据具体的应用场景,还可以采用其他合适的方式来获取目标对象的第一名称词。例如,以命名实体检识别为例,可以获取待检测的命名实体作为目标对象,获取该待检测的命名实体的名称作为目标对象的第一名称词等。
在一些实施例中,上述获取第一语料数据,以及第二语料数据,具体实施时,可以包括以下内容:检索预设的网络数据源,将包含有目标对象第一名称词的网页数据,确定为所述第一语料数据,其中,所述预设的网络数据源包括多个基于不同语种语言的子数据源;根据所述第一语料数据的网页数据中携带有的超链接数据,确定出与所述第一语料数据关联的网页数据作为所述第二语料数据。
在一些实施例中,上述预设的网络数据源具体可以包括包含有大量文本数据,和/或使用多种不同语种语言来处理上述文本数据的网站。具体的,上述预设的网络数据源可以是国际性的信息(检索)网站。例如,可以是维基百科网、BD文库等包含有多个不同语言版本,对应多个基于不同语言的子数据源的网站。也可以是其他类似的会出现大量文本数据,和/或使用多种不同语种语言来处理上述文本数据的,非信息类的网站或APP。例如,还可以是新闻类网站,以及微博、YouTube、Facebook等社交类网站或APP等。
在一些实施例中,具体实施时,可以先通过检索预设的网络数据源找到包含有的目标对象的第一名称词的语料数据作为第一语料数据。进一步,可以通过获取并根据第一语料数据中的超链接数据找到与第一语料数据关联的第二语料数据。或者,可以通过检索并获取第一语料数据被引用的语料数据,和/或,第一语料数据所引用的语料数据作为关联的第二语料数据。或者,还可以获取并根据第一语料数据的评论数据、转载数据等,来确定并获取关联的第二语料数据等等。
在一些实施例中,在获取第一语料数据,以及第二语料数据后,所述方法具体实施时,还可以包括以下内容:对所述第一语料数据,以及所述第二语料数据进行数据过滤,以去除非文本数据类的数据,得到过滤后的第一语料数据,以及过滤后的第二语料数据。进一步,还可以将上述过滤后的第一语料数据、过滤后的第二语料数据保存成文本格式,便于后续处理。
通过上述的过滤处理可以找出并剔除原本第一语料数据和第二语料数据中所包含的非文本数据类的数据,例如网页数据中的图像数据等,得到较为纯净的,相对只包含文本数据的过滤后的第一语料数据,以及过滤后的第二语料数据。从而可以避免后续处理时,上述非文本数据类的数据对处理过程造成的干扰,减少了数据处理量,以有助提高后续处理的处理精度。
在一些实施例中,在获取第一语料数据,以及第二语料数据后,所述方法具体实施时,还可以包括以下内容:确定第一语料数据,以及第二语料数据所基于的语言类型,并判断第一语料数据,以及第二语料数据所基于的语言是否属于拉丁语系。如果确定所基于的语言属于拉丁语系,例如,英文、德文、意大利文等,则可以不用对上述第一语料数据,以及第二语料数据进行分词处理。确定所基于的语言不属于拉丁语系,例如,中文、泰文、日文等,则可以先对上述第一语料数据,以及第二语料数据进行分词处理,以方便后续的数据处理。
在一些实施例中,为了方便后续可以基于不同语料数据之间的关系特征来扩展挖掘同义名称词的覆盖度,以便更加全面地挖掘出目标对象的同义名称词,可以先确定出第一语料数据和第二语料数据之间的关联类型。
具体实施时,在获取第一语料数据,以及第二语料数据后,所述方法还可以包括以下内容:确定第一语料数据的网页数据中超链接数据的链接类型,其中,所述链接类型包括以下至少之一:不同语种语言之间的链接、分类与子类之间的链接、分类与解释页面之间的链接、重定向页面与解释页面之间的链接等;根据所述超链接数据的链接类型,确定出所述超链接数据所指向的第二语料数据与所述第一语料数据之间的关联类型。进一步,可以将上述第二语料数据与第一语料数据之间的关联类型,通过关联类型标签标记在第二语料数据上。便于后续处理时使用。
其中,上述超链接数据具体可以包括一种设置在网页数据上的用于指示与当前网页数据中的部分或全部内容相关的其他网页数据(例如,与第一语料数据关联的第二语料数据)的链接数据。具体的,一个超链接数据可以与一个第二语料数据对象。
当然,上述所列举的超链接数据的链接类型只是一种示意性说明。具体实施时,根据具体情况,还可以包含其他相应的链接类型,例如,还可以包括解释页面与解释页面之间的链接(Article to Article)等。
在一些实施例中,具体实施时,可以将超链接数据的链接类型确定为该超链接数据所对应的第二语料数据与第一语料数据之间的关联类型。
当然,具体实施时,根据具体应用场景,以及所使用的语料数据的具体类型,还可以采用其他合适方式来确定第一语料数据和第二语料数据的关联类型。例如,对于新闻报道类的语料数据,可以根据第一语料数据和第二语料数据的发布时间的先后、所涉及时间的因果关系,以及相互之间的引用关系来确定出第一语料数据和第二语料数据之间的关联类型等。
S502:根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据。
在一些实施例中,上述预设的处理规则具体可以包括一种基于自然语言理解,集合了语法词性识别、命名实体对象检测,以及句法依存关系分析等多种文本数据处理的处理规则的规则集。
相应的,根据上述预设的处理规则,进行的基于自然语言理解的多组预设处理可以包括多种不同的预设处理。具体的,可以包括:基于语法词性识别的第一预设处理、基于命名实体对象检测的第二预设处理,以及基于句法依存关系的分析的第三预设处理等多组不同预设处理。通过对第一语料数据和第二语料数据进行上述基于自然语言理解的多组预设处理所得到的处理后的第一语料数据和处理后的第二语料数据包含有相对更加丰富、多样的数据信息,便于后续可以基于上述处理后的第一语料数据和处理后的第二语料数据,采用多种同义名称词的挖掘方式来挖掘得到覆盖度相对更广的同义名称词。
在一些实施例中,上述根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据,具体实施时,可以包括以下内容:对所述第一语料数据和所述第二语料数据分别进行词性识别,并根据词性识别结果对所述第一语料数据和所述第二语料数据中的文本数据设置对应的词性标签,得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据;对所述第一预设处理处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测,并对检测结果为命名实体对象的文本数据设置命名实体对象标签,得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据;对所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据分别进行句法依存分析,并根据分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系,得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据,作为所述处理后的第一语料数据和处理后的第二语料数据。
在一些实施例中,具体实施时,可以根据预设的处理规则,对第一语料数据和第二语料数据中的文本数据进行词性识别,确定出第一语料数据和第二语料数据中的文本数据(例如,单词,或者分词处理后的词单位等)在所对应的语料数据中词性,得到对应的词性识别结果。根据词性识别结果,在第一语料数据和第二语料数据中针对识别出的文本数据分别设置对应的词性标签,得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据。
在一些实施例中,上述词性识别结果具体可以包括:名词(Noun,可以标记为NN)、动词(Verb,可以记为VB)、副词(Adverb,可以记为RB)、形容(Adjective,可以记为JJ)等。当然,上述所列举的词性识别结果只是一种示意性说明。具体实施时,根据具体情况,还可以包括有其他类型的词性识别结果,例如,还可以包括:介词(Preposision)、连词(Conjunction)等,以及其他相对比较特别的词性识别结果,例如,基数词(CardinalNumber,可以标记为CD)、外来词(Foreign Word,可以标记FW)等等。
当然,上述所列举的词性识别结果为相对较初级的识别结果,根据具体的情况和精度要求,还可以再对于上述类型的词性识别结果进行更加精细的划分,得到更加精细的词性识别结果。例如,对于介词,可以进一步划分包括:并列连词(Coordinatingconjunction,可以标记为CC)、从属连词(Preposision or subordinating conjunction,可以标记为IN)等。对于名词,可以进一步划分包括:单数名词(ProperNoun,singular,可以标记为NNP)、复数名词(ProperNoun,plural,可以标记为NNPS)等。对于动词,可以进一步划分包括:过去时动词(Verb,past tense,可以标记为VBD)、现在时动词或动名词(Verb,gerund or persent participle,可以记为VBG)等等。
在一些实施例中,具体实施时,可以根据预设的处理规则,对第一预设处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测,以从上述第一预设处理后的第一语料数据和第一预设处理后的第二语料数据中识别出用于指示例如自然人、企业公司等实体对象的文本数据,得到对应的检测结果。进而可以根据上述检测结果,在第一预设处理后的第一语料数据和第一预设处理后的第二语料数据中对被识别为命名实体对象的文本数据设置对应的命名实体对象标签,得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据。
在一些实施例中,具体实施时,可以根据预设的处理规则,对上述得到的第二预设处理后的第一语料数据和第二预设处理后的第二语料数据分别进行句法依存分析处理,确定出在第二预设处理后的第一语料数据和第二预设处理后的第二语料数据中的各个句子数据中不同文本数据之间是否存在句法依存关系,以及所存在的句法依存关系的类型,作为对应的分析结果。进而,可以根据上述分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系。得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据,作为所述处理后的第一语料数据和处理后的第二语料数据。
S503:根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数。
在一些实施例中,上述正则表达式具体可以理解为一种基于文本数据本身的特征按照相应的计算规则计算得到的数据。通常当两个文本数据的正则表达式的匹配度相对较高,例如,属于同一个正则模板时,可以认为这两个文本数据所表征的语义是同义的。
在一些实施例中,上述文本数据与目标对象的第一名称词之间的关系参数具体可以理解为一种用于表征文本数据与目标对象的第一名称词之间的语义近似程度的数据。通常当两个文本数据之间的关系参数的数值相对较大时,例如,大于某一个阈值时,可以认为这两个文本数据所表征的语义是同义的。
在一些实施例中,上述关系参数具体可以包括:文本数据和目标对象的第一名称词之间的相关度,和/或,文本数据和目标对象的第一名称词之间的同义关系参数。
其中,上述同义关系参数具体可以包括基于同一个语料数据所确定出的能够描述文本数据与目标对象的第一名称词之间的关系的参数数据。上述相关度具体可以包括基于不同语料数据(例如,基于第一语料数据和关联的第二语料数据)所确定出的能够描述文本数据与目标对象的第一名称词之间的关系的参数数据。
在一些实施例中,上述根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据与目标对象的第一名称词之间的相关度,具体实施时,可以包括以下内容:根据所述第二语料数据与所述第一语料数据之间的关联类型,确定所述第二语料数据中的文本数据与目标对象的第一名称词之间的相关度。
在一些实施例中,上述根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据与目标对象的第一名称词之间的同义关系参数,具体实施时,可以包括以下内容:将所述处理后的第一语料数据和所述处理后的第二语料数据,拆分成多个句子数据;利用预设的关系预测模型对所述多个句子数据进行预测,得到句子数据中的文本数据之间的关系预测结果;根据所述关系预测结果,确定出文本数据与目标对象的第一名称词之间的同义关系参数。
在一些实施例中,上述预设的关系预测模型具体可以包括预先对样本句子数据进行学习、训练,所建立得到的能够基于句法依存关系来预测文本数据之间的同义关系的处理模型。其中,上述预设的关系预测模型具体可以是基于SDP-LSTM、BRCNN、DepNN等模型结构所训练得到的。
在一些实施例中,上述预设的关系预测模型具体实施时,可以按照以下方式获取:获取样本句子数据,并对所述样本句子数据进行句法依存分析,得到分析结果;根据所述分析结果,建立针对所述样本句子数据的样本句法依存关系树;根据所述样本句法依存关系树,进行模型训练,以得到所述预设的关系预测模型。
S504:根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
在一些实施例中,具体实施时,可以利用上述文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种基于不同维度的参数数据,采用至少两种不同的同义词挖掘方式,来有效地扩大挖掘的范围,准确、全面地挖掘出目标对象的同义名称词。
在一些实施例中,上述根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词,具体实施时,可以包括以下内容:根据所述文本数据的正则表达式,从所述第一语料数据和所述第二语料数据中确定出正则表达式与目标对象的正则模板匹配的文本数据作为第一类同义名称词;根据所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出属于同义关系的文本数据作为第二类同义名称词;将所述第一类同义名称词和所述第二类同义名称词,确定为所述目标对象的同义名称词。
在一些实施例中,具体实施时,可以通过利用文本数据的正则表达式,采用基于pattern的挖掘方式,基于文本数据的本身特征,来从所述第一语料数据和所述第二语料数据中较为精准地找出一批目标对象的同义名称词,作为第一类同义名称词。
其中,上述pattern可以理解为一种正则模板。具体实施时,以根据目标对象的具体情况,针对目标对象定义一个或多个对应的正则模板,记为目标对象的正则模板。例如,对于目标对象为自然人,可以根据目标对象的情况,定义以下三种不同类型的正则模板“.*also rendered.*”、“.*also named as.*”、“.*Language:.*”。对于目标对象为企业,可以根据目标对象的情况,定义以下两种不同类型的正则模板“.*Companies based in.*”、“.*companies of.*”。当然,上述所列举的自定义的正则模板只是一种示意性说明。具体实施时,根据具体情况还可以定义其他合适的正则模板。
在一些实施例中,具体实施时,可以通过相应的挖掘算法,根据文本数据的正则表达式,基于文本数据的本身特征,从第一语料数据和第二语料数据中确定出正则表达与所述目标对象的正则模板匹配的文本数据作为与目标对象的第一名称词属于同义关系的文本数据,并将该文本数据确定为第一类同义名称词。通过这种方式可以找到精度相对较高的同义名称词。
在一些实施例中,具体实施时,还可以根据第一语料数据和第二语料数据中的文本数据与目标对象的第一名称词之间的关系参数,基于语料数据中文本数据之间的关系特征,来有效地扩展挖掘范围,找到另一批覆盖度更好、更加多样的目标对象的同义名称词,作为第二类同义名称词。
在一些实施例中,具体实施时,可以根据相关度,采用与相关度对应的基于超链接数据的路径语义相关度的挖掘方式,从第一语料数据和第二语料数据中筛选相关度较高,例如,高于预设的相关度阈值的文本数据作为与目标对象的第一名称词属于同义关系的文本数据,并将该文本数据确定为第二类同义名称词。其中,上述预设的相关度阈值的具体数值可以根据精度要求灵活设置。
在一些实施例中,具体实施时,可以根据同义关系参数,采用与同义关系参数对应的基于句法依存树同义关系的挖掘方式,从处理后的第一语料数据和第二语料数据中筛选出与目标对象的第一名称词属于同义关系的文本数据,作为第二类同义名称词。
在一些实施例中,具体实施时,可以通过确定并利用正则表达式和关联度,采用对应的两种不同的挖掘方式来进行同义名称词的挖掘;也可以通过确定并利用正则表达式和同义关系参数,采用对应的两种不同的挖掘方式来进行同义名称词的挖掘;还可以通过确定并利用正则表达式、关联度和同义关系参数,采用对应的三种不同的挖掘方式来进行同义名称词的挖掘,从而可以有效地扩大挖掘范围,得到第一类同义名称词和第二类同义名称词。
在一些实施例中,具体实施时,可以将上述挖掘得到的第一类同义名称和第二类同义名称词组合作为针对目标对象的同义名称词。从而可以得到覆盖范围较高,相对较全面、准确的目标对象的同义名称词。
在一些实施例中,具体实施时,还可以对组合后的同义名称词进行校正检测,以剔除由于误差被错误识别成与目标对象对应的同义名称词,从而提高所确定出的目标对象的同义名称词的准确率。
在本实施例中,通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并综合利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,确定出目标对象的同义名称词,处理过程可以不需要依赖人工标注,从而能够以较低的处理成本,较为高效地从大量语料数据中挖掘出目标对象的同义名称词,并且能够有效避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。
在一些实施例中,所述目标对象具体可以包括目标风险对象,相应的,所述获取目标对象的第一名称词,包括:检索风险名单,将所述风险名单中记录的用于指示所述目标风险对象的名称词,确定为所述目标对象的第一名称词,其中,所述风险名单包括多个风险对象。
在一些实施例中,所述方法具体实施时,还可以包括以下内容:确定出所述风险名单中所包含的多个风险对象中的各个风险对象的同义名称词;根据所述多个风险对象中的各个风险对象的同义名称词,建立针对所述风险名单的风险对象同义名称词的知识库。其中,上述风险名单具体可以包括不同类型的风险名单。例如,可以是交易风险的风险名单,也可以是舆情风险的风险名单,还可以是信用风险的风险名单等等。
在一些实施例中,在根据所述多个风险对象中的各个风险对象的同义名称词,建立针对所述风险名单的风险对象同义名称词的知识库后,所述方法具体实施时,还可以包括以下内容:根据所述风险名单,和针对所述风险名单的风险对象同义名称词的知识库,检测待检测的数据对象是否为风险对象。其中,所述待检测的数据对象具体可以是待检测是否存在风险的自然人,也可以是待检测是否存在风险的企业。
在一些实施例中,上述根据所述风险名单,和针对所述风险名单的风险对象同义名称词的知识库,检测待检测的数据对象是否为风险对象,具体实施时,可以包括以下内容:先获取待检测的数据对象的名称,并检索风险名单,确定该数据对象的名称是否与风险名单上记载的风险对象的名称匹配。如果确定该数据对象的名称与风险名单上记载的某个风险对象的名称匹配,可以确定出该数据对象为风险对象。如果确定该数据对象的名称与风险名单上记载的风险对象的名称都不匹配时,可以检索风险对象同义名称词的知识库,确定该数据对象的名称是否与风险对象同义名称词的知识库中的某个名称词匹配。如果检测到数据对象的名称与风险对象同义名称词的知识库中的某个名称词匹配,则可以确定出该数据对象为风险对象。如果检测到数据对象的名称与风险对象同义名称词的知识库中的任何一个名称词都不匹配,则可以确定该数据对象不是风险对象。
在一些实施例中,在确定出待检测的数据对象为风险对象后,可以根据线条感应的风险处理规则对风险对象进行处理。例如,可以生成针对该数据对象的风险提示警告;或者,可以为该数据对象设置风险对象标签;或者,可以暂停为该数据对象提供金融服务;还或者,可以对该数据对象在平台上的行为数据进行监控等等。
在一些实施例中,还可以将上述同义名称词的确定方法,以及基于上述方法所建立的风险对象同义名称词的知识库应用到反洗钱制裁的场景中,例如,可以具体应用于某金融服务机构的反洗钱制裁扫描名单筛查引擎(WISE)中。此外,也可以应用到舆情监控、文本内容扫描,以及命名实体识别等多种不同的应用场景中。对此,本说明书不作限定。
在一些实施例中,所述第一语料数据具体还可以包括包含有目标对象的第一名称词的新闻报道。相应的,所述第二语料数据具体还可以包括引用所述第一语料数据的新闻报道,和/或,被所述第一语料数据所引用的新闻报道。此外,上述第一语料数据和第二语料数据还可以是文章、微博等其他形式的文本数据。
由上可见,本说明书实施例提供的同义名称词的确定方法,通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并综合利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,确定出目标对象的同义名称词,从而能够有效避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。还通过确定并根据风险名单中的各个风险对象的多个同义名称词,来建立得到覆盖度较高的、效果较好的风险对象的同义名称词的知识库,进而可以根据风险名单和上述风险对象的同义名称词的知识库较为精准地检测识别出风险对象,提高了风险对象检测的精度。
参阅图6所示,本说明书实施例还提供了一种同义名称词的知识库的建立方法。其中,该方法具体实施时,可以包括以下内容。
S601:获取多个数据对象中各个数据对象的第一名称词,以及第一语料数据和第二语料数据,其中,所述第一语料数据为包含有数据对象的第一名称词的数据,所述第二语料数据为与第一语料数据关联的数据。
S602:根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据。
S603:根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与各个数据对象的第一名称词之间的关系参数。
S604:根据所述文本数据的正则表达式,以及所述文本数据与各个数据对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据挖掘出各个数据对象的同义名称词。
S605:根据所述各个数据对象的同义名称词,建立同义名称词的知识库。
在一些实施例中,上述数据对象具体可以是风险名单上的风险对象,上述数据对象的第一名称词具体可以是风险名单上记载的数据对象的名称。此外,上述数据对象的第一名称词还可以包括风险名单上没有记载,但已知的用于指示该数据对象的名称。
在一些实施例中,上述风险名单可以包括多种不同类型的风险名单。具体的,上述风险名单可以包括交易风险的风险名单、舆情风险的风险名单、信用风险的风险名单等等。
在一些实施例中,所述同义名称词的知识库具体可以包括:交易风险对象的同义名称词知识库、舆情关注对象的同义名称词知识库、失信对象的同义名称词知识库等等。
在一些实施例中,在建立同义名称词的知识库后,所述方法具体实施时,还可以包括以下内容:根据所述同义名称词的知识库,检测待检测的数据对象。
由上可见,本说明书实施例提供的同义名称词的知识库的建立方法,通过确定并根据风险名单中的各个风险对象的多个同义名称词,来建立得到覆盖度较高的、效果较好的风险对象的同义名称词的知识库,进而可以根据风险名单和上述风险对象的同义名称词的知识库较为精准地检测识别出风险对象,提高了风险对象检测的精度。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
为了能够更加准确地完成上述指令,参阅图7所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口701、处理器702以及存储器703,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口701,具体可以用于获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据。
所述处理器702,具体可以用于根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
所述存储器703,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口701可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器702可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器703可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述同义名称词的确定方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图8所示,在软件层面上,本说明书实施例还提供了一种同义名称词的确定装置,该装置具体可以包括以下的结构模块。
获取模块801,具体可以用于获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据。
预处理模块802,具体可以用于根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据。
第一确定模块803,具体可以用于根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数。
第二确定模块804,具体可以用于根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
在一些实施例中,上述获取模块801具体实施时,可以用于检索预设的网络数据源,将包含有目标对象第一名称词的网页数据,确定为所述第一语料数据,其中,所述预设的网络数据源包括多个基于不同语种语言的子数据源;根据所述第一语料数据的网页数据中携带有的超链接数据,确定出与所述第一语料数据关联的网页数据作为所述第二语料数据。
在一些实施例中,所述装置还可以包括过滤模块,具体实施时,可以在装置获取第一语料数据,以及第二语料数据后,对所述第一语料数据,以及所述第二语料数据进行数据过滤,以去除非文本数据类的数据,得到过滤后的第一语料数据,以及过滤后的第二语料数据。
在一些实施例中,所述预处理模块802具体实施时,可以在获取第一语料数据,以及第二语料数据后,用于确定第一语料数据的网页数据中超链接数据的链接类型,其中,所述链接类型包括以下至少之一:不同语种语言之间的链接、分类与子类之间的链接、分类与解释页面之间的链接、重定向页面与解释页面之间的链接;根据所述超链接数据的链接类型,确定出所述超链接数据所指向的第二语料数据与所述第一语料数据之间的关联类型。
在一些实施例中,所述预处理模块802具体可以包括以下单元结构:
第一预处理单元,具体可以用于对所述第一语料数据和所述第二语料数据分别进行词性识别,并根据词性识别结果对所述第一语料数据和所述第二语料数据中的文本数据设置对应的词性标签,得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据;
第二预处理单元,具体可以用于对所述第一预设处理处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测,并对检测结果为命名实体对象的文本数据设置命名实体对象标签,得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据;
第三预处理单元,具体可以用于对所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据分别进行句法依存分析,并根据分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系,得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据,作为所述处理后的第一语料数据和处理后的第二语料数据。
在一些实施例中,所述关系参数具体可以包括相关度,和/或,同义关系参数等。
在一些实施例中,所述第一确定模块803具体实施时,可以用于根据所述第二语料数据与所述第一语料数据之间的关联类型,确定所述第二语料数据中的文本数据与目标对象的第一名称词之间的相关度。
在一些实施例中,所述第一确定模块803具体实施时,还可以用于将所述处理后的第一语料数据和所述处理后的第二语料数据,拆分成多个句子数据;利用预设的关系预测模型对所述多个句子数据进行预测,得到句子数据中的文本数据之间的关系预测结果;根据所述关系预测结果,确定出文本数据与目标对象的第一名称词之间的同义关系参数。
在一些实施例中,所述装置具体还可以包括模型建立模块,具体实施前,可以用于获取样本句子数据,并对所述样本句子数据进行句法依存分析,得到分析结果;根据所述分析结果,建立针对所述样本句子数据的样本句法依存关系树;根据所述样本句法依存关系树,进行模型训练,以得到所述预设的关系预测模型。
在一些实施例中,所述第二确定模块804具体实施时,可以包括以下结构单元:
第一确定单元,具体可以用于根据所述文本数据的正则表达式,从所述第一语料数据和所述第二语料数据中确定出正则表达式与目标对象的正则模板匹配的文本数据作为第一类同义名称词;
第二确定单元,具体可以用于根据所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出属于同义关系的文本数据作为第二类同义名称词;
第三确定单元,具体可以用于将所述第一类同义名称词和所述第二类同义名称词,确定为所述目标对象的同义名称词。
在一些实施例中,所述目标对象具体可以包括目标风险对象,相应的,所述获取模块801具体实施时,可以用于检索风险名单,将所述风险名单中记录的用于指示所述目标风险对象的名称词,确定为所述目标对象的第一名称词,其中,所述风险名单包括多个风险对象。
在一些实施例中,所述装置还可以包括知识库建立模块,具体实施时,可以用于确定出所述风险名单中所包含的多个风险对象中的各个风险对象的同义名称词;根据所述多个风险对象中的各个风险对象的同义名称词,建立针对所述风险名单的风险对象同义名称词的知识库。
在一些实施例中,所述装置还包括检测模块,具体实施时,可以用于根据所述风险名单,和针对所述风险名单的风险对象同义名称词的知识库,检测待检测的数据对象是否为风险对象。
在一些实施例中,所述第一语料数据具体可以包括包含有目标对象的第一名称词的新闻报道;相应的,所述第二语料数据具体可以包括引用所述第一语料数据的新闻报道,和/或,被所述第一语料数据所引用的新闻报道。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的同义名称词的确定装置,通过获取模块先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过预处理模块根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以通过第一确定模块和第二确定模块利用上述处理后的语料数据,通过确定并综合利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,确定出目标对象的同义名称词。从而能够有效地避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (20)
1.一种同义名称词的确定方法,包括:
获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;
根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;
根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;
根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
2.根据权利要求1所述的方法,获取第一语料数据,以及第二语料数据,包括:
检索预设的网络数据源,将包含有目标对象第一名称词的网页数据,确定为所述第一语料数据,其中,所述预设的网络数据源包括多个基于不同语种语言的子数据源;
根据所述第一语料数据的网页数据中携带有的超链接数据,确定出与所述第一语料数据关联的网页数据作为所述第二语料数据。
3.根据权利要求2所述的方法,在获取第一语料数据,以及第二语料数据后,所述方法还包括:
对所述第一语料数据,以及所述第二语料数据进行数据过滤,以去除非文本数据类的数据,得到过滤后的第一语料数据,以及过滤后的第二语料数据。
4.根据权利要求2所述的方法,在获取第一语料数据,以及第二语料数据后,所述方法还包括:
确定第一语料数据的网页数据中超链接数据的链接类型,其中,所述链接类型包括以下至少之一:不同语种语言之间的链接、分类与子类之间的链接、分类与解释页面之间的链接、重定向页面与解释页面之间的链接;
根据所述超链接数据的链接类型,确定出所述超链接数据所指向的第二语料数据与所述第一语料数据之间的关联类型。
5.根据权利要求4所述的方法,所述根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据,包括:
对所述第一语料数据和所述第二语料数据分别进行词性识别,并根据词性识别结果对所述第一语料数据和所述第二语料数据中的文本数据设置对应的词性标签,得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据;
对所述第一预设处理处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测,并对检测结果为命名实体对象的文本数据设置命名实体对象标签,得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据;
对所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据分别进行句法依存分析,并根据分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系,得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据,作为所述处理后的第一语料数据和处理后的第二语料数据。
6.根据权利要求5所述的方法,所述关系参数包括相关度,和/或,同义关系参数。
7.根据权利要求6所述的方法,根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据与目标对象的第一名称词之间的相关度,包括:
根据所述第二语料数据与所述第一语料数据之间的关联类型,确定所述第二语料数据中的文本数据与目标对象的第一名称词之间的相关度。
8.根据权利要求6所述的方法,根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据与目标对象的第一名称词之间的同义关系参数,包括:
将所述处理后的第一语料数据和所述处理后的第二语料数据,拆分成多个句子数据;
利用预设的关系预测模型对所述多个句子数据进行预测,得到句子数据中的文本数据之间的关系预测结果;
根据所述关系预测结果,确定出文本数据与目标对象的第一名称词之间的同义关系参数。
9.根据权利要求8所述的方法,所述预设的关系预测模型按照以下方式获取:
获取样本句子数据,并对所述样本句子数据进行句法依存分析,得到分析结果;
根据所述分析结果,建立针对所述样本句子数据的样本句法依存关系树;
根据所述样本句法依存关系树,进行模型训练,以得到所述预设的关系预测模型。
10.根据权利要求1所述的方法,所述根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词,包括:
根据所述文本数据的正则表达式,从所述第一语料数据和所述第二语料数据中确定出正则表达式与目标对象的正则模板匹配的文本数据作为第一类同义名称词;
根据所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出属于同义关系的文本数据作为第二类同义名称词;
将所述第一类同义名称词和所述第二类同义名称词,确定为所述目标对象的同义名称词。
11.根据权利要求1所述的方法,所述目标对象包括目标风险对象,
相应的,所述获取目标对象的第一名称词,包括:
检索风险名单,将所述风险名单中记录的用于指示所述目标风险对象的名称词,确定为所述目标对象的第一名称词,其中,所述风险名单包括多个风险对象。
12.根据权利要求11所述的方法,所述方法还包括:
确定出所述风险名单中所包含的多个风险对象中的各个风险对象的同义名称词;
根据所述多个风险对象中的各个风险对象的同义名称词,建立针对所述风险名单的风险对象同义名称词的知识库。
13.根据权利要求12所述的方法,在根据所述多个风险对象中的各个风险对象的同义名称词,建立针对所述风险名单的风险对象同义名称词的知识库后,所述方法还包括:
根据所述风险名单,和针对所述风险名单的风险对象同义名称词的知识库,确定待检测的数据对象是否为风险对象。
14.根据权利要求1所述的方法,所述第一语料数据还包括包含有目标对象的第一名称词的新闻报道;相应的,所述第二语料数据还包括引用所述第一语料数据的新闻报道,和/或,被所述第一语料数据所引用的新闻报道。
15.一种同义名称词的知识库的建立方法,包括:
获取多个数据对象中各个数据对象的第一名称词,以及第一语料数据和第二语料数据,其中,所述第一语料数据为包含有数据对象的第一名称词的数据,所述第二语料数据为与第一语料数据关联的数据;
根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;
根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与各个数据对象的第一名称词之间的关系参数;
根据所述文本数据的正则表达式,以及所述文本数据与各个数据对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据挖掘出各个数据对象的同义名称词;
根据所述各个数据对象的同义名称词,建立同义名称词的知识库。
16.根据权利要求15所述的方法,所述同义名称词的知识库包括:交易风险对象的同义名称词知识库、舆情关注对象的同义名称词知识库、失信对象的同义名称词知识库。
17.根据权利要求15所述的方法,在建立同义名称词的知识库后,所述方法还包括:
根据所述同义名称词的知识库,检测待检测的数据对象。
18.一种同义名称词的确定装置,包括:
获取模块,用于获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;
预处理模块,用于根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;
第一确定模块,用于根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;
第二确定模块,用于根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。
19.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至14中任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至14中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010361585.5A CN111581950B (zh) | 2020-04-30 | 2020-04-30 | 同义名称词的确定方法和同义名称词的知识库的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010361585.5A CN111581950B (zh) | 2020-04-30 | 2020-04-30 | 同义名称词的确定方法和同义名称词的知识库的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581950A true CN111581950A (zh) | 2020-08-25 |
CN111581950B CN111581950B (zh) | 2024-01-02 |
Family
ID=72114254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010361585.5A Active CN111581950B (zh) | 2020-04-30 | 2020-04-30 | 同义名称词的确定方法和同义名称词的知识库的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581950B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226766A1 (zh) * | 2022-05-26 | 2023-11-30 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098033A (en) * | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
EP1288794A1 (en) * | 2001-08-29 | 2003-03-05 | Tarchon BV | Methods of ordering and of retrieving information from a corpus of documents and database system for the same |
JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
WO2010107327A1 (en) * | 2009-03-20 | 2010-09-23 | Syl Research Limited | Natural language processing method and system |
KR20110059267A (ko) * | 2009-11-27 | 2011-06-02 | 한국과학기술정보연구원 | 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법 |
JP2013114633A (ja) * | 2011-11-30 | 2013-06-10 | Toshiba Corp | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム |
CN103235784A (zh) * | 2013-03-28 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 一种用于获取搜索结果的方法与设备 |
WO2014041549A2 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
CN104239286A (zh) * | 2013-06-24 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 同义短语的挖掘方法和装置及搜索相关内容的方法和装置 |
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN107301213A (zh) * | 2017-06-09 | 2017-10-27 | 腾讯科技(深圳)有限公司 | 智能问答方法及装置 |
CN107784125A (zh) * | 2017-11-24 | 2018-03-09 | 中国银行股份有限公司 | 一种实体关系抽取方法及装置 |
WO2018077655A1 (en) * | 2016-10-24 | 2018-05-03 | Koninklijke Philips N.V. | Multi domain real-time question answering system |
US20190005049A1 (en) * | 2014-03-17 | 2019-01-03 | NLPCore LLC | Corpus search systems and methods |
CN110348010A (zh) * | 2019-06-21 | 2019-10-18 | 北京小米智能科技有限公司 | 同义短语获取方法及装置 |
CN110442760A (zh) * | 2019-07-24 | 2019-11-12 | 银江股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
CN110458412A (zh) * | 2019-07-16 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 风险监控数据的生成方法和装置 |
US20190354544A1 (en) * | 2011-02-22 | 2019-11-21 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索系统 |
CN110889275A (zh) * | 2018-09-07 | 2020-03-17 | 鼎复数据科技(北京)有限公司 | 一种基于深度语义理解的信息抽取方法 |
CN110990540A (zh) * | 2019-12-26 | 2020-04-10 | 厦门快商通科技股份有限公司 | 一种基于正则表达式的同义词抽取方法及装置 |
-
2020
- 2020-04-30 CN CN202010361585.5A patent/CN111581950B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098033A (en) * | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
EP1288794A1 (en) * | 2001-08-29 | 2003-03-05 | Tarchon BV | Methods of ordering and of retrieving information from a corpus of documents and database system for the same |
JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
WO2010107327A1 (en) * | 2009-03-20 | 2010-09-23 | Syl Research Limited | Natural language processing method and system |
KR20110059267A (ko) * | 2009-11-27 | 2011-06-02 | 한국과학기술정보연구원 | 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법 |
US20190354544A1 (en) * | 2011-02-22 | 2019-11-21 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
JP2013114633A (ja) * | 2011-11-30 | 2013-06-10 | Toshiba Corp | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム |
WO2014041549A2 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
CN103235784A (zh) * | 2013-03-28 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 一种用于获取搜索结果的方法与设备 |
CN104239286A (zh) * | 2013-06-24 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 同义短语的挖掘方法和装置及搜索相关内容的方法和装置 |
US20190005049A1 (en) * | 2014-03-17 | 2019-01-03 | NLPCore LLC | Corpus search systems and methods |
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
WO2018077655A1 (en) * | 2016-10-24 | 2018-05-03 | Koninklijke Philips N.V. | Multi domain real-time question answering system |
CN107301213A (zh) * | 2017-06-09 | 2017-10-27 | 腾讯科技(深圳)有限公司 | 智能问答方法及装置 |
CN107784125A (zh) * | 2017-11-24 | 2018-03-09 | 中国银行股份有限公司 | 一种实体关系抽取方法及装置 |
CN110889275A (zh) * | 2018-09-07 | 2020-03-17 | 鼎复数据科技(北京)有限公司 | 一种基于深度语义理解的信息抽取方法 |
CN110348010A (zh) * | 2019-06-21 | 2019-10-18 | 北京小米智能科技有限公司 | 同义短语获取方法及装置 |
CN110458412A (zh) * | 2019-07-16 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 风险监控数据的生成方法和装置 |
CN110442760A (zh) * | 2019-07-24 | 2019-11-12 | 银江股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索系统 |
CN110990540A (zh) * | 2019-12-26 | 2020-04-10 | 厦门快商通科技股份有限公司 | 一种基于正则表达式的同义词抽取方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226766A1 (zh) * | 2022-05-26 | 2023-11-30 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111581950B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN102054015B (zh) | 使用有机物件数据模型来组织社群智能信息的系统及方法 | |
CN102054016B (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
van den Burg et al. | Wrangling messy CSV files by detecting row and type patterns | |
US20090138466A1 (en) | System and Method for Search | |
US10210211B2 (en) | Code searching and ranking | |
US8359304B1 (en) | Collaborative modeling environment | |
US20160292153A1 (en) | Identification of examples in documents | |
US20140180934A1 (en) | Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters | |
US10970466B2 (en) | Inserting links that aid action completion | |
CN101118560A (zh) | 关键词输出设备和关键词输出方法 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
US11263062B2 (en) | API mashup exploration and recommendation | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
US20070061322A1 (en) | Apparatus, method, and program product for searching expressions | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
US20230205796A1 (en) | Method and system for document retrieval and exploration augmented by knowledge graphs | |
US20040034635A1 (en) | Method and system for identifying and matching companies to business event information | |
CN117473512A (zh) | 基于网络测绘的漏洞风险评估方法 | |
Hosseini et al. | Unifying privacy policy detection | |
US20170154029A1 (en) | System, method, and apparatus to normalize grammar of textual data | |
Huo et al. | ARCLIN: automated API mention resolution for unformatted texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |