CN116976313A - 场外交易指令文本的解析方法、装置和计算机可读介质 - Google Patents
场外交易指令文本的解析方法、装置和计算机可读介质 Download PDFInfo
- Publication number
- CN116976313A CN116976313A CN202311202329.1A CN202311202329A CN116976313A CN 116976313 A CN116976313 A CN 116976313A CN 202311202329 A CN202311202329 A CN 202311202329A CN 116976313 A CN116976313 A CN 116976313A
- Authority
- CN
- China
- Prior art keywords
- instruction
- text
- instruction text
- target
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims description 29
- 238000012937 correction Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 21
- 230000004044 response Effects 0.000 abstract description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 239000000047 product Substances 0.000 description 30
- 239000010410 layer Substances 0.000 description 19
- 230000011218 segmentation Effects 0.000 description 15
- 238000003860 storage Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000002346 layers by function Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 235000019013 Viburnum opulus Nutrition 0.000 description 1
- 244000071378 Viburnum opulus Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种场外交易指令文本的解析方法、装置和计算机可读介质,其中方法包括:获取输入的场外交易指令的指令文本;对所述指令文本进行分类;利用与所述指令文本所属目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理;基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。本申请通过对场外交易指令文本的分类与关键要素抽取,实现了自动化、智能化的指令文本解析,降低了人工参与程度,并能够提升对场外交易指令文本的解析准确度和效率,通过将本申请在业务中的运用,可以大大提高业务响应速度和准确性,减少信息遗漏,并达到场外衍生品交易过程中降本增效的目标。
Description
技术领域
本申请属于信息化应用与自然语言处理技术领域,尤其涉及一种场外交易指令文本的解析方法、装置和计算机可读介质。
背景技术
在在证券场外衍生品的日常市场交易中,业务人员与外部客户一般通过即时通讯软件(如:企业微信)进行询价交流。
客户在不同场景下会根据自身特定需求,在交流群中发送不同类型的指令文本。目前,在常规的业务流程中,处理客户指令的业务人员需要先从聊天信息中筛选出携带指令的相关文本信息,进行信息理解与抽取,然后在网厅等界面提交对应的指令信息,并将响应结果回复在群里供客户查看,整个过程需要高度的人工参与。
随着业务的发展和客户数量的增加,业务人员需要处理的指令信息越来越多,存在处理不及时、处理遗漏、效率低等问题;此外,不同的客户输入的交易指令文本形式千差万别,没有统一规范,这也为文本指令的准确快速处理带来了难度,影响业务响应速度和准确性。
已知技术中,对于场外交易指令文本的解析处理过程,还可以通过规范化模板或基于知识库的问答机器人等传统文本分析技术来实现,虽然在一定程度上可以提高指令解析的效率,但是需要人工配合的程度较高,智能化水平仍有待改进。
其中,规范化模板的方法需要由业务人员为每种指令设置标准的模板,由客户根据模板进行指令内容的填写。申请人发现,基于规范化模板的指令解析方法,需要业务人员维护并更新不同的指令模板,同时需要客户高度的配合。虽然在一定程度上可以提高指令解析的效率(客户输入的指令信息已经遵循模板结构,从而指令解析是一个结构化数据处理过程),但仍然存在以下局限:
11)维护成本高:随着业务发展和指令类型的增加,维护和更新模板的工作量会不断增加。此外,修改现有模板可能导致对历史数据的影响,增加了维护难度。
12)灵活性较低:模板方法对指令表达的多样性适应能力有限,对于不按模板规范输入的指令,解析能力和效果会受到影响。
13)依赖客户配合:客户需要严格按照模板填写指令,对于不熟悉模板规范的客户来说可能不太友好,易导致误操作和误解。
14)查询效率低:客户单次只能针对特定的模板提交单个指令,无法针对同类型不同参数的问询指令进行批量提交,降低了沟通效率。
15)无法应对复杂和多样化的自然语言表达:当指令内容涉及多种业务场景、新词汇或复杂语义时,基于规范化模板的方法难以准确解析。
基于知识库的问答机器人在指令解析方面,依赖于知识库的完整性和准确性,在启动阶段需要业务人员花费大量的精力构建知识库,在运行阶段需要定期维护和更新,同时对于复杂和多样化的自然语言表达的适应能力存在局限。该方法具体存在以下的不足和问题:
21)维护成本高:随着指令类型和业务规则的增加,知识库的维护工作量会不断增加,而且更新和优化知识库的过程易对系统造成影响。
22)解析准确度受限:对于一些非结构化、多样化或含有复杂语义的指令文本,基于知识库的问答机器人难以准确解析。
23)查询效率低:对于多指令查询的支持能力不足,对于客户的单次问询,只能一一处理并返回其中一个指令的回答,无法支持多指令的回复。
24)对新词汇和新表达的适应能力有限:当指令中出现新词汇或新表达时,知识库需要进行及时更新以保持解析准确性,否则会影响解析效果。
25)易存在匹配错误:由于知识库内容过多或匹配策略失误,易出现匹配错误,导致解析结果不准确。
发明内容
有鉴于此,本申请提供一种场外交易指令文本的解析方法、装置和计算机可读介质,用于通过对场外交易指令文本的分类与关键要素抽取,实现自动化、智能化的指令文本解析,以解决现有技术存在的至少部分技术问题。
具体方案如下:
一种场外交易指令文本的解析方法,包括:
获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;
对所述指令文本进行分类,得到所述指令文本所属的目标类别;
利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;
基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
可选的,所述获取输入的场外交易指令的指令文本,包括如下至少一种:
基于网页在线输入方式,获取在对应的网页页面输入的场外交易指令的指令文本;
基于API数据接入方式,获取从预设通讯应用中导出并导入至预设API接口的场外交易指令的指令文本;
基于文档输入方式,获取导入至预设的文档批处理接口的场外交易指令的指令文本。
可选的,所述对所述指令文本进行分类,得到所述指令文本所属的目标类别,包括:
利用预设分类模型根据所述指令文本包含的语义特征,识别所述指令文本所包含指令对应的目标业务类别;
识别所述目标业务类别所属的目标简易程度类别;所述目标类别包括所述目标业务类别和所述目标简易程度类别。
可选的,简易程度类别包括简单指令类别、未带产品类型的复杂指令类别和带产品类型的复杂指令类别;各个简易程度类别分别包含至少一个业务类别;
所述简单指令类别下的业务类别包括出金查询、入金查询、出金、入金、暂停、查询;所述未带产品类型的复杂指令类别下的业务类别包括询券、借券、恢复、下单;所述带产品类型的复杂指令类别下的业务类别包括询价。
可选的,所述利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,包括:
根据所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式,对所述指令文本进行要素提取处理;
其中,所述目标要素提取规则包括所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式;每一种业务类别的指令分别配置有对应的指令要素模板和数据格式。
可选的,所述基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本,包括:
基于所述指令文本包含的各个指令要素,生成所述指令文本对应的初始结构化文本;
对所述初始结构化文本进行纠错校正和规范化处理,得到所述指令文本对应的预设数据格式的结构化文本。
可选的,所述方法还包括:
通过可视化界面进行指令要素模板和/或数据格式的更新,并根据更新后的指令要素模板和/或数据格式,对历史指令文本进行扫描解析,以更新所述历史指令文本的解析结果。
可选的,所述方法还包括:
若所述预设分类模型对所述指令文本的业务类别识别失败,则使用相似句理解模型对所述指令文本进行分类。
可选的,所述方法还包括:
对所述预设分类模型的类别识别结果进行正误确认及确认出识别错误情况下的指令文本类别纠正处理,在确认结果表征所述预设分类模型的识别准确率低于预设阈值时,基于对指令文本类别的纠正处理结果对所述预设分类模型进行迭代更新。
可选的,所述方法还包括:
根据预先建立的原始指令文本与要素文本之间的映射关系进行要素提取,以避免要素间的语义冲突。
可选的,所述方法在利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理之前,还包括:
根据所述指令文本所属的目标类别,对所述指令文本进行分流处理,以将所述指令文本分流到对应的要素提取模块进行要素提取;
其中,不同类别的指令文本采用不同的素提取模块进行要素提取。
一种场外交易指令文本的解析装置,包括:
获取单元,用于获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;
分类单元,用于对所述指令文本进行分类,得到所述指令文本所属的目标类别;
要素提取单元,用于利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;
生成单元,用于基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
一种计算机可读介质,其上存储有计算机程序,所述计算机程序包含用于执行如上文任一项所述的场外交易指令文本的解析方法的程序代码。
综上所述,本申请提供了一种场外交易指令文本的解析方法、装置和计算机可读介质,其中方法包括:获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;对所述指令文本进行分类,得到所述指令文本所属的目标类别;利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
本申请通过对场外交易指令文本的分类与关键要素抽取,实现了自动化、智能化的指令文本解析,降低了人工参与程度,并能够提升对场外交易指令文本的解析准确度和效率,通过将本申请在业务中的运用,可以大大提高业务响应速度和准确性,减少信息遗漏,实现客户指令的快速高效的自动化分类和要素抽取,进而达到场外衍生品交易过程中降本增效的目标。
附图说明
结合附图并参考以下具体实施方式,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1是本申请提供的场外交易指令文本的解析方法的流程示意图;
图2是本申请提供的一应用示例中的指令文本解析架构及其对应的指令文本解析流程示意图;
图3是本申请提供的以指令列表方式展示的多个指令文本的输入示例示意图;
图4是本申请提供的场外交易指令文本的解析装置的组成结构图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为解决已知技术存在的至少部分技术问题,本申请公开一种场外交易指令文本的解析方法、装置和计算机可读介质,用于通过对场外交易指令文本的分类与关键要素抽取,实现自动化、智能化的场外交易指令文本解析,降低人工参与程度,减少信息遗漏,并提升对场外交易指令文本的解析准确度和效率。
参见图1,示出了本申请所公开场外交易指令文本的解析方法的一种流程示意图,该场外交易指令文本的解析方法至少包括:
步骤101、获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据。
可选的,可在相应处理系统或平台提供指令输入、指令分类、要素抽取、智能纠错四大功能模块,来实现本申请实施例的方法流程。
其中,指令输入模块可以但不限于支持网页在线输入、API数据接入和文档输入等多种数据输入方式,相应可根据需求,通过上述输入方式中的某一种或多种方式向处理系统或平台输入场外交易指令的指令文本,对于处理系统或平台来说,则可基于对应的输入方式得到场外交易指令的指令文本。
API为Application Programming Interface的缩写,表示应用程序接口,是基于编程语言构建的结构,可提供特定的程序功能。
该步骤101相应可实现为如下至少一种:
包括如下至少一种:
基于网页在线输入方式,获取在对应的网页页面输入的场外交易指令的指令文本;
基于API数据接入方式,获取从预设通讯应用中导出并导入至预设API接口的场外交易指令的指令文本;
基于文档输入方式,获取导入至预设的文档批处理接口的场外交易指令的指令文本,以支持指令文本的批量提交与处理。
步骤102、对所述指令文本进行分类,得到所述指令文本所属的目标类别。
在得到场外交易指令的指令文本后,可对其进行分类,为了解决用户输入文本存在的口语化、不规范化等问题,可选的,可在分类之前预先使用批量规范化预处理和专家系统制订的相关分析规则来对输入的原始指令文本进行预处理和规范化,从而提高所输入文本的规范性和业务合理性。
其中,文本预处理,可以包括但不限于分句、分词、去除停用词、词性标注、同义词转换、繁简转换、拼音转换等常见的中文文本处理方法,以提高中文文本的可读性和可处理性。文本规范化,可以包括但不限于通过将数字、日期、单位等统一成标准的特定格式,删除多余空格、符号等无意义字符等操作来获得规范化中文文本。
预处理和规范化后的指令文本将会被传入给指令分类模块参与指令分类处理。
可选的,本申请实施例将文本指令按简易程度分为简单指令、未带产品类型的复杂指令和带产品类型的复杂指令等多个简易程度类别。其中,每个简易程度类别分别包含至少一个业务类别。示例性的,简单指令类别下的业务类别包括出金查询、入金查询、出金、入金、暂停、查询;未带产品类型的复杂指令类别下的业务类别包括询券、借券、恢复、下单;带产品类型的复杂指令类别下的业务类别包括询价。
本步骤中,可利用预设分类模型,根据指令文本包含的语义特征,如具体根据预处理及规范化后的指令文本包含的语义特征,识别指令文本所包含指令对应的目标业务类别。之后,进一步识别所述目标业务类别所属的目标简易程度类别;所述目标类别包括所述目标业务类别和所述目标简易程度类别。
具体的,在指令分类阶段,利用预先构建的所述预设分类模型(指令分类器),基于预处理和规范化后指令文本的特征(如语义特征)识别指令的业务类别,并给出相应的置信度。当置信度高于设定的阈值时,直接返回模型给出的指令分类结果。模型可以但不限于支持下单指令、询价指令、询券指令、借券指令、暂停指令、恢复指令、查询进度指令、出金指令、出金查询、入金指令、入金查询等多种指令的识别分类。在确定出指令文本所属的目标业务类别基础上,可进一步根据对不同业务类别的简易程度类别划分情况,识别所述目标业务类别所属的目标简易程度类别,例如具体是属于简单指令、未带产品类型的复杂指令还是带产品类型的复杂指令。
如果分类模型分类结果中的置信度低于设定的阈值,则表示当前的指令文本为复杂难检文本,模型无法准确识别其对应的业务类别,导致识别失败。
若对指令文本的业务类别识别失败,则使用相似句理解模型对所述指令文本进行分类。即,对于复杂难检文本,模型可能无法直接识别其含义,针对该情形,本申请实施例提出通过使用相似句理解模型来支撑小样本分类,以达到较好的相似句、模糊句指令分类效果。
进一步,可选的,在分类阶段,还可以结合考虑分词器结果和基于全量数据分析及行业知识(金融)业务规则进行指令文本匹配的结果实现分类,以解决不同指令与原始指令文本特征映射存在冲突的问题,保证指令识别的有效性和准确性。
实际应用中,可能存在输入的文本为非指令文本或为包含多个不同指令信息的文本的情形,对于非指令文本,可由分类模型输出“非指令”类别,对于含有多个不同指令信息的文本,可由分类模型输出“其他指令”的类别,以表征输入的文本为“非指令”类别或“其他指令”类别,从而便于后续对其执行对应的业务处理。
步骤103、利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则。
本申请实施例为每一种业务类别的指令(如下单、询价、询券、借券、暂停、恢复、查询进度、出金、出金、入金、入金)分别配置有对应的指令要素模板和数据格式(字段规范)。
并针对不同简易程度类别(如简单类别,未带产品类型的复杂指令类别和带产品类型的复杂指令类别),分别为其配置有对应的要素识别方式。
在识别出所述指令文本所包含指令对应的目标业务类别及所述目标业务类别所属的目标简易程度类别之后,可根据所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式,对所述指令文本进行要素提取处理。其中,所述目标要素提取规则包括所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式。
每种要素识别方式,均支持从单条文本中识别出多个参数组合形成的多条指令,进而提供对多指令查询功能的支持。
可选的,在利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取之前,还可以首先根据指令文本所属的目标类别,对指令文本进行分流处理,以将指令文本分流到对应的要素提取模块进行要素提取;其中,不同类别的指令文本采用不同的素提取模块进行要素提取。
为了解决识别文本中指令要素是否存在和要素内容精确识别的问题,本实施例还综合使用了业务规则模式分析、文本概念化和小样本抽取等技术,建立原始指令文本和要素文本的映射关系,以解决要素间语义冲突的问题,使得要素识别与提取结果更加更贴近人的理解。
举例说明:
假设输入文本:**科技指数,70-100的雪球,预计起始日20220225,半年期,3000万,麻烦帮我们报下。
输入输出映射关系(原始指令文本和要素文本的映射关系):70-100中的左右侧数字分别代表的是敲入边界和敲出边界,且敲入边界是小于敲出边界的。其他数字类似,同样建立对应的映射关系;建立起输入输出的映射关系后,就可以避免要素间的冲突。
步骤104、基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
在提取得到所述指令文本包含的各个指令要素之后,可基于所述指令文本包含的各个指令要素,生成所述指令文本对应的初始结构化文本,在此基础上,通过将其输入到智能纠错模块进行纠错校正和规范化处理,得到所述指令文本对应的预设数据格式的结构化文本。
智能纠错模块会对解析得到的结构化文本信息(即初始结构化文本)进行进一步的校正和规范化处理,将要素信息以正确文本和规定的标准数据格式输出。可选的,该模块通过基础自然语言组件、归一化组件、分词组件、日期时间组件和标的基础组件处理文本中可能存在的中英文、数字、标点符号、方言错误、字母缩写、错别字、关键字遗漏、无意义字符等错误,得到规范化、标准化的输出信息。
综上所述,本申请提供了一种场外交易指令文本的解析方法、装置和计算机可读介质,其中方法包括:获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;对所述指令文本进行分类,得到所述指令文本所属的目标类别;利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
本申请通过对场外交易指令文本的分类与关键要素抽取,实现了自动化、智能化的指令文本解析,降低了人工参与程度,并能够提升对场外交易指令文本的解析准确度和效率,通过将本申请在业务中的运用,可以大大提高业务响应速度和准确性,减少信息遗漏,实现客户指令的快速高效的自动化分类和要素抽取,进而达到场外衍生品交易过程中降本增效的目标。
在一可选实施例中,本申请的场外交易指令文本的解析方法还可以包括:
对所述预设分类模型的类别识别结果进行正误确认及确认出识别错误情况下的指令文本类别纠正处理,在确认结果表征所述预设分类模型的识别准确率低于预设阈值时,基于对指令文本类别的纠正处理结果对所述预设分类模型进行迭代更新。
也就是说,在完成基础处理流程后,还可以融入专家知识确认反馈机制来强化分类模型的分类和识别能力。专业的业务人员可以通过本系统/平台对指令识别的结果进行正误确认和对错误识别结果的纠正,以不断增加高质量的带标签数据。当专家反馈使得模型的识别准确率低于预先设定的阈值时,可触发模型基于新增的指令数据(识别结果纠正后的指令数据)进行增强训练和迭代更新,以不断提高分类模型的识别与分类能力。
在一可选实施例中,本申请的场外交易指令文本的解析方法还可以包括:
通过可视化界面进行指令要素模板和/或数据格式的更新,并根据更新后的指令要素模板和/或数据格式,对历史指令文本进行扫描解析,以更新所述历史指令文本的解析结果。
具体的,业务人员只需要在开始阶段指定每一类指令的要素模板和数据格式(字段规范),后续根据业务的发展和变化通过可视化界面进行指令模板的新增、删减或修改,并可按需调整所需的数据格式(字段规范)。每次新的模板生效后,可对历史指令数据进行扫描解析和全量更新,以保证与新模板及对应数据格式的一致性。对于新增的指令模板,分类模型只需要少量的示例数据即可学习新指令类型(新增的指令模板对应的指令类型)的语义特征,快速应用于生产。
在使用过程中,业务人员只需要定期对指令解析的结果进行确认和校正,通过融合人工反馈的过程,强化模型对业务的理解能力,并可通过指定模型更新的频率或对应阈值,完成模型的自动迭代更新。整个过程不需要业务人员通过文件来保存、传递和维护大量的指令模板和知识库信息,而是只需要在网页界面进行定期检查和确认即可完成模型的升级迭代。
以下进一步提供本申请方法的一应用示例。
针对场外衍生品交易中常见的指令问询和执行场景,本示例将指令文本解析整个流程的实现架构划分为服务层、分流层、业务层和基础层四个部分,具体的分层架构及对应的指令文本解析流程参见图2所示,下面将分别介绍各个层的功能及其实现过程。
(一)服务层
启动后端服务后,服务层作为对外提供服务的模块,通过网页前端界面进行模型示例展示、测试及数据输入功能,可支持网页在线输入、API数据输入和文档输入等多种输入方式,以满足不同使用场景下对于单一指令或批量指令的处理需求。服务层作为对外提供服务的模块,至少可提供对外的服务入口模块,服务入口模块可通过服务热启动方式启动。
其中,这里的模型示例展示,具体是指展示指令文本的输入示例,参见图3,以指令列表方式展示了多个指令文本的输入示例。
以下对使用场景及使用场景与所使用输入方式之间的对应关系进行举例:
场景1:在平台推广、NLP(Natural Language Processing,自然语言处理)相关能力宣传、用户使用培训的时候,可以基于网页在线输入方式,通过网页在线输入页面进行demo展示和操作,便于用户能够直观感受指令解析的处理流程和能力水平。
场景2:在业务人员实际使用的时候,直接将询价群中的文本信息导出,通过API数据输入接口进行指令文本解析,返回解析结果到下游业务系统,根据客户指令的意图进行相关的信息查询并返回结果给客户。
场景3:在模型的应用和优化过程中,运营人员会定期整理具有代表性的指令文本,同时也会将数据库中过去一段时间的群聊信息导出到excel文件中,通过文档批处理接口可以快速对大量的指令数据进行解析和处理,将结果以excel的方式保存下来,用于模型效果的分析、评价和后续优化。
(二)分流层
分流层提供了主函数入口,作为输入输出的统一接口提供服务,接受指令文本的输入,进行初步的文本预处理后,将预处理后的文本传递给指令解析模块(指令分类模块+要素抽取模块)进行后续分类分流与解析处理。在完成指令解析后,再由该层将指令输出结果以标准的格式返回给客户。
为了解决实际业务数据具有较为严重的不规范性问题,本示例在该层使用了批量规范化预处理及专家系统制定的分析规则,来对原始指令文本进行预处理和规范化,以从分类模型入口保证数据的规范性和业务合理性,从而增强分类模型的业务场景理解能力。该层主要实现以下功能:
31)针对大量不规范自然语言文本进行原始文本预处理与规范化;
32)将预处理与规范化后的指令文本传入给指令解析模块中的指令分类模块,接收指令分类的结果;
33)根据指令分类的结果,将该指令分流至特定的要素提取模块中,若为询价指令,需要进一步确定询价产品的类型;
34)接收要素提取的结果,建立输入字段和输出要素文本的映射关系,利用基础层提供的通用文本处理能力对返回的字段内容进行纠错校正,将要素信息以正确文本和规定的标准数据格式输出。
输入文本中可能存在各种语言错误(拼音、错别字、中英文、无意义符号等),建立好输入输出映射关系后,可利用基础的文本纠错模型对输入文本进行纠错,返回正确的输入文本。
(三)业务层
业务层是指令文本解析的主要环节,通过场景理解、行业知识库、小样本模型等技术优化来实现对指令的分类和要素提取,如图2在业务层所示的13种指令分类和13种指令要素提取。
在指令分类阶段,指令分类器将基于预处理指令文本的特征识别指令类别,并给出相应的置信度。当置信度高于设定的阈值时,直接返回模型给出的指令分类结果;当置信度低于设定的阈值时,则表示当前指令为复杂、难检文本,模型无法准确识别指令类别,此时需要根据相似样本利用相似句理解模型来推断当前文本句子的分类。通过使用相似句理解模型来支撑小样本分类,以达到较好的相似句模糊句指令分类效果。在该环节还综合考虑了分词器结果和基于全量数据分析及行业知识(金融)业务规则进行指令文本匹配的结果,解决不同指令与原始指令文本特征映射存在冲突的问题,保证了指令识别的有效性和准确性。
具体的,预处理后的指令文本实现了概念化和实体模块化,剔除了无关文本信息,突出了有效语义块的信息(如将600536 打上“标的”标签B,CVF、DCL打上“产品”标签P,1000、200打上金额标签A),具有结构化、简洁明了、语义明确、逻辑清晰、专业性等特点。例如:指令文本:“现在开始吧,公司A,卖出5000,市价跟量 5%”,对应的预处理文本:“CODE,卖出NUM,市价跟量NUM%”,对于预处理文本,分类模型可通过关键字匹配(卖出、市价、跟量)、关键字特征识别等方式确认指令类别为下单,之后根据下单指令的要素模板获取下单指令的典型模式(如:标的代码-买卖方向-交易数量-算法交易参数),基于此模式并根据每个要素的含义和规则进行要素信息提取,最终根据提取的要素信息返回结构化文本解析结果。
可选的,对于每一个处理过的指令文本,除原始文本外,都保存了其对应的概念化、实体化的抽象指令文本。该抽象指令文本是通过分词、词性标注、命名实体识别、实体链接、概念化、关系抽取等处理步骤后得到的,相同类别的抽象文本指令被定义为相似的样本。在处理新的指令文本(难检文本)时,可通过BERT等深度学习模型来学习文本的深层次语义信息,从而更准确地计算文本相似度,并根据预设阈值来确定相似文本。以此为支撑,实现使用相似句理解模型进行小样本分类,达到较好的相似句模糊句指令分类效果。
在指令要素抽取阶段,本示例综合使用了业务规则模式分析、文本概念化和小样本抽取等技术,解决自然语言文本中要素是否存在和要素间语义或文本特征冲突的问题,使得文本解析结果更贴近人的理解,提高要素内容识别的精确性。
本示例根据指令文本的难易复杂程度,将指令分为简单指令(出金查询、入金查询、出金、入金、暂停、查询)、未带产品类型的复杂指令(询券、借券、恢复、下单)和带产品类型的复杂指令(询价)。
其中,针对每一类指令文本的特点,使用不同的要素提取方式对其进行要素提取,分别如下:
简单指令:使用分词器并基于全量数据分析、行业知识(金融)和专家系统制定的规则进行多字段组合匹配。针对共性要素部分的内容,使用基于BERT-CRF的抽取模型,进行要素内容的统一抽取(如金额、标的等)。识别要素智能规范,从单条指令文本中抽取同个要素字段的不同参数值,实现多参数组合规范输出。
如:“公司B,公司C,现在完成多少了?”是一个查询指令,标的字段有两个不同的参数值,分别为公司B和公司C。从该条指令文本中最终可以解析得到两个查询指令。
未带产品类型的复杂指令:首先对指令文本进行概念化、实体模块化,将普通文本进行抽象得到概念化文本,剔除无关文本内容,提取有效语义块信息,如将600536 打上“标的”标签B,CVF、DCL打上“产品”标签P,1000、200打上金额标签A。然后,根据文本标签和原始文本对指令文本进行模式识别和分流,如原句转换成BPAPA形式。之后,基于全量数据分析、行业知识(金融)和专家系统制定的规则进行多字段组合匹配,针对共性部分(如时间日期、标的、金额、期限等),使用基于BERT-CRF的抽取模型进行要素内容的统一抽取。同时,针对标签之间存在冲突的问题,例如数字可能被识别成为标的,金额等多个类型的标签,设计了优先级标签。在标签化过程中,对不同的标签生成的方法或原则设置不同的优先级,选择最高优先级的标签。针对不同语义模式,对语义块进行动态组合,从单条文本中识别出多个参数组合形成的多条指令,最后对展示结果进行单、多要素规范化。
如:“公司D 公司E 全部平仓一半 市价跟量 5”。是一个下单指令文本,标的字段有两个不同的参数值,分别为公司D和公司E,其他下单字段的参数值相同。从该条指令文本中最终可以解析得到两个下单指令。
带产品类型的复杂指令(询价指令):询价指令涉及到不同的场外衍生品产品类型,需要针对预处理规范化文本进行产品类别识别。根据询价业务规则(也可称为“询价产品规则”)和业务场景理解预定义询价产品特征,通过使用分词器结果、基于全量数据分析和行业知识(金融)业务规则匹配 ,识别业务所需参数的要素并进行动态语义分组,实现多产品逻辑的识别与规范。针对询价指令存在的参数字段多、产品种类繁杂等问题,我们使用相似句理解模型用以支撑小样本分类。对于复杂难检文本,模型可能无法直接识别其含义,需要根据相似样本来推断当前句子的分类。通过枚举新字段值的范围,能够非常方便地支持新值识别。对于单条文本中包含多个指令信息要素的,同样可以通过多组文本语义块进行智能规范化结果展示处理,解析得到多指令的规范化结果。
如:“询价601636 6/9/12m 1000w 90/100c”,是一个香草期权的询价指令文本,涉及到期限字段的值有3个,分别为6M、9M和12M(月),涉及到的执行价格有两个,分别为90%和100%,其他字段的参数值相同。从从该条指令文本中最终可以解析得到2*3=6个询价指令。
(四)基础层
基础层包括但不限于基础自然语言模块、归一化模块、分词基础组件、分词补充模块、标的基础优化组件和日期时间模型组件,主要用于在指令解析过程中提供通用的文本处理能力。
各模块或组件分别说明如下:
基础自然语言模块:进行更新、加载分词器,为后续语义块划分处理做准备。
归一化模块:基于全量数据分析和行业知识(金融)业务理解(如:值域限制等)进行要素归一化校验,以达到文本纠错效果。处理对象包含时间、日期、数量、货币金额及行业特殊用语。同时,面向读音错误(重镇五百->与“重镇五百”读音相似的股票A)、语义错误(宁王->与“宁王”读音相似的公司F)、形似错误(O.3%->0.3%)等错误进行纠错,所用到的技术可以为基于BERT的乱序语言模型,结合注意力转移的乱序场景优化,以达到针对常用时间、日期、数量、货币金额乱序场景中较好的规范化效果。
分词基础组件:作为知识库的关联分词模块,根据知识库中的语料信息生成词典信息,确定每个关键词语的词频和词性,同时支持动态增加和删除外部知识库实体标签对来提高分词的准确性。其中,参见图2,所述的知识库可以为通过外部知识库配置方式所提供的知识库,并可对知识库按需进行对应的知识库管理。
分词补充模块:作为分词基础组件的补充,可以额外处理空格、中英文混合等问题,增强模型对于脏数据与不规范数据的稳定性。对于分词器用到的、需额外补充的词同样可以在该模块中进行补充。
标的基础优化组件:标的基础组件主要用于将客户指令文本中的标的信息映射为标准统一的内部代码格式,用于下游业务系统进行标的信息查询。该组件主要解决了指令中标的名称形式多样,市场标的存在频繁更新和新增的问题,能够支持大量标的更新,能够识别代码、简写代码、中英文名称、简称等多种形式的标的。基于股票代码和名称,生成了自然语言中可能出现的标的,构造了标的链接数据库。数据库可接入运营数据,利用运营数据过滤生成的可能存在的问题标的,提升标的识别和链接的准确率。通过提供标的更新接口,可以让业务人员便捷地更新全量标的库,实现动态更新。
日期时间模型组件:该组件将指令文本中的日期信息识别并解析成统一规范的格式。预设全量时间日期表示模式,通过解析原始文本中的日期时间要素模式进行模式分流,并根据分流的模式结果进行规范化日期时间结果,使得效果接近人对于自然语言文本的理解。其中,时间日期模式识别口径可根据数据或业务变化自由调节,具备易扩展和易调整的特点。
实际实施中,可通过制定测试模块,来对上述分层架构中的相应功能层进行按需测试;且上述分层架构在运行过程中可基于对应的日志系统,对相应功能层进行日志输出与记录,以便基于日志信息进行分层架构中相应功能层的运维。
上述分层架构中各功能层之间的相互协作流程可结合参见图2所示。
对应于上述的方法,本申请还提供一种场外交易指令文本的解析装置,该装置的组成结构如图4所示,包括:
获取单元401,用于获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;
分类单元402,用于对所述指令文本进行分类,得到所述指令文本所属的目标类别;
要素提取单元403,用于利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;
生成单元404,用于基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
容易理解,在通过在相应处理系统或平台提供指令输入、指令分类、要素抽取、智能纠错四大功能模块,来实现指令解析处理流程的实施方式下,该装置中的获取单元401、分类单元402、要素提取单元403和生成单元404,可分别一对一按序实现为上述的指令输入、指令分类、要素抽取、智能纠错四个功能模块。
在一实施方式中,获取单元401,具体用于执行如下处理中的至少一种:
基于网页在线输入方式,获取在对应的网页页面输入的场外交易指令的指令文本;
基于API数据接入方式,获取从预设通讯应用中导出并导入至预设API接口的场外交易指令的指令文本;
基于文档输入方式,获取导入至预设的文档批处理接口的场外交易指令的指令文本。
在一实施方式中,分类单元402,具体用于:
利用预设分类模型根据所述指令文本包含的语义特征,识别所述指令文本所包含指令对应的目标业务类别;
识别所述目标业务类别所属的目标简易程度类别;所述目标类别包括所述目标业务类别和所述目标简易程度类别。
在一实施方式中,简易程度类别包括简单指令类别、未带产品类型的复杂指令类别和带产品类型的复杂指令类别;各个简易程度类别分别包含至少一个业务类别;
所述简单指令类别下的业务类别包括出金查询、入金查询、出金、入金、暂停、查询;所述未带产品类型的复杂指令类别下的业务类别包括询券、借券、恢复、下单;所述带产品类型的复杂指令类别下的业务类别包括询价。
在一实施方式中,要素提取单元403,具体用于:
根据所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式,对所述指令文本进行要素提取处理;
其中,所述目标要素提取规则包括所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式;每一种业务类别的指令分别配置有对应的指令要素模板和数据格式。
在一实施方式中,生成单元404,具体用于:
基于所述指令文本包含的各个指令要素,生成所述指令文本对应的初始结构化文本;
对所述初始结构化文本进行纠错校正和规范化处理,得到所述指令文本对应的预设数据格式的结构化文本。
在一实施方式中,上述装置还包括更新处理单元,用于:通过可视化界面进行指令要素模板和/或数据格式的更新,并根据更新后的指令要素模板和/或数据格式,对历史指令文本进行扫描解析和全量更新,以更新所述历史指令文本的解析结果。
在一实施方式中,分类单元402还用于:若所述预设分类模型对所述指令文本的业务类别识别失败,则使用相似句理解模型对所述指令文本进行分类。
在一实施方式中,更新处理单元,还用于:对所述预设分类模型的类别识别结果进行正误确认及确认出识别错误情况下的指令文本类别纠正处理,在确认结果表征所述预设分类模型的识别准确率低于预设阈值时,基于对指令文本类别的纠正处理结果对所述预设分类模型进行迭代更新。
在一实施方式中,要素提取单元403还用于:根据预先建立的原始指令文本与要素文本之间的映射关系进行要素提取,以避免要素间的语义冲突。
在一实施方式中,上述装置还包括分流单元,用于:在利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理之前,根据指令文本所属的目标类别,对指令文本进行分流处理,以将指令文本分流到对应的要素提取单元/模块进行要素提取;
其中,不同类别的指令文本采用不同的素提取单元/模块进行要素提取。
对于本申请实施例提供的场外交易指令文本的解析装置而言,由于其与上文方法实施例提供的场外交易指令文本的解析方法相对应,所以描述的比较简单,相关相似之处请参见上文方法实施例的说明即可,此处不再详述。
本申请还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序包含用于执行如上文任一方法实施例提供的场外交易指令文本的解析方法的程序代码。
在本申请的上下文中,计算机可读介质(机器可读介质)可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
需要说明,尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (13)
1.一种场外交易指令文本的解析方法,其特征在于,包括:
获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;
对所述指令文本进行分类,得到所述指令文本所属的目标类别;
利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;
基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
2.根据权利要求1所述的方法,其特征在于,所述获取输入的场外交易指令的指令文本,包括如下至少一种:
基于网页在线输入方式,获取在对应的网页页面输入的场外交易指令的指令文本;
基于API数据接入方式,获取从预设通讯应用中导出并导入至预设API接口的场外交易指令的指令文本;
基于文档输入方式,获取导入至预设的文档批处理接口的场外交易指令的指令文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述指令文本进行分类,得到所述指令文本所属的目标类别,包括:
利用预设分类模型根据所述指令文本包含的语义特征,识别所述指令文本所包含指令对应的目标业务类别;
识别所述目标业务类别所属的目标简易程度类别;所述目标类别包括所述目标业务类别和所述目标简易程度类别。
4.根据权利要求3所述的方法,其特征在于,简易程度类别包括简单指令类别、未带产品类型的复杂指令类别和带产品类型的复杂指令类别;各个简易程度类别分别包含至少一个业务类别;
所述简单指令类别下的业务类别包括出金查询、入金查询、出金、入金、暂停、查询;所述未带产品类型的复杂指令类别下的业务类别包括询券、借券、恢复、下单;所述带产品类型的复杂指令类别下的业务类别包括询价。
5.根据权利要求3所述的方法,其特征在于,所述利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,包括:
根据所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式,对所述指令文本进行要素提取处理;
其中,所述目标要素提取规则包括所述目标业务类别对应的指令要素模板和数据格式,以及所述目标简易程度类别对应的要素识别方式;每一种业务类别的指令分别配置有对应的指令要素模板和数据格式。
6.根据权利要求1所述的方法,其特征在于,所述基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本,包括:
基于所述指令文本包含的各个指令要素,生成所述指令文本对应的初始结构化文本;
对所述初始结构化文本进行纠错校正和规范化处理,得到所述指令文本对应的预设数据格式的结构化文本。
7.根据权利要求5所述的方法,其特征在于,还包括:
通过可视化界面进行指令要素模板和/或数据格式的更新,并根据更新后的指令要素模板和/或数据格式,对历史指令文本进行扫描解析,以更新所述历史指令文本的解析结果。
8.根据权利要求3所述的方法,其特征在于,还包括:
若所述预设分类模型对所述指令文本的业务类别识别失败,则使用相似句理解模型对所述指令文本进行分类。
9.根据权利要求3所述的方法,其特征在于,还包括:
对所述预设分类模型的类别识别结果进行正误确认及确认出识别错误情况下的指令文本类别纠正处理,在确认结果表征所述预设分类模型的识别准确率低于预设阈值时,基于对指令文本类别的纠正处理结果对所述预设分类模型进行迭代更新。
10.根据权利要求5所述的方法,其特征在于,还包括:
根据预先建立的原始指令文本与要素文本之间的映射关系进行要素提取,以避免要素间的语义冲突。
11.根据权利要求1所述的方法,其特征在于,在利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理之前,还包括:
根据所述指令文本所属的目标类别,对所述指令文本进行分流处理,以将所述指令文本分流到对应的要素提取模块进行要素提取;
其中,不同类别的指令文本采用不同的素提取模块进行要素提取。
12.一种场外交易指令文本的解析装置,其特征在于,包括:
获取单元,用于获取输入的场外交易指令的指令文本;所述指令文本中的数据为非结构化数据;
分类单元,用于对所述指令文本进行分类,得到所述指令文本所属的目标类别;
要素提取单元,用于利用与所述目标类别相匹配的目标要素提取规则,对所述指令文本进行要素提取处理,得到所述指令文本包含的各个指令要素;其中,不同的指令类别对应配置有不同的要素提取规则;
生成单元,用于基于所述指令文本包含的各个指令要素,生成所述指令文本对应的预设数据格式的结构化文本。
13.一种计算机可读介质,其特征在于,其上存储有计算机程序,所述计算机程序包含用于执行如权利要求1-11任一项所述的场外交易指令文本的解析方法的程序代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311202329.1A CN116976313B (zh) | 2023-09-18 | 2023-09-18 | 场外交易指令文本的解析方法、装置和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311202329.1A CN116976313B (zh) | 2023-09-18 | 2023-09-18 | 场外交易指令文本的解析方法、装置和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116976313A true CN116976313A (zh) | 2023-10-31 |
CN116976313B CN116976313B (zh) | 2024-01-02 |
Family
ID=88475236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311202329.1A Active CN116976313B (zh) | 2023-09-18 | 2023-09-18 | 场外交易指令文本的解析方法、装置和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976313B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078386A1 (en) * | 2002-09-03 | 2004-04-22 | Charles Moon | System and method for classification of documents |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
CN113239188A (zh) * | 2021-04-21 | 2021-08-10 | 上海快确信息科技有限公司 | 一种一套金融交易对话信息分析技术方案 |
CN113971389A (zh) * | 2021-11-08 | 2022-01-25 | 北京快确信息科技有限公司 | 一种对现券交易文本进行处理的系统 |
CN114780721A (zh) * | 2022-03-30 | 2022-07-22 | 北京快确信息科技有限公司 | 一种基于深度学习的交易对手识别方法、装置及电子设备 |
-
2023
- 2023-09-18 CN CN202311202329.1A patent/CN116976313B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078386A1 (en) * | 2002-09-03 | 2004-04-22 | Charles Moon | System and method for classification of documents |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
CN113239188A (zh) * | 2021-04-21 | 2021-08-10 | 上海快确信息科技有限公司 | 一种一套金融交易对话信息分析技术方案 |
CN113971389A (zh) * | 2021-11-08 | 2022-01-25 | 北京快确信息科技有限公司 | 一种对现券交易文本进行处理的系统 |
CN114780721A (zh) * | 2022-03-30 | 2022-07-22 | 北京快确信息科技有限公司 | 一种基于深度学习的交易对手识别方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116976313B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN110765889B (zh) | 法律文书的特征提取方法、相关装置及存储介质 | |
EP2671190B1 (en) | System for data extraction and processing | |
CN116244410B (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN114549241A (zh) | 合同审查方法、装置、系统与计算机可读存储介质 | |
CN111831810A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN118194842A (zh) | 文档智能识别方法、装置、电子设备及存储介质 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN114743012A (zh) | 一种文本识别方法及装置 | |
CN116976313B (zh) | 场外交易指令文本的解析方法、装置和计算机可读介质 | |
CN118313348A (zh) | 文档格式排版方法、装置、计算机设备、存储介质及产品 | |
CN113298495A (zh) | 简历筛选方法、简历筛选装置、终端设备及存储介质 | |
CN110413659B (zh) | 通用购物小票数据精准提取方法 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
CN115640378A (zh) | 工单检索方法、服务器、介质及产品 | |
CN115408995A (zh) | 一种项目电子文档的结构化解析方法及系统 | |
EP1361524A1 (en) | Method and system for processing classified advertisements | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 | |
CN113515587A (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN115203382A (zh) | 业务问题场景识别方法、装置、电子设备及存储介质 | |
CN111460122A (zh) | 基于深度学习的尺码识别方法与系统 | |
CN115827869A (zh) | 一种单据图像的处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |