CN112395866B - 报关单数据匹配方法及装置 - Google Patents

报关单数据匹配方法及装置 Download PDF

Info

Publication number
CN112395866B
CN112395866B CN202011285059.1A CN202011285059A CN112395866B CN 112395866 B CN112395866 B CN 112395866B CN 202011285059 A CN202011285059 A CN 202011285059A CN 112395866 B CN112395866 B CN 112395866B
Authority
CN
China
Prior art keywords
text
word
matched
field
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011285059.1A
Other languages
English (en)
Other versions
CN112395866A (zh
Inventor
曾锴
张明
周佳玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Foreign Transport Co ltd
Original Assignee
China Foreign Transport Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Foreign Transport Co ltd filed Critical China Foreign Transport Co ltd
Priority to CN202011285059.1A priority Critical patent/CN112395866B/zh
Publication of CN112395866A publication Critical patent/CN112395866A/zh
Application granted granted Critical
Publication of CN112395866B publication Critical patent/CN112395866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种报关单数据匹配方法及装置,所述方法包括:基于预设规则分割报关单文本获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度确定第二文本的待匹配字段,删除待匹配字段中的无效词后对其进行词归一化处理,并将其与分词词典中的词进行相似度计算,若计算结果大于预设值则从报关单文本中分割出所述待匹配字段作为分词,并匹配分词是否符合报关单规范。本发明实施例可以针对中文文本和英文文本分别进行数据匹配校验,同时根据分词词典中最长词的长度确定待匹配字段,考虑了相似词的影响,提高了校验效率和准确率。

Description

报关单数据匹配方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种报关单数据匹配方法及装置。
背景技术
随着经济的快速发展以及进出口贸易量的增长,越来越多的人们通过多种渠道进行跨境海外购,海关需要将这些跨境业务进行审核以便使其通关。
在通关业务处理中,审单人员获取到客户提交的报关单后,需要检测报关单的申报要素以及商品名称是否符合海关规则,现有的业务操作一般是根据人工经验进行申报要素的判断,影响检测匹配结果的准确性以及操作效率。
发明内容
针对现有技术存在的问题,本发明实施例提供一种报关单数据匹配方法及装置。
具体地,本发明实施例提供了如下技术方案:
第一方面,本发明实施例提供一种报关单数据匹配方法,包括:
获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;
匹配所述分词是否符合报关单规范。
进一步地,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词。
进一步地,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词。
进一步地,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
进一步地,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
第二方面,本发明实施例提供一种报关单数据匹配装置,包括:
第一获取单元,用于获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元,用于删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;
匹配单元,用于匹配所述分词是否符合报关单规范。
进一步地,所述分词单元,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词。
进一步地,所述分词单元,还用于:
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述报关单数据匹配方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述报关单数据匹配方法的步骤。
本发明实施例提供的报关单数据匹配方法及装置,通过获取待进行数据匹配的报关单文本,基于预设规则分割报关单文本,获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度确定第二文本的待匹配字段,删除待匹配字段中的无效词后对其进行词归一化处理,并将词归一化后的待匹配字段与分词词典中的词进行相似度计算,若计算结果大于预设值,则从报关单文本中分割出所述待匹配字段作为分词,并根据分词校验报关单是否符合规范。由此可见,本发明实施例通过将第一文本中的中文文本和英文文本分割,从而可以针对中文文本和英文文本分别进行校验,避免了中英文混合文本对检测结果造成干扰导致校验准确率较低的问题,同时根据分词词典中最长词的长度确定待匹配字段,并将与最长词长度相同的待匹配字段整体与分词词典进行匹配,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题,而且待匹配字段与分词词典匹配之前,删除待匹配字段中的无效词后对其进行词归一化处理,将表达不规范的待匹配字段转换为规范统一的同义词或近义词,然后与分词词典中的词进行相似度计算,从而能够准确进行分词,进一步准确对报关单进行数据匹配,确认报关单是否符合规范。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一个实施例提供的报关单数据匹配方法的流程示意图;
图2是本发明一实施例提供的报关单文本相似度计算流程示意图;
图3是本发明一实施例提供的报关单文本分词流程示意图;
图4是本发明第二个实施例提供的报关单数据匹配装置的结构示意图;
图5是本发明第三个实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在通关业务处理中,海关方获取到通关人员提交的报关单后,需要检测报关单中是否包含危化品、是否包含濒危动植物等。现有的业务操作一般是根据人工经验进行申报要素的判断,影响检测匹配结果的准确性以及操作效率。若采用文本相似度软件(如Text-Similarity-0.08)或分词软件(如hanlp)检测报关单中是否包含危化品、是否包含濒危动植物等,但采用上述方法时中英文混合文本会对检测结果造成干扰,影响检测结果的准确性,而且无法区分检测报关单中存在同义词、近义词、错别词等情况。
例如,对于中英文混合文本“分词软件hanlp”,在使用文本相似度软件(如Text-Similarity-0.08)或分词软件(如hanlp)时,得到的分词结果为[分词/软件/h/a/n/lp],而我们想要的分词结果是[分词/软件/hanlp]。由此可见,文本相似度软件或分词软件无法准确对中英文混合文本进行分词,从而影响报关单校验的准确性。此外,上述方法也无法区分同义词、近义词、错别词等情况,如分词词典中存储有[分割/文本],待检测文本为“切分文本”,“切分”与“分割”属于同义词,但采用上述分词方法待检测文本的分词结果是[切/分/文本],而我们想要的分词结果是[切分/文本]。由此可见,上述方法也无法区别检测文本中存在同义词、近义词、错别词等情况,检测的准确率较低。
图1是本发明第一个实施例提供的报关单数据匹配方法的流程示意图,如图1所示,本发明第一个实施例提供的报关单数据匹配方法,包括如下步骤:
步骤110、获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本。
在本步骤中,在通关业务处理中,海关方会获取通关人员提交的报关单文本,而报关单文本中可能会包含危化品、濒危动植物等,从而报关单文本中可能会涉及到中英文混合文本(如危化品会涉及化学表达式),即包括中文文本和英文文本。需要说明的是,报关单文本可以包括中文文本,也可以包括英文文本,还可以包括中文文本+英文文本,本实施例对此不作具体限定。
步骤120、基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割。
在本步骤中,为了保证报关单文本分词的精确度,进而提高报关单校验的准确度,需要将文本内容较多的报关单文本分割成若干个文本内容较少的子文本,然后针对各子文本逐一进行分词。例如,可以按照标点符号对报关单文本进行分割,也可以按照段落对报关单文本进行分割,本实施例对此不作具体限定。
在本步骤中,需要说明的是,按照预设规则分割完报关单文本后,会得到若干个子文本,按照报关单文本的文本顺序选取子文本依次进行分词。例如,报关单文本按照预设规则划分为句子1、句子2和句子3共三个子文本,三个子文本按照文本内容从前到后的排序为句子1,句子2,句子3,首先选取句子1作为第一文本,待句子1完成分词操作后,选取句子2作为第一文本并按照句子1的分词步骤进行分词,同理,在句子2完成分词后,对句子3进行分词操作。
在本步骤中,需要说明的是,由于第一文本是从报关单文本中分割出来的,因此第一文本中也会存在中英文混合的情况,即第一文本包括中文文本和英文文本。为了避免中英文混合文本对分词结果造成的干扰,进而影响校验结果的准确度,本实施例将第一文本中的中文文本和英文文本分割,从而可以分别针对中文文本和英文文本进行分词及文本校验。其中,在将第一文本中的中文文本和英文文本分割后,分割后的中文文本和英文文本的文本顺序与原始的报关单文本顺序一致,从而在获取分词结果后可以有序按照报关单文本的顺序进行校验,不仅能够提高校验效率,而且避免遗漏校验文本内容,进一步提高报关单校验的准确度。
步骤130、基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本。
在本步骤中,需要说明的是,将第一文本的中文文本和英文文本分割后,会获取若干个中文子文本和若干个英文子文本,且各中文子文本和各英文子文本是按照原始报关单文本的顺序排列的,例如,第一文本分割后的子文本按照文本从前到后的顺序为:中文子文本1、英文子文本1、英文子文本2、中文子文本2。那么,按照第一文本的文本顺序,首先选取中文子文本1作为第二文本与分词词典进行匹配,待中文子文本1完成分词后,再将英文子文本1作为第二文本与分词词典进行匹配,以此类推,后续依次对英文子文本2和中文子文本2进行分词。由此可见,本实施例通过按照第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本,从而在获取分词结果后可以有序按照报关单文本的顺序进行校验,不仅能够提高校验效率,而且避免遗漏校验文本内容,进一步提高报关单校验的准确度。
步骤140、根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词。
在本步骤中,需要说明的是,若在获取第二文本后,会将第二文本中的每个字段拆分,然后将各字段分别与分词词典进行匹配,例如,第二文本为“计算机课程”,若将第二文本拆分为[计、算、机、课、程、计算、算机、机课、课程、计算机、算机课、机课程、计算机课、算机课程、计算机课程]15个字段分别与分词词典进行匹配,造成效率较低。本实施例采用的方法是根据分词词典中最长词的长度,确定第二文本的待匹配字段,例如,第二文本为“计算机课程”,而分词词典中最长词的长度为3,则本实施例会将第二文本分为[计算机、课程]2个字段,并将“计算机”作为待匹配字段,与分词词典进行匹配,而不需要如分别将15个字段与分词词典进行匹配,大幅度提高了效率。此外,分词词典中存储有报关单相关数据的词,例如分词词典中存储有危化品、濒危动植物等敏感词汇,从而可以将报关单文本中的敏感词汇以分词形式分割出来进行校验。
步骤150、删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词。
在本步骤中,需要说明的是,现有技术中无法区分同义词、近义词、错别词等情况,如分词词典中存储有[分割/文本],待检测文本为“切分文本”,“切分”与“分割”属于同义词,但采用现有技术的分词方法待检测文本的分词结果是[切/分/文本],而我们想要的分词结果是[切分/文本]。由此可见,现有技术也无法区别检测文本中存在同义词、近义词、错别词等情况,检测的准确率较低。
如图2所示,本实施例在获取待匹配字段后,会首先删除无效词(例如剔除停用词、助词等无效词),然后对删除无效词的待匹配字段进行词归一化处理,即将同义词、近义词、错别词进行归一,转换成同一个词。例如上述待检测文本“切分文本”进行词归一化后,会将“切分”转换为同义词“分割”,即待检测文本转换为“分割文本”。由此可见,本实施例通过对待匹配文本进行词归一化处理,可以将表达不规范的待匹配字段转换为规范统一的同义词或近义词,进而可以准确与分词词典进行匹配,提高校验的准确度。
在本步骤中,对待匹配字段进行词归一化处理后,分词词典中存储的词汇可能存在与待匹配字段不完全相同的情况,例如进行词归一化处理的待匹配字段为“为什么我的眼里常含泪水,因为我对这片土地爱得深沉”,而分词词典中的字段为“我深沉的爱着这片土地,所以我的眼里常含泪水”,显而易见,这两个字段相似度很高,如果仅根据文字是否完全一致进行匹配的话,那么得出的结果是这两个字段不同,也就是待匹配字段“为什么我的眼里常含泪水,因为我对这片土地爱得深沉”不会被划分为一个分词,这明显不符合预期结果。
因此,为了能够进一步准确分词,本实施例将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,表明相似度较高,则从报关单文本中分割出所述待匹配字段作为分词。由此可见,采用本实施例提供的方法,可以灵活将上述待匹配字段“为什么我的眼里常含泪水,因为我对这片土地爱得深沉”划分为一个分词,提高了分词的准确率。可以理解的是,预设值可以根据实际情况具体设置,本实施例对此不作具体限定。
需要说明的是,本实施例可以采用余弦相似度算法计算待匹配字段与分词词典中各词的相似度,具体包括:将待匹配字段和分词词典中各词转换为文本向量后,假设待匹配字段的文本向量为[x1,y1],分词词典中词的文本向量为[x2,y2],那么待匹配字段与分词词典中词的相似度(similarity)为:
需要说明的是,通过余弦定理求向量夹角,夹角越小则两个文本越相似,即θ越小,待匹配字段与分词词典中词的相似度越高。
步骤160、匹配所述分词是否符合报关单规范。
在本步骤中,由于分词词典中存储有危化品、濒危动植物等敏感词汇,因此待匹配字段与分词词典匹配后得到的分词即为目标匹配字段(即可以理解为该分词中存在危化品、濒危动植物等的概率较高),需要对其进行数据匹配,确认是否符合规范。由此可见,本实施例通过对校验报关单进行分词,准确提取出需要匹配的目标匹配字段,而不需要海关人员针对报关单文本逐一审核校验,减轻了海关人员的工作量,提高了校验效率。
本发明实施例提供的报关单数据匹配方法,通过获取待进行校验的报关单文本,基于预设规则分割报关单文本,获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度确定第二文本的待匹配字段,删除待匹配字段中的无效词后对其进行词归一化处理,并将词归一化后的待匹配字段与分词词典中的词进行相似度计算,若计算结果大于预设值,则从报关单文本中分割出所述待匹配字段作为分词,并根据分词校验报关单是否符合规范。由此可见,本发明实施例通过将第一文本中的中文文本和英文文本分割,从而可以针对中文文本和英文文本分别进行校验,避免了中英文混合文本对检测结果造成干扰导致校验准确率较低的问题,同时根据分词词典中最长词的长度确定待匹配字段,并将与最长词长度相同的待匹配字段整体与分词词典进行匹配,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题,而且待匹配字段与分词词典匹配之前,删除待匹配字段中的无效词后对其进行词归一化处理,将表达不规范的待匹配字段转换为规范统一的同义词或近义词,然后与分词词典中的词进行相似度计算,从而能够准确进行分词,进一步准确对报关单进行校验。
基于上述实施例的内容,在本实施例中,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词。
在本实施例中,若分词词典中不存在与待匹配字段相同的词,表示待匹配字段的字段数偏长,以至于分词词典中没有相应的匹配词。因此,为了进一步为待匹配字段匹配到相应的词,如图3所示,在分词词典中不存在与待匹配字段相同的词时,首先判断是否为英文文本,若否,证明待匹配字段为中文文本,删除待匹配字段的最后一个字,缩短待匹配字段的长度,以删除排序最后的字的待匹配字段作为第一字段,将第一字段分别与分词词典中各词进行相似度计算,直至计算结果大于预设值后,将第一字段作为分词。
在本实施例中,需要说明的是,当相似度计算结果大于预设值时,表明第一字段与分词词典中的词相似度较高,即第一字段中存在危化品、濒危动植物等的概率较高,因此将其作为分词,以便作为目标校验字段进行校验。
举例来说,分词词典wordDict={u"计算语言学",u"课程",u"课时"},待匹配字段S1=u"计算语言学课程",由此可见,分词词典中最长词的长度为5,那么确定S1的分词匹配过程如下:
(1)S2="",S1不为空,从S1左边取出候选子串W="计算语言学";
(2)查分词词典,“计算语言学”在分词词典中,将W加入到S2中,S2=“计算语言学/”,并将W从S1中去掉,此时S1="课程";
(3)S1不为空,从S1左边取出候选子串W="课程";
(4)查分词词典,W在词典中,将W加入到S2中,S2=“计算语言学/课程/”,并将W从S1中去掉,此时S1为空,输出S2作为分词结果,分词过程结束。
由此可见,本发明实施例提供的报关单数据匹配方法,当判断待匹配字段为中文文本时,则删除待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将第一字段与分词词典中的词进行相似度计算,直至计算结果大于预设值时将第一字段作为分词,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
基于上述实施例的内容,在本实施例中,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词。
在本实施例中,若分词词典中不存在与待匹配字段相同的词,表示待匹配字段的字段数偏长,以至于分词词典中没有相应的匹配词。因此,为了进一步为待匹配字段匹配到相应的词,如图3所示,在分词词典中不存在与待匹配字段相同的词时,且为英文文本时,由于英文与中文文本不同,英文文本是以空格为标识作为词与词之间的分割,而中文文本则是以一个汉字作为一个词,为了缩短待匹配字段的长度,首先需要将英文文本分割成单个的词,即按空格进行切割,获取若干个英文单词。同时,由于英文单词在语境中会存在不同的状态,例如时态转换(过去时、现在进行时等)、单复数(单数或者复数),为了能够使分割后的待匹配字段准确在分词词典中匹配到相应的词,需要对英文单词进行溯源处理,即将英文单词进行时态转换或者单复数转换,以使其恢复到原始状态,例如分割后的待匹配字段为“I am writing”,其中“writing”为现在进行时,需要将其溯源转换至原始单词“write”,因此转换后的待匹配字段为“I am write”。
在获取转换后的待匹配字段后,删除待匹配字段的最后一个单词,缩短待匹配字段的长度,以删除排序最后的单词的待匹配字段作为第二字段,将第二字段分别与分词词典中各词进行相似度计算,直至计算结果大于预设值,将第二字段作为分词。
在本实施例中,需要说明的是,当相似度计算结果大于预设值时,表明第二字段与分词词典中的词相似度较高,即第二字段中存在危化品、濒危动植物等的概率较高,因此将其作为分词,以便作为目标校验字段进行校验。
由此可见,本发明实施例提供的报关单数据匹配方法,当判断待匹配字段为英文文本时,则对待匹配字段按空格进行切割,获取若干个英文单词,并对英文单词进行时态转换或单复数转换,删除待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将第二字段与分词词典中的词进行相似度计算,直至计算结果大于预设值时将第二字段作为分词,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
基于上述实施例的内容,在本实施例中,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
在本实施例中,为了保证报关单文本分词的精确度,进而提高报关单校验的准确度,需要将文本内容较多的报关单文本分割成若干个文本内容较少的子文本,然后针对各子文本逐一进行分词。即以标点符号分割报关单文本,从而可以获取若干个句子文本。
在本实施例中,需要说明的是,以标点符号分割报关单文本后,会得到若干个句子文本,按照报关单文本的文本顺序选取排序最前的句子文本作为第一文本进行后续分词。
在本实施例中,需要说明的是,由于第一文本是从报关单文本中分割出来的,因此第一文本中也会存在中英文混合的情况,即第一文本包括中文文本和英文文本。为了避免中英文混合文本对分词结果造成的干扰,进而影响校验结果的准确度,本实施例基于正则表达式将第一文本中的中文文本和英文文本分割,从而可以分别针对中文文本和英文文本进行分词及文本校验。其中,在将第一文本中的中文文本和英文文本分割后,分割后的中文文本和英文文本的文本顺序与原始的报关单文本顺序一致,从而在获取分词结果后可以有序按照报关单文本的顺序进行校验,不仅能够提高校验效率,而且避免遗漏校验文本内容,进一步提高报关单校验的准确度。
基于上述实施例的内容,在本实施例中,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
在本实施例中,需要说明的是,若在获取第二文本后,会将第二文本中的每个字段拆分,然后将各字段分别与分词词典进行匹配,效率较低。本实施例采用的方法是根据分词词典中最长词的长度以及第二文本的文本顺序,在第二文本中选取排序最前且与最长词长度相同的文本作为待匹配字段,与分词词典进行匹配,而不需要分别将每个字段与分词词典进行匹配,大幅度提高了效率。此外,分词词典中存储有报关单相关数据的词,例如分词词典中存储有危化品、濒危动植物等敏感词汇,从而可以将报关单文本中的敏感词汇以分词形式分割出来进行校验。
举例来说,分词词典={u"计算语言学",u"课程",u"课时"},第二文本="计算语言学课程",由此可见,分词词典中最长词的长度为5,那么确定待匹配字段为“计算语言学”。
由此可见,本发明实施例提供的报关单数据匹配方法,根据分词词典中最长词的长度,以及第二文本的文本顺序,在第二文本中选取排序最前且与最长词长度相同的文本作为待匹配字段,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
图4是本发明第二个实施例提供的报关单数据匹配装置的结构示意图,如图4所示,本发明第二个实施例提供的报关单数据匹配装置,包括:
第一获取单元410,用于获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元420,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元430,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元440,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元450,用于删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;
校验单元460,用于根据所述分词,校验报关单是否符合规范。
本实施例所述的报关单数据匹配装置可以用于执行上述第一个实施例所述的报关单数据匹配方法,其原理和技术效果类似,此处不再详述。
基于上述实施例的内容,在本实施例中,所述分词单元450,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词。
基于上述实施例的内容,在本实施例中,所述分词单元,还用于:
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词。
图5是本发明第三个实施例提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行报关单数据匹配方法,该方法包括:获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;匹配所述分词是否符合报关单规范。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的报关单数据匹配方法,该方法包括:获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;匹配所述分词是否符合报关单规范。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的报关单数据匹配方法,该方法包括:获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;匹配所述分词是否符合报关单规范。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种报关单数据匹配方法,其特征在于,包括:
获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;
匹配所述分词是否符合报关单规范;
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词;
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
2.根据权利要求1所述的报关单数据匹配方法,其特征在于,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
3.一种报关单数据匹配装置,其特征在于,包括:
第一获取单元,用于获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元,用于删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;
匹配单元,用于匹配所述分词是否符合报关单规范;
所述分词单元,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词
所述分词单元,还用于:
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述报关单数据匹配方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述报关单数据匹配方法的步骤。
CN202011285059.1A 2020-11-17 2020-11-17 报关单数据匹配方法及装置 Active CN112395866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285059.1A CN112395866B (zh) 2020-11-17 2020-11-17 报关单数据匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285059.1A CN112395866B (zh) 2020-11-17 2020-11-17 报关单数据匹配方法及装置

Publications (2)

Publication Number Publication Date
CN112395866A CN112395866A (zh) 2021-02-23
CN112395866B true CN112395866B (zh) 2024-02-02

Family

ID=74600933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285059.1A Active CN112395866B (zh) 2020-11-17 2020-11-17 报关单数据匹配方法及装置

Country Status (1)

Country Link
CN (1) CN112395866B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435194B (zh) * 2021-06-22 2023-07-21 中国平安人寿保险股份有限公司 词汇切分方法、装置、终端设备及存储介质
CN116955538B (zh) * 2023-08-16 2024-03-19 成都医星科技有限公司 医疗字典数据匹配方法及装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN105279141A (zh) * 2015-10-27 2016-01-27 武汉改图网技术有限公司 一种基于模糊匹配算法的印刷品仿制设计方法和系统
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
CN109242662A (zh) * 2018-08-30 2019-01-18 广东源恒软件科技有限公司 一种纳税申报的方法、系统、平台及存储介质
CN110046348A (zh) * 2019-03-19 2019-07-23 西安理工大学 一种基于规则和词典的地铁设计规范中主体识别方法
CN110348975A (zh) * 2019-05-24 2019-10-18 深圳壹账通智能科技有限公司 报关单信息校验方法及装置、电子设备和存储介质
CN111832299A (zh) * 2020-07-17 2020-10-27 成都信息工程大学 一种中文分词系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN105279141A (zh) * 2015-10-27 2016-01-27 武汉改图网技术有限公司 一种基于模糊匹配算法的印刷品仿制设计方法和系统
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
CN109242662A (zh) * 2018-08-30 2019-01-18 广东源恒软件科技有限公司 一种纳税申报的方法、系统、平台及存储介质
CN110046348A (zh) * 2019-03-19 2019-07-23 西安理工大学 一种基于规则和词典的地铁设计规范中主体识别方法
CN110348975A (zh) * 2019-05-24 2019-10-18 深圳壹账通智能科技有限公司 报关单信息校验方法及装置、电子设备和存储介质
CN111832299A (zh) * 2020-07-17 2020-10-27 成都信息工程大学 一种中文分词系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Word2Vec对海关报关商品文本特征较为效果分析;龚丽娟 等;《数据分析与知识发现》;89-100 *

Also Published As

Publication number Publication date
CN112395866A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
KR101146539B1 (ko) 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
JP5356197B2 (ja) 単語意味関係抽出装置
US10741093B2 (en) Automated determination of degree of item similarity in the generation of digitized examinations
US10268676B1 (en) Automated detection of linguistic uniqueness
CN110413961B (zh) 基于分类模型进行文本评分的方法、装置和计算机设备
CN111046142A (zh) 文本审查方法、装置、电子设备及计算机存储介质
US12073181B2 (en) Systems and methods for natural language processing (NLP) model robustness determination
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN112395866B (zh) 报关单数据匹配方法及装置
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN110866390B (zh) 中文语法错误的识别方法、装置、计算机设备和存储介质
CN114943220B (zh) 一种面向科研立项查重的句向量生成方法及查重方法
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN112395865B (zh) 报关单校验方法及装置
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
CN115906817A (zh) 一种跨语言环境的关键字匹配方法、装置及电子设备
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
CN112817996A (zh) 一种违法关键词库的更新方法、装置、设备及存储介质
CN113177402A (zh) 词语替换方法、装置、电子设备和存储介质
CN114444498B (zh) 文本查重方法、装置、电子设备及存储介质
CN115859968B (zh) 一种基于自然语言解析及机器学习的政策颗粒化分析系统
CN112507698B (zh) 字向量生成方法、装置、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant