CN112395865B - 报关单校验方法及装置 - Google Patents
报关单校验方法及装置 Download PDFInfo
- Publication number
- CN112395865B CN112395865B CN202011285048.3A CN202011285048A CN112395865B CN 112395865 B CN112395865 B CN 112395865B CN 202011285048 A CN202011285048 A CN 202011285048A CN 112395865 B CN112395865 B CN 112395865B
- Authority
- CN
- China
- Prior art keywords
- text
- field
- word
- matched
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 200
- 238000012795 verification Methods 0.000 claims abstract description 49
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 description 14
- 241001465754 Metazoa Species 0.000 description 12
- 238000001514 detection method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种报关单校验方法及装置,所述方法包括:基于预设规则分割报关单文本获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度确定第二文本的待匹配字段,将待匹配字段与分词词典进行匹配,若分词词典中存在与待匹配字段相同的词,则从报关单文本中分割出待匹配字段作为分词,并根据分词校验报关单是否符合规范。本发明实施例可以针对中文文本和英文文本分别进行校验,同时根据分词词典中最长词的长度确定待匹配字段,提高了校验效率和准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种报关单校验方法及装置。
背景技术
随着经济的快速发展以及进出口贸易量的增长,越来越多的人们通过多种渠道进行跨境海外购,海关需要将这些跨境业务进行审核以便使其通关。
在通关业务处理中,海关方获取到通关人员提交的报关单后,需要检测报关单中是否包含危化品、是否包含濒危动植物等,但由于报关单数据不规范统一,现有的业务操作一般是根据人工经验进行报关单数据的判断,影响检测结果的准确性以及操作效率。
发明内容
针对现有技术存在的问题,本发明实施例提供一种报关单校验方法及装置。
具体地,本发明实施例提供了如下技术方案:
第一方面,本发明实施例提供一种报关单校验方法,包括:
获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
根据所述分词,校验报关单是否符合规范。
进一步地,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
进一步地,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词。
进一步地,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
进一步地,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
第二方面,本发明实施例提供一种报关单校验装置,包括:
第一获取单元,用于获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元,用于将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
校验单元,用于根据所述分词,校验报关单是否符合规范。
进一步地,所述分词单元,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
进一步地,所述分词单元,还用于:
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述报关单校验方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述报关单校验方法的步骤。
本发明实施例提供的报关单校验方法及装置,通过获取待进行校验的报关单文本,基于预设规则分割报关单文本,获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度,确定第二文本的待匹配字段,将待匹配字段与分词词典进行匹配,若分词词典中存在与待匹配字段相同的词,则从报关单文本中分割出待匹配字段作为分词,并根据分词校验报关单是否符合规范。由此可见,本发明实施例通过将第一文本中的中文文本和英文文本分割,从而可以针对中文文本和英文文本分别进行校验,避免了中英文混合文本对检测结果造成干扰导致校验准确率较低的问题,同时根据分词词典中最长词的长度确定待匹配字段,并将与最长词长度相同的待匹配字段整体与分词词典进行匹配,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一个实施例提供的报关单校验方法的流程示意图;
图2是本发明一实施例提供的报关单文本分词流程示意图;
图3是本发明第二个实施例提供的报关单校验装置的结构示意图;
图4是本发明第三个实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在通关业务处理中,海关方获取到通关人员提交的报关单后,需要检测报关单中是否包含危化品、是否包含濒危动植物等。若采用常规模糊匹配算法或ik分词器检测报关单中是否包含危化品、是否包含濒危动植物等,但中英文混合文本会对检测结果造成干扰,影响检测结果的准确性,而且检测效率较低。
例如,对于中英文混合文本“ik分词器”,在使用常规模糊匹配算法或ik分词器时,得到的分词结果为[i/k/分词器],而我们想要的分词结果是[ik/分词器]。由此可见,常规模糊匹配算法或ik分词器无法准确对中英文混合文本进行分词,从而影响报关单校验的准确性。此外,上述方法需要将待匹配字段拆分成词,将每个词与分词词典进行匹配,如待匹配字段“分词器”,采用上述方法的方案为,将其拆分为[分、词、器、分词、词器、分词器]6个词,分别于分词词典进行匹配,效率较低。
图1是本发明第一个实施例提供的报关单校验方法的流程示意图,如图1所示,本发明第一个实施例提供的报关单校验方法,包括如下步骤:
步骤110、获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本。
在本步骤中,在通关业务处理中,海关方会获取通关人员提交的报关单文本,而报关单文本中可能会包含危化品、濒危动植物等,从而报关单文本中可能会涉及到中英文混合文本(如危化品会涉及化学表达式),即包括中文文本和英文文本。需要说明的是,报关单文本可以包括中文文本,也可以包括英文文本,还可以包括中文文本+英文文本,本实施例对此不作具体限定。
步骤120、基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割。
在本步骤中,为了保证报关单文本分词的精确度,进而提高报关单校验的准确度,需要将文本内容较多的报关单文本分割成若干个文本内容较少的子文本,然后针对各子文本逐一进行分词。例如,可以按照标点符号对报关单文本进行分割,也可以按照段落对报关单文本进行分割,本实施例对此不作具体限定。
在本步骤中,需要说明的是,按照预设规则分割完报关单文本后,会得到若干个子文本,按照报关单文本的文本顺序选取子文本依次进行分词。例如,报关单文本按照预设规则划分为句子1、句子2和句子3共三个子文本,三个子文本按照文本内容从前到后的排序为句子1,句子2,句子3,首先选取句子1作为第一文本,待句子1完成分词操作后,选取句子2作为第一文本并按照句子1的分词步骤进行分词,同理,在句子2完成分词后,对句子3进行分词操作。
在本步骤中,需要说明的是,由于第一文本是从报关单文本中分割出来的,因此第一文本中也会存在中英文混合的情况,即第一文本包括中文文本和英文文本。为了避免中英文混合文本对分词结果造成的干扰,进而影响校验结果的准确度,本实施例将第一文本中的中文文本和英文文本分割,从而可以分别针对中文文本和英文文本进行分词及文本校验。其中,在将第一文本中的中文文本和英文文本分割后,分割后的中文文本和英文文本的文本顺序与原始的报关单文本顺序一致,从而在获取分词结果后可以有序按照报关单文本的顺序进行校验,不仅能够提高校验效率,而且避免遗漏校验文本内容,进一步提高报关单校验的准确度。
步骤130、基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本。
在本步骤中,需要说明的是,将第一文本的中文文本和英文文本分割后,会获取若干个中文子文本和若干个英文子文本,且各中文子文本和各英文子文本是按照原始报关单文本的顺序排列的,例如,第一文本分割后的子文本按照文本从前到后的顺序为:中文子文本1、英文子文本1、英文子文本2、中文子文本2。那么,按照第一文本的文本顺序,首先选取中文子文本1作为第二文本与分词词典进行匹配,待中文子文本1完成分词后,再将英文子文本1作为第二文本与分词词典进行匹配,以此类推,后续依次对英文子文本2和中文子文本2进行分词。由此可见,本实施例通过按照第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本,从而在获取分词结果后可以有序按照报关单文本的顺序进行校验,不仅能够提高校验效率,而且避免遗漏校验文本内容,进一步提高报关单校验的准确度。
步骤140、根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词。
在本步骤中,需要说明的是,若在获取第二文本后,会将第二文本中的每个字段拆分,然后将各字段分别与分词词典进行匹配,例如,第二文本为“计算机课程”,若将第二文本拆分为[计、算、机、课、程、计算、算机、机课、课程、计算机、算机课、机课程、计算机课、算机课程、计算机课程]15个字段分别与分词词典进行匹配,造成效率较低。本实施例采用的方法是根据分词词典中最长词的长度,确定第二文本的待匹配字段,例如,第二文本为“计算机课程”,而分词词典中最长词的长度为3,则本实施例会将第二文本分为[计算机、课程]2个字段,并将“计算机”作为待匹配字段,与分词词典进行匹配,而不需要分别将15个字段与分词词典进行匹配,大幅度提高了效率。此外,分词词典中存储有报关单相关数据的词,例如分词词典中存储有危化品、濒危动植物等敏感词汇,从而可以将报关单文本中的敏感词汇以分词形式分割出来进行校验。
步骤150、将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词。
在本步骤中,需要说明的是,分词词典中存储有报关单相关数据的词,例如分词词典中存储有危化品、濒危动植物等敏感词汇,从而可以将报关单文本中的敏感词汇以分词形式分割出来进行校验,若分词词典中存在与待匹配字段相同的词,则表明待匹配字段包含有危化品、濒危动植物等敏感词汇,需要从报关单文本中分割出来对其进行校验。
步骤160、根据所述分词,校验报关单是否符合规范。
在本步骤中,由于分词词典中存储有危化品、濒危动植物等敏感词汇,因此待匹配字段与分词词典匹配后得到的分词即为目标校验字段(即可以理解为该分词中存在危化品、濒危动植物等的概率较高),需要对其进行校验,确认是否符合规范。由此可见,本实施例通过对校验报关单进行分词,准确提取出需要校验的目标校验字段,而不需要海关人员针对报关单文本逐一审核校验,减轻了海关人员的工作量,提高了校验效率。
本发明实施例提供的报关单校验方法,通过获取待进行校验的报关单文本,基于预设规则分割报关单文本,获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度,确定第二文本的待匹配字段,将待匹配字段与分词词典进行匹配,若分词词典中存在与待匹配字段相同的词,则从报关单文本中分割出待匹配字段作为分词,并根据分词校验报关单是否符合规范。由此可见,本发明实施例通过将第一文本中的中文文本和英文文本分割,从而可以针对中文文本和英文文本分别进行校验,避免了中英文混合文本对检测结果造成干扰导致校验准确率较低的问题,同时根据分词词典中最长词的长度确定待匹配字段,并将与最长词长度相同的待匹配字段整体与分词词典进行匹配,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
基于上述实施例的内容,在本实施例中,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
在本实施例中,若分词词典中不存在与待匹配字段相同的词,表示待匹配字段的字段数偏长,以至于分词词典中没有相应的匹配词。因此,为了进一步为待匹配字段匹配到相应的词,如图2所示,在分词词典中不存在与待匹配字段相同的词时,首先判断是否为英文文本,若否,证明待匹配字段为中文文本,删除待匹配字段的最后一个字,缩短待匹配字段的长度,以删除排序最后的字的待匹配字段作为第一字段,将第一字段分别与分词词典中各词进行匹配,直至分词词典中存在与第一字段相同的词时,表明第一字段中存在危化品、濒危动植物等,因此将第一字段作为分词,以便作为目标校验字段进行校验。
举例来说,分词词典wordDict={u"计算语言学",u"课程",u"课时"},待匹配字段S1=u"计算语言学课程",由此可见,分词词典中最长词的长度为5,那么确定S1的分词匹配过程如下:
(1)S2="",S1不为空,从S1左边取出候选子串W="计算语言学";
(2)查分词词典,“计算语言学”在分词词典中,将W加入到S2中,S2=“计算语言学/”,并将W从S1中去掉,此时S1="课程";
(3)S1不为空,从S1左边取出候选子串W="课程";
(4)查分词词典,W在词典中,将W加入到S2中,S2=“计算语言学/课程/”,并将W从S1中去掉,此时S1为空,输出S2作为分词结果,分词过程结束。
由此可见,本发明实施例提供的报关单校验方法,当判断待匹配字段为中文文本时,则删除待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将第一字段与分词词典中的词进行匹配,直至分词词典中存在与第一字段相同的词时将第一字段作为分词,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
基于上述实施例的内容,在本实施例中,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词。
在本实施例中,若分词词典中不存在与待匹配字段相同的词,表示待匹配字段的字段数偏长,以至于分词词典中没有相应的匹配词。因此,为了进一步为待匹配字段匹配到相应的词,如图3所示,在分词词典中不存在与待匹配字段相同的词时,且为英文文本时,由于英文与中文文本不同,英文文本是以空格为标识作为词与词之间的分割,而中文文本则是以一个汉字作为一个词,为了缩短待匹配字段的长度,首先需要将英文文本分割成单个的词,即按空格进行切割,获取若干个英文单词。同时,由于英文单词在语境中会存在不同的状态,例如时态转换(过去时、现在进行时等)、单复数(单数或者复数),为了能够使分割后的待匹配字段准确在分词词典中匹配到相应的词,需要对英文单词进行溯源处理,即将英文单词进行时态转换或者单复数转换,以使其恢复到原始状态,例如分割后的待匹配字段为“I amwriting”,其中“writing”为现在进行时,需要将其溯源转换至原始单词“write”,因此转换后的待匹配字段为“I am write”。
在获取转换后的待匹配字段后,删除待匹配字段的最后一个单词,缩短待匹配字段的长度,以删除排序最后的单词的待匹配字段作为第二字段,将第二字段分别与分词词典中各词进行匹配,直至分词词典中存在与第二字段相同的词时,表明第二字段中存在危化品、濒危动植物等,因此将第二字段作为分词,以便作为目标校验字段进行校验。
由此可见,本发明实施例提供的报关单校验方法,当判断待匹配字段为英文文本时,则对待匹配字段按空格进行切割,获取若干个英文单词,并对英文单词进行时态转换或单复数转换,删除待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将第二字段与分词词典中的词进行匹配,直至分词词典中存在与第二字段相同的词时将第二字段作为分词,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
基于上述实施例的内容,在本实施例中,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
在本实施例中,为了保证报关单文本分词的精确度,进而提高报关单校验的准确度,需要将文本内容较多的报关单文本分割成若干个文本内容较少的子文本,然后针对各子文本逐一进行分词。即以标点符号分割报关单文本,从而可以获取若干个句子文本。
在本实施例中,需要说明的是,以标点符号分割报关单文本后,会得到若干个句子文本,按照报关单文本的文本顺序选取排序最前的句子文本作为第一文本进行后续分词。
在本实施例中,需要说明的是,由于第一文本是从报关单文本中分割出来的,因此第一文本中也会存在中英文混合的情况,即第一文本包括中文文本和英文文本。为了避免中英文混合文本对分词结果造成的干扰,进而影响校验结果的准确度,本实施例基于正则表达式将第一文本中的中文文本和英文文本分割,从而可以分别针对中文文本和英文文本进行分词及文本校验。其中,在将第一文本中的中文文本和英文文本分割后,分割后的中文文本和英文文本的文本顺序与原始的报关单文本顺序一致,从而在获取分词结果后可以有序按照报关单文本的顺序进行校验,不仅能够提高校验效率,而且避免遗漏校验文本内容,进一步提高报关单校验的准确度。
基于上述实施例的内容,在本实施例中,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
在本实施例中,需要说明的是,若在获取第二文本后,会将第二文本中的每个字段拆分,然后将各字段分别与分词词典进行匹配,效率较低。本实施例采用的方法是根据分词词典中最长词的长度以及第二文本的文本顺序,在第二文本中选取排序最前且与最长词长度相同的文本作为待匹配字段,与分词词典进行匹配,而不需要分别将每个字段与分词词典进行匹配,大幅度提高了效率。此外,分词词典中存储有报关单相关数据的词,例如分词词典中存储有危化品、濒危动植物等敏感词汇,从而可以将报关单文本中的敏感词汇以分词形式分割出来进行校验。
举例来说,分词词典={u"计算语言学",u"课程",u"课时"},第二文本="计算语言学课程",由此可见,分词词典中最长词的长度为5,那么确定待匹配字段为“计算语言学”。
由此可见,本发明实施例提供的报关单校验方法,根据分词词典中最长词的长度,以及第二文本的文本顺序,在第二文本中选取排序最前且与最长词长度相同的文本作为待匹配字段,避免将待匹配字段拆分成词后,将每个词分别与分词词典进行匹配造成效率较低的问题。
图3是本发明第二个实施例提供的报关单校验装置的结构示意图,如图3所示,本发明第二个实施例提供的报关单校验装置,包括:
第一获取单元310,用于获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元320,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元330,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元340,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元350,用于将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
校验单元360,用于根据所述分词,校验报关单是否符合规范。
本实施例所述的报关单校验装置可以用于执行上述第一个实施例所述的报关单校验方法,其原理和技术效果类似,此处不再详述。
基于上述实施例的内容,在本实施例中,所述分词单元350,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词。
基于上述实施例的内容,在本实施例中,所述分词单元350,还用于:
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词。
图4是本发明第三个实施例提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行报关单校验方法,该方法包括:获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;根据所述分词,校验报关单是否符合规范。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的报关单校验方法,该方法包括:获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;根据所述分词,校验报关单是否符合规范。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的报关单校验方法,该方法包括:获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;根据所述分词,校验报关单是否符合规范。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种报关单校验方法,其特征在于,包括:
获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
根据所述分词,校验报关单是否符合规范;
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词;
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
2.根据权利要求1所述的报关单校验方法,其特征在于,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
根据分词词典中最长词的长度,以及所述第二文本的文本顺序,在所述第二文本中选取排序最前且与所述最长词长度相同的文本作为待匹配字段。
3.一种报关单校验装置,其特征在于,包括:
第一获取单元,用于获取待进行校验的报关单文本,所述报关单文本包括中文文本和英文文本;
分割单元,用于基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
第二获取单元,用于基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
第三获取单元,用于根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
分词单元,用于将所述待匹配字段与所述分词词典进行匹配,若所述分词词典中存在与所述待匹配字段相同的词,则从所述报关单文本中分割出所述待匹配字段作为分词;
校验单元,用于根据所述分词,校验报关单是否符合规范;
所述分词单元,还用于:
若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第一字段相同的词时,将所述第一字段作为分词;
所述分词单元,还用于:
若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典进行匹配,直至所述分词词典中存在与所述第二字段相同的词时,将所述第二字段作为分词;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述报关单校验方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述报关单校验方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011285048.3A CN112395865B (zh) | 2020-11-17 | 2020-11-17 | 报关单校验方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011285048.3A CN112395865B (zh) | 2020-11-17 | 2020-11-17 | 报关单校验方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395865A CN112395865A (zh) | 2021-02-23 |
CN112395865B true CN112395865B (zh) | 2024-01-02 |
Family
ID=74600919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011285048.3A Active CN112395865B (zh) | 2020-11-17 | 2020-11-17 | 报关单校验方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395865B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012897A (zh) * | 2010-12-02 | 2011-04-13 | 无敌科技(西安)有限公司 | 一种实现高命中率的逐词比对方法 |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN102999534A (zh) * | 2011-09-19 | 2013-03-27 | 北京金和软件股份有限公司 | 一种基于逆向最大匹配的中文分词算法 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN108536667A (zh) * | 2017-03-06 | 2018-09-14 | 中国移动通信集团广东有限公司 | 中文文本识别方法及装置 |
CN110046348A (zh) * | 2019-03-19 | 2019-07-23 | 西安理工大学 | 一种基于规则和词典的地铁设计规范中主体识别方法 |
CN110287300A (zh) * | 2019-06-27 | 2019-09-27 | 谷晓佳 | 中英文相关词汇获取方法及装置 |
CN110348975A (zh) * | 2019-05-24 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 报关单信息校验方法及装置、电子设备和存储介质 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
-
2020
- 2020-11-17 CN CN202011285048.3A patent/CN112395865B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012897A (zh) * | 2010-12-02 | 2011-04-13 | 无敌科技(西安)有限公司 | 一种实现高命中率的逐词比对方法 |
CN102999534A (zh) * | 2011-09-19 | 2013-03-27 | 北京金和软件股份有限公司 | 一种基于逆向最大匹配的中文分词算法 |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN108536667A (zh) * | 2017-03-06 | 2018-09-14 | 中国移动通信集团广东有限公司 | 中文文本识别方法及装置 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN110046348A (zh) * | 2019-03-19 | 2019-07-23 | 西安理工大学 | 一种基于规则和词典的地铁设计规范中主体识别方法 |
CN110348975A (zh) * | 2019-05-24 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 报关单信息校验方法及装置、电子设备和存储介质 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN110287300A (zh) * | 2019-06-27 | 2019-09-27 | 谷晓佳 | 中英文相关词汇获取方法及装置 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112395865A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417350B1 (en) | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
US10665122B1 (en) | Application of semantic vectors in automated scoring of examination responses | |
US10741093B2 (en) | Automated determination of degree of item similarity in the generation of digitized examinations | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN112926327B (zh) | 一种实体识别方法、装置、设备及存储介质 | |
US9754083B2 (en) | Automatic creation of clinical study reports | |
CN111459964B (zh) | 一种面向模板基于Word2vec的日志异常检测方法及装置 | |
US11669687B1 (en) | Systems and methods for natural language processing (NLP) model robustness determination | |
CN111435410B (zh) | 用于医疗文本的关系抽取方法及其装置 | |
CN112395866B (zh) | 报关单数据匹配方法及装置 | |
CN114861635B (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
CN111191469B (zh) | 大规模语料清洗对齐方法及装置 | |
JP2019212115A (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN110209929B (zh) | 一种简历推荐方法、装置、计算机设备及存储介质 | |
GB2513348A (en) | Translation validation | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
CN112395865B (zh) | 报关单校验方法及装置 | |
WO2023088278A1 (zh) | 用于验证表述的真实性的方法、设备、装置和介质 | |
WO2021160822A1 (en) | A method for linking a cve with at least one synthetic cpe | |
CN112817996A (zh) | 一种违法关键词库的更新方法、装置、设备及存储介质 | |
CN112966268A (zh) | 基于神经网络模型和哈希匹配的sql检测方法及系统 | |
CN112559474A (zh) | 日志处理方法和装置 | |
CN116361517B (zh) | 一种企业字号查重方法、装置、设备和介质 | |
CN110866390B (zh) | 中文语法错误的识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |