CN111931508B - 数字转换方法及系统、文本处理方法及系统、设备和介质 - Google Patents

数字转换方法及系统、文本处理方法及系统、设备和介质 Download PDF

Info

Publication number
CN111931508B
CN111931508B CN202010855978.1A CN202010855978A CN111931508B CN 111931508 B CN111931508 B CN 111931508B CN 202010855978 A CN202010855978 A CN 202010855978A CN 111931508 B CN111931508 B CN 111931508B
Authority
CN
China
Prior art keywords
clause
conversion
input text
type keyword
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010855978.1A
Other languages
English (en)
Other versions
CN111931508A (zh
Inventor
陈辰
江文斌
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhilv Information Technology Co ltd
Original Assignee
Shanghai Zhilv Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhilv Information Technology Co ltd filed Critical Shanghai Zhilv Information Technology Co ltd
Priority to CN202010855978.1A priority Critical patent/CN111931508B/zh
Publication of CN111931508A publication Critical patent/CN111931508A/zh
Application granted granted Critical
Publication of CN111931508B publication Critical patent/CN111931508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种数字转换方法及系统、文本处理方法及系统、设备和介质,包括:S11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤S13;S12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换;S13、结束转换,输出目标文本。本发明转换后的文本包含阿拉伯数字,清晰且没有歧义,能够使人一眼抓住重点,提高文本处理效率,也便于机器进行抓取,进行后的续处理和使用。

Description

数字转换方法及系统、文本处理方法及系统、设备和介质
技术领域
本发明涉及文本处理领域,特别涉及一种数字转换方法及系统、文本处理方法及系统、设备和介质。
背景技术
语音转录文本是通过语音识别系统对通话录音进行解码后得到,解码的结果由语音识别系统的字典决定。常规的语音转录文本与录音的发音一一对应,通常情况下不会将中文数字转换成阿拉伯数字。常规的语音转录文本不符合正常的阅读习惯。由于通话录音的内容是口语化与生活化的,利用现有的中文数字转换成阿拉伯数字的文本处理技术,对语音转录文本中的中文数字进行无差别地转换,会出现转换的数字重复、有歧义等情况,不利于后续的处理和使用。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音转录文本不符合正常的阅读习惯,将语音转录文本的中文数字转换成阿拉伯数字后会出现数字重复、有歧义的缺陷,提供一种数字转换方法及系统、文本处理方法及系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
一种数字转换方法,包括:
S11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤S13;
S12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。
S13、结束转换,输出目标文本。
较佳地,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
较佳地,在步骤S11之前,所述数字转换方法还包括:
S10、判断所述输入文本是否含有中文数字。
一种文本处理方法,包括:
S21、获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换方法对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,执行步骤S22;
S22、对所述输入文本串的每个所述子句设立转换标志位;
S23、当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
S24、依据转换标志位,利用上述各项任意组合的所述数字转换方法对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。
较佳地,通过以下步骤实现步骤S22:
当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;
当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。
一种数字转换系统,包括:
排除模块,用于构建第一类关键词字典,当输入文本包含所述第一类关键词,则不调用转换模块;
转换模块,用于构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换;
输出模块,用于结束转换,输出目标文本。
较佳地,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
较佳地,所述数字转换系统还包括:
判断模块,用于在调用排除模块前,判断所述输入文本是否含有中文数字。
一种文本处理系统,包括:
单句转换模块,用于获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换系统对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,调用转换标志位设立模块;
转换标志位设立模块,用于对所述输入文本串的每个所述子句设立转换标志位;
转换标志位调整模块,用于当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
文本转换模块,用于依据转换标志位,利用上述各项任意组合的所述数字转换系统对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。
较佳地,所述转换标志位设立模块包括:
连接位设立单元,用于当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;
转换标志位设立单元,用于当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述各项任意组合的数字转换方法或文本转换方法。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述各项任意组合的数字转换方法或文本转换方法。
本发明的积极进步效果在于:本发明克服现有技术中语音转录文本不符合正常的阅读习惯,将语音转录文本的数字转换成阿拉伯数字后会出现数字重复、有歧义的缺陷,转换后的文本包含阿拉伯数字,清晰且没有歧义,能够使人一眼抓住重点,提高文本处理效率,也便于机器进行抓取,进行后的续处理和使用。
附图说明
图1为本发明实施例1的数字转换方法的流程图。
图2为本发明实施例1的数字转换方法的另一个流程图。
图3为本发明实施例2的文本处理方法的流程图。
图4为本发明实施例3的数字转换系统的结构框图。
图5为本发明实施例3的数字转换系统的另一个结构框图。
图6为本发明实施例4的文本处理系统的结构框图。
图7为本发明实施例4的转换标志位设立模块的结构框图。
图8为本发明实施例5的电子设备的硬件结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种数字转换方法。参照图1,该数字转换方法包括:
S11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤S13;
S12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。
S13、结束转换,输出目标文本。
较佳地,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
语音转录文本存在具有实际的意义的连续数字,如“订单价格就是一千一千五百块钱”,转换后“订单价格就是10001500块钱”会引起歧义,则不进行转换。
部分含有数字的地名,如“三亚”,“九寨沟”等不进行转换。
含有数字的固定搭配,如“一个”、“一样”等不进行转换。
只包含单个数字的日常用语,如“总共三张订单”、“两个人”等不进行转换。
对大量原始语音转录文本,分析和统计其中中文数字前后的主要字段,筛选能够明确将中文字符转换为阿拉伯字符的标志字词,并结合人工经验,构建三类关键词字典。设立滑动窗口,自左向右或自右向左地查找输入文本中包含的关键词,作为转换依据。依据输入文本包含的关键词,用相应的转换方式对中文数字进行符合转换场景地转换。
输入文本包含第二类关键词,用数字串直接转换的转换方式对中文数字进行转换。第二类关键词包括“电话”,“手机”,“号码”,“号”,“尾号”,“来电”,“订单”,“年”,“弄”,“室”,“单元”等。例如,“二零二零年”转换为“2020年”。
输入文本包含第三类关键词,用数值转换的转换方式对中文数字进行转换。第三类关键词包括“周”,“天”,“块”,“个”,“人”,“位”,“岁”,“度”,“元”,“美元”,“港元”,“泰铢”,“欧”,“分”,“秒”,“多”,“号”,“吋”,“寸”,“左右”,“公里”,“摄氏”,“公斤”,“克”,“厘米”,“米”,“公分”,“小时”,“加”,“减”,“乘”,“乘以”,“除”,“除以”,“月”,“点”,“双”,“满”,“共”,“费”,“款”,“损失”,“退”,“补”,“押金”,“贵”,“付”,“优惠”,“价格”,“赔”,“违约金”,“扣”,“价”,“便宜”,“钱”,“块钱”,“块”,“券”等。例如,“一千两百三十四”转换为“1234”。
较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
较佳地,参照图2,在步骤S11之前,所述数字转换方法还包括:
S10、判断所述输入文本是否含有中文数字。
利用数字判断函数判断输入文本中是否含有需处理的中文数字,如果有,执行步骤S11。
实施例2
本实施例提供一种文本处理方法。参照图3,该文本处理方法,包括:
S21、获取输入文本串中子句的数量,当所述子句的数量为1,利用单文本数字转换方法对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,执行步骤S22;
S22、对所述输入文本串的每个所述子句设立转换标志位;
S23、当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
S24、依据转换标志位,利用单文本数字转换方法对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。
所述单文本数字转换方法是实施例1中的数字转换方法。
例如,所述输入文本串为:
‘客人电话号码是幺三五八三九三’
‘四六七六’
‘就是改到九月六号当天早上九点钟出发的国航这一般没问题。’
‘哎,好的,那我给你刷一下,看这边有没有收款成功啊,稍等一会。’
第一步,获取输入文本串中子句的数量,当所述子句的数量大于1,执行下一步骤。
较佳地,通过以下步骤实现步骤S22:
当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;
当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。
第二步,第1子句无标点,设立连接位为1;不以数字开始设立转换标志位为1;
第2子句无标点,设立连接位1;上一子句以数字结束,该子句以数字开始,则不转换,设转换标志位为0;
第3子句有标点,连接位为0,且不以数字开始,设立转换标志位为1;
第4子句有标点,连接位为0,且不以数字开始,设立转换标志位为1。
第三步,当一个子句包含所述第一类关键词,且转换标志位为1,则调整转换标志位为0。子句不包含所述第一类关键词或转换标志位为0,不需要调整转换标志位。
第1子句不包含所述第一类关键词,不调整转换标志位;
第2子句不包含所述第一类关键词,不调整转换标志位;
第3子句不包含所述第一类关键词,不调整转换标志位;
第4子句不包含所述第一类关键词,不调整转换标志位;
第1子句的连接位为1,与第2子句有连接关系,第2子句转换标志位为0,则调整第1子句的转换标志位为0,并向前遍历。
第四步,对转换标志位为1的子句按照单文本转换流程进行转换,输出经过转换的目标文本串:
‘客人电话号码是幺三五八三九三’
‘四六七六’
‘就是改到9月6号当天早上9:00出发的国航这一般没问题。’
‘哎,好的,那我给你刷一下,看这边有没有收款成功啊,稍等一会。’
实施例3
本实施例提供一种数字转换系统,参照图4,该数字转换系统包括:
排除模块11,用于构建第一类关键词字典,当输入文本包含所述第一类关键词,则不调用转换模块;
转换模块12,用于构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。
输出模块13,用于结束转换,输出目标文本。
较佳地,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
较佳地,参照图5,所述数字转换系统还包括:
判断模块10,用于在调用排除模块前,判断所述输入文本是否含有中文数字。
实施例4
本实施例提供一种文本处理系统,参照图6,该文本处理系统包括:
单句转换模块21,用于获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换系统对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,调用转换标志位设立模块;
转换标志位设立模块22,用于对所述输入文本串的每个所述子句设立转换标志位;
转换标志位调整模块23,用于当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
文本转换模块24,用于依据转换标志位,利用上述各项任意组合的所述数字转换系统对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。
较佳地,参照图7,所述转换标志位设立模块包括:
连接位设立单元,用于当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;
转换标志位设立单元,用于当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。
实施例5
图8为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的数字转换方法或实施例2的文本处理方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型训练方法或实施例2的垃圾邮件识别方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的数字转换方法或实施例2的文本处理方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的数字转换方法或实施例2的文本处理方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种文本处理方法,其特征在于,所述文本处理方法包括:
S21、获取输入文本串中子句的数量,当所述子句的数量为1,利用数字转换方法对所述输入文本串进行转换,并输出经过转换的目标文本串;
其中,所述数字转换方法包括:
S11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤S13;
S12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换;
S13、结束转换,输出目标文本;
当所述子句的数量大于1,执行步骤S22;
S22、对所述输入文本串的每个所述子句设立转换标志位;
通过以下步骤实现步骤S22:
当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;
当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1;
S23、当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
S24、依据转换标志位,利用数字转换方法对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。
2.如权利要求1所述的数字转换方法,其特征在于,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
3.如权利要求1所述的数字转换方法,其特征在于,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
4.如权利要求1所述的数字转换方法,其特征在于,在步骤S11之前,所述数字转换方法还包括:
S10、判断所述输入文本是否含有中文数字。
5.一种文本处理系统,其特征在于,所述文本处理系统包括:
单句转换模块,用于获取输入文本串中子句的数量,当所述子句的数量为1,利用数字转换系统对所述输入文本串进行转换,并输出经过转换的目标文本串;
其中,所述数字转换系统包括:
排除模块,用于构建第一类关键词字典,当输入文本包含所述第一类关键词,则不调用转换模块;
转换模块,用于构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换;
输出模块,用于结束转换,输出目标文本;
当所述子句的数量大于1,调用转换标志位设立模块;
转换标志位设立模块,用于对所述输入文本串的每个所述子句设立转换标志位;
转换标志位调整模块,用于当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
文本转换模块,用于依据转换标志位,利用所述数字转换系统对所述输入文本串的子句进行转换,并输出经过转换的目标文本串;
所述转换标志位设立模块包括:
连接位设立单元,用于当所述子句的末尾是标点,所述子句的连接位设为0,当所述子句的末尾不是标点,所述子句的连接位设为1;
转换标志位设立单元,用于当所述子句以数字开始且前一子句以数字结束,所述子句的转换标志位设为0,当所述子句不以数字开始或前一子句不以数字结束,所述子句的转换标志位设为1。
6.如权利要求5所述的文本处理系统,其特征在于,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
7.如权利要求5所述的文本处理系统,其特征在于,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
8.如权利要求5所述的文本处理系统,其特征在于,所述数字转换系统还包括:
判断模块,用于在调用排除模块前,判断所述输入文本是否含有中文数字。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的文本处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的文本处理方法。
CN202010855978.1A 2020-08-24 2020-08-24 数字转换方法及系统、文本处理方法及系统、设备和介质 Active CN111931508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010855978.1A CN111931508B (zh) 2020-08-24 2020-08-24 数字转换方法及系统、文本处理方法及系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010855978.1A CN111931508B (zh) 2020-08-24 2020-08-24 数字转换方法及系统、文本处理方法及系统、设备和介质

Publications (2)

Publication Number Publication Date
CN111931508A CN111931508A (zh) 2020-11-13
CN111931508B true CN111931508B (zh) 2023-05-12

Family

ID=73305996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010855978.1A Active CN111931508B (zh) 2020-08-24 2020-08-24 数字转换方法及系统、文本处理方法及系统、设备和介质

Country Status (1)

Country Link
CN (1) CN111931508B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435159A (zh) * 2021-06-16 2021-09-24 北京捷通华声科技股份有限公司 数字转换方法、装置、电子设备及可读存储介质
CN114330243A (zh) * 2021-12-31 2022-04-12 北京执象科技发展有限公司 口算结果识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436179A (zh) * 2007-11-13 2009-05-20 刘树根 文本转换方法及装置
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN103679218A (zh) * 2013-11-19 2014-03-26 华东师范大学 一种手写体关键词检测方法
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN107861949A (zh) * 2017-11-22 2018-03-30 珠海市君天电子科技有限公司 文本关键词的提取方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566088B2 (en) * 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
CN109558599B (zh) * 2018-11-07 2023-04-18 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109801630B (zh) * 2018-12-12 2024-05-28 平安科技(深圳)有限公司 语音识别的数字转换方法、装置、计算机设备和存储介质
CN110232923B (zh) * 2019-05-09 2021-05-11 海信视像科技股份有限公司 一种语音控制指令生成方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436179A (zh) * 2007-11-13 2009-05-20 刘树根 文本转换方法及装置
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN103679218A (zh) * 2013-11-19 2014-03-26 华东师范大学 一种手写体关键词检测方法
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN107861949A (zh) * 2017-11-22 2018-03-30 珠海市君天电子科技有限公司 文本关键词的提取方法、装置及电子设备

Also Published As

Publication number Publication date
CN111931508A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
US20130262106A1 (en) Method and system for automatic domain adaptation in speech recognition applications
CN111931508B (zh) 数字转换方法及系统、文本处理方法及系统、设备和介质
JP2001519043A (ja) コンテキスト・フリー・グラマーを使用するテキスト正規化
CN111951779B (zh) 语音合成的前端处理方法及相关设备
CN112652291A (zh) 基于神经网络的语音合成方法、系统、设备及存储介质
CN1901041B (zh) 语音字典形成方法、语音识别系统及其方法
CN109299471A (zh) 一种文本匹配的方法、装置及终端
CN111967260A (zh) 多音字处理方法及装置、模型训练方法及装置
CN102541837A (zh) 一种校正输入中文拼写的方法
Elovitz et al. Automatic translation of English text to phonetics by means of letter-to-sound rules
CN101441626A (zh) 一种多媒体检索系统及其检索方法
Kim et al. Morpheme-based grapheme to phoneme conversion using phonetic patterns and morphophonemic connectivity information
Hatmi et al. Named Entity Recognition in Speech Transcripts following an Extended Taxonomy.
CN1127898A (zh) 智慧型国语语音输入方法及国语听写机
Spiegel Proper name pronunciations for speech technology applications
CN114492418A (zh) 文本转换方法及相关装置
CN115331675A (zh) 一种处理用户语音的方法及装置
CN114548049A (zh) 一种数字正则化方法、装置、设备及存储介质
US11735169B2 (en) Speech recognition and training for data inputs
Lata et al. Development of Linguistic Resources and Tools for Providing Multilingual Solutions in Indian Languages-A Report on National Initiative.
CN113362801A (zh) 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质
Cailliau et al. Enhanced search and navigation on conversational speech
JP2005208483A (ja) 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置
CN107562220A (zh) 输入信息的推荐方法、装置、计算机设备及可读介质
CN114049872A (zh) 基于边缘计算的消费提醒方法、系统、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant