CN110134935B - 一种提取字形特征的方法、装置及设备 - Google Patents

一种提取字形特征的方法、装置及设备 Download PDF

Info

Publication number
CN110134935B
CN110134935B CN201810128376.9A CN201810128376A CN110134935B CN 110134935 B CN110134935 B CN 110134935B CN 201810128376 A CN201810128376 A CN 201810128376A CN 110134935 B CN110134935 B CN 110134935B
Authority
CN
China
Prior art keywords
extracting
data
processed
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810128376.9A
Other languages
English (en)
Other versions
CN110134935A (zh
Inventor
童毅轩
张永伟
董滨
姜珊珊
张佳师
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201810128376.9A priority Critical patent/CN110134935B/zh
Priority to JP2019019457A priority patent/JP6702456B2/ja
Publication of CN110134935A publication Critical patent/CN110134935A/zh
Application granted granted Critical
Publication of CN110134935B publication Critical patent/CN110134935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供一种提取字形特征的方法、装置及设备,涉及文字处理技术领域,用以提高提取字形特征的性能。所述方法包括:对待处理数据进行预处理;获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。本发明实施例可提高提取字形特征的性能。

Description

一种提取字形特征的方法、装置及设备
技术领域
本发明实施例涉及文字处理技术领域,尤其涉及一种提取字形特征的方法、装置及设备。
背景技术
现有技术中,字形特征的提取通常利用CNN(Convolutional Neural Network,卷积神经网络)和LSTM(Long Short-Term Memory,长短时记忆)等模型实现。但是,在实现本发明的过程中发明人发现,由于这些模型的复杂度较高,因此,使得利用这些模型获得字形特征的性能较差。
发明内容
有鉴于此,本发明实施例提供一种提取字形特征的方法、装置及设备,用以提高提取字形特征的性能。
为解决上述技术问题,一方面,本发明实施例提供一种提取字形特征的方法,包括:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
其中,所述对待处理数据进行预处理的步骤,包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID。
其中,所述为所述多个词分配ID的步骤,包括:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;
若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;
若第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
其中,所述获取预设大小的字形特征提取窗口的步骤,包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
其中,所述利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征的步骤,包括:
从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于所述C个字母的表示向量;
获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
其中,所述方法还包括:
将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
第二方面,本发明实施例提供一种提取字形特征的装置,包括:
预处理模块,用于对待处理数据进行预处理;
获取模块,用于获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
提取模块,用于利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
其中,所述提取模块,还用于获取词向量特征、权重矩阵M以及表示向量;
所述装置还包括:
拼接模块,用于将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练模块,用于训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
本发明实施例的上述技术方案的有益效果如下:
在本发明实施例中,在对预处理后的待处理数据提取字形特征的过程中,使用的字形特征提取窗口是保持不变的。也即,在这个过程中,针对任何的单词,字形特征提取窗口的大小是固定的。因此,利用本发明实施例的方案,可提高提取字形特征的性能。
附图说明
图1为本发明实施例的提取字形特征的方法的流程图;
图2为本发明实施例的系统组成图;
图3为本发明实施例的硬件图;
图4为本发明实施例的提取字形特征的方法的流程图;
图5为本发明实施例中字形特征提取窗口的示意图;
图6为本发明实施例的提取字形特征的装置的示意图;
图7为本发明实施例中预处理模块的示意图;
图8为本发明实施例中提取模块的示意图;
图9为本发明实施例的提取字形特征的装置的结构图;
图10为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明实施例的提取字形特征的方法,包括:
步骤101、对待处理数据进行预处理。
其中,所述待处理数据可以是任意的数据,例如网页上的一段文字等。
在本发明实施例中,对待处理数据进行预处理主要包括:
(1)清除所述待处理数据中的噪声。
其中,此步骤也可称为数据清洗,主要目的是去除待处理数据中的噪声。其中,噪声包括:URL(Uniform Resource Locator,统一资源定位符)、电子邮件地址以及形如“&lt;”或者“&gt;”等由网页引入的符号。在此,去除由网页引入的“<html>”、“<title>”和“<body>”等xml(eXtensible Markup Language,可扩展标记语言)标签,只保留标签之间的文本。
(2)将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词。
在此,用python库NLTK(Natural Language Toolkit,自然语言处理工具包)将待处理数据划分成句,并进一步将句子划分成词。将每个词作为数据的最小单位。
(3)为所述多个词分配ID。
在此步骤中,从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数。若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;若第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID。
其中,所述第一目标词为获得的多个词中的任意一个词。
其中,所述第二目标词包括未位于所述模型词库中的词,并且所有第二目标词具有相同的ID值。例如,所述目标词可以是划分获得的多个词中未位于模型库中的词,还可以是其他未位于模型库中的词。
在实际应用中,从获得的多个词中选择V个不同的词构成模型词库,参数V由用户指定。为每个不同的词指定唯一ID,然后将获得的多个词替换为ID,具体做法为:a)对于在模型词库中的词,替换为相应的唯一ID。b)对于不在模型词库中的词,指定一个未使用过的ID作为所有未知词的ID。
步骤102、获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变。
在此步骤中,可提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数。其中,该预设单词可以是任意的单词。其中,P和S可由用户指定。而后,利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
步骤103、利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
该步骤主要包括如下过程:
步骤1031、从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数。
在实际应用中,英文大小写字母一共是52个,那么可从这52个字母中任选C个不同的字母作为在此的已知字母,并为每个字母分配N维的表示向量。其中,C和N的值可由用户指定。这C个字母的表示向量可以随机初始化,并在下文的训练的过程中进行更新。或者,在此该表示向量可以直接使用one-hot向量,但是该one-hot向量不参与下文的训练过程。
步骤1032、对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于所述C个字母的表示向量。
其中,所述第三目标词为所述多个词中的任意一个词。若第三目标词中所包括的第一目标字符(例如,字母,数字,符号等)不是已知字母,那么虚为第一目标字符再分配表示向量,并且为第一目标字符分配的表示向量不同于C个字母的表示向量。
步骤1033、获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量。
从分配的表示向量中,获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量。字形特征的提取针对这个拼接成的第一向量进行。若某个单词的长度短,不足以提取足够的字母时,加入全零的N维向量进行对齐。
步骤1034、获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数,是字形特征的维度,它是由用户指定的参数。权重矩阵中的权重为浮点数,这些权重的值通过随机初始化获得,并且在后续的训练中不断更新。
步骤1035、将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
在本发明实施例中,在对预处理后的待处理数据提取字形特征的过程中,使用的字形特征提取窗口是保持不变的。也即,在这个过程中,针对任何的单词,字形特征提取窗口的大小是固定的。因此,利用本发明实施例的方案,可提高字形特征提取的性能以及准确性。而且,本发明实施例的方法还可应用于更为简单的网络模型中,从而降低了字形特征提取的难度,提高了可靠性。
为使得网络模型的功能更加完善,进一步提高字形特征提取的准确性,本发明实施例的方法,在上述内容的基础上,还可将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入,训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。其中,词向量的获取方法可参照现有技术中的方法。
如图2所示,为本发明实施例的系统组成图。字形特征被用做某个自然语言处理模型的输入,整个系统的输入是从互联网采集的自然本文,同时包含了采集过程中代入的网页噪声。
其中,数据预处理模块210,用来对待处理数据进行预处理,消除数据中的噪声;字形特征抽取模块220,用来抽取字形特征;特征合并模块230,用来将字形特征与其他特征进行合并,并输入自然语言处理系统。
如图3所示,为本发明实施例的硬件图,包括:网络接口310,用来连接到互联网或其他形式的通信网络;输入设备320,用来收集系统使用者的输入信号;硬盘330,用来保存形如用户日志的信息;中央处理器(CPU)340,用来运行程序;存储单元350,用来保存程序执行时的临时变量;显示器360,用来向系统使用者显示相关的信息。
结合图4,详细描述一下本发明实施例的字形特征提取过程,主要包括:
步骤401、数据预处理,具体包括:
(1)数据清洗。去除待处理数据中的噪声,噪声包括:URL、电子邮件地址以及形如“&lt;”或者“&gt;”的由网页引入的符号;去除由网页引入的“<html>”、“<title>”和“<body>”等xml标签,只保留标签之间的文本。
(2)数据分割。用python库NLTK将待处理数据划分成句,并进一步划分成词。
(3)数据ID化。从(2)中划分出的词中,选择30000个不同的词作为模型词汇。分别为每个词汇分配独有的ID:为30000个词汇中的第一个词分配1作为ID,为第二个词分配2作为ID,以此类推。将0作为未知词汇的ID。将划分出的词替换为对应的ID。
步骤402、提取字形特征。
如图5所示,从单词information的前部提取4个字母,从这4个字母中提取前缀字形信息;从单词后部提取4个字母,从这4个字母中提取后缀字形信息。将提取的8个字母按顺序拼接,作为字形特征提取窗口。那么,字形特征提取窗口为:infotion;或者,还可为tioninfo。
选择所有大写和小写字母组成的集合作为已知字母集合,其中包含52个元素。为已知字母集合中的每个字母分配一个53维向量作为表示向量。这些表示向量以one-hot形式取值,即向量的每个权重由0和1组成,且同时只有一个元素为1,其他元素为0。选择第一个元素为1,其他元素为0的向量作为未知字母的表示向量。选择第二个元素为1,其他元素为0的向量作为已知字母集合中第一个字母的表示向量,以此类推。
将字形特征提取窗口中,字母对应的表示向量连接成一个(4+4)*53=424维向量。对于长度太短,不足4个字母的单词,用53维的全零向量进行对齐。
构造一个由浮点数组成的权重矩阵M,矩阵有424行256列,矩阵中的权重值通过随机初始化获得,并在后序的训练过程中不断更新。将(4+4)*53=424维的向量乘以权重矩阵M,得到256维向量,即为字形特征向量。
步骤403、生成样本向量。
将获得的256维字形特征向量与包括词向量在内的其他特征拼接在一起,作为模型输入,并训练模型。训练模型时,一并更新权重矩阵M。
由上可以看出,利用本发明实施例的方案,可提高字形特征提取的性能以及准确性。而且,本发明实施例的方法还可应用于更为简单的网络模型中,从而降低了字形特征提取的难度,提高了可靠性。
如图6所示,本发明实施例的提取字形特征的装置600,包括:
预处理模块601,用于对待处理数据进行预处理;
获取模块602,用于获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
提取模块603,用于利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
其中,如图7所示,所述预处理模块601可包括:
清除子模块6011,用于清除所述待处理数据中的噪声;划分子模块6012,用于将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;分配子模块6013,用于为所述多个词分配ID。
具体的,所述分配子模块6013用于:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;若第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
具体的,所述获取模块602,用于提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
其中,如图8所示,所述提取模块603可包括:
第一分配子模块6031,用于从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
第二分配子模块6032,用于对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于所述C个字母的表示向量;
第一获取子模块6033,用于获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
第二获取子模块6034,用于获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
提取子模块6035,用于将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
本发明实施例装置的工作原理可参照前述方法实施例的描述。
在本发明实施例中,在对预处理后的待处理数据提取字形特征的过程中,使用的字形特征提取窗口是保持不变的。也即,在这个过程中,针对任何的单词,字形特征提取窗口的大小是固定的。因此,利用本发明实施例的方案,可提高字形特征提取的性能以及准确性。而且,本发明实施例的方法还可应用于更为简单的网络模型中,从而降低了字形特征提取的难度,提高了可靠性。
为使得网络模型的功能更加完善,进一步提高字形特征提取的准确性,本发明实施例的装置,在上述描述的基础上,如图9所示,还可包括:
拼接模块604,用于将所述字形特征和提取模块603获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;训练模块605,用于训练所述训练模型,更新所述提取模块603获取的权重矩阵M和/或所述表示向量的权重。
如图10所示,本发明实施例提供了一种电子设备,包括:处理器1001和存储器1002,在所述存储器1002中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器1001执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
进一步地,如图10所示,电子设备还包括网络接口1003、输入设备1004、硬盘1005、和显示设备1006。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器1001代表的一个或者多个中央处理器(CPU),以及由存储器1002代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口1003,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘1005中。
所述输入设备1004,可以接收操作人员输入的各种指令,并发送给处理器1001以供执行。所述输入设备1004可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备1006,可以将处理器1001执行指令获得的结果进行显示。
所述存储器1002,用于存储操作系统运行所必须的程序和数据,以及处理器1001计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器1002可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器1002旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器1002存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统10021和应用程序10010。
其中,操作系统10021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序10010,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序10010中。
上述处理器1001,当调用并执行所述存储器1002中所存储的应用程序和数据,具体的,可以是应用程序10010中存储的程序或指令时,执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
本发明上述实施例揭示的方法可以应用于处理器1001中,或者由处理器1001实现。处理器1001可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002,处理器1001读取存储器1002中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器1101还用于读取所述计算机程序,执行如下步骤:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID。
具体地,处理器1101还用于读取所述计算机程序,执行如下步骤:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;
若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;
若所述多个词中的第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
具体地,处理器1101还用于读取所述计算机程序,执行如下步骤:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
具体地,处理器1101还用于读取所述计算机程序,执行如下步骤:
从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于所述C个字母的表示向量;
获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
具体地,处理器1101还用于读取所述计算机程序,执行如下步骤:
将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
另外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
其中,所述对待处理数据进行预处理的步骤,包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID。
其中,所述为所述多个词分配ID的步骤,包括:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;
若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;
若所述多个词中的第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
其中,所述获取预设大小的字形特征提取窗口的步骤,包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
其中,所述利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征的步骤,包括:
从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于所述C个字母的表示向量;
获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
其中,所述方法还包括:
将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种提取字形特征的方法,其特征在于,包括:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征,
其中,所述对待处理数据进行预处理的步骤,包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID,
其中,所述获取预设大小的字形特征提取窗口的步骤,包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
2.根据权利要求1所述的方法,其特征在于,所述为所述多个词分配ID的步骤,包括:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;
若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;
若第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征的步骤,包括:
从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于C个字母的表示向量;
获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
5.一种提取字形特征的装置,其特征在于,包括:
预处理模块,用于对待处理数据进行预处理;
获取模块,用于获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
提取模块,用于利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征,
所述预处理模块包括:
清除子模块,用于清除所述待处理数据中的噪声;
划分子模块,用于将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
分配子模块,用于为所述多个词分配ID,
所述获取模块,用于提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,还用于获取词向量特征、权重矩阵M以及表示向量;
所述装置还包括:
拼接模块,用于将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练模块,用于训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
7.一种电子设备,其特征在于,包括:处理器和存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征,
其中,所述对待处理数据进行预处理的步骤包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID;
其中,所述获取预设大小的字形特征提取窗口的步骤包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征,
其中,所述对待处理数据进行预处理的步骤包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID;
其中,所述获取预设大小的字形特征提取窗口的步骤包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
CN201810128376.9A 2018-02-08 2018-02-08 一种提取字形特征的方法、装置及设备 Active CN110134935B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810128376.9A CN110134935B (zh) 2018-02-08 2018-02-08 一种提取字形特征的方法、装置及设备
JP2019019457A JP6702456B2 (ja) 2018-02-08 2019-02-06 文字形状特徴の抽出方法、文字形状特徴の抽出装置、電子機器、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810128376.9A CN110134935B (zh) 2018-02-08 2018-02-08 一种提取字形特征的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110134935A CN110134935A (zh) 2019-08-16
CN110134935B true CN110134935B (zh) 2023-08-11

Family

ID=67567356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810128376.9A Active CN110134935B (zh) 2018-02-08 2018-02-08 一种提取字形特征的方法、装置及设备

Country Status (2)

Country Link
JP (1) JP6702456B2 (zh)
CN (1) CN110134935B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855635B (zh) * 2019-10-25 2022-02-11 新华三信息安全技术有限公司 Url识别方法、装置及数据处理设备
CN111488423B (zh) * 2020-03-05 2020-12-22 北京一览群智数据科技有限责任公司 一种基于索引数据的自然语言处理方法和系统
CN114330474B (zh) * 2021-10-20 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265239A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 感情生成装置及び感情生成方法
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
JP2002023782A (ja) * 2000-07-13 2002-01-25 Sharp Corp 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体
JP2002297589A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
JP2010140107A (ja) * 2008-12-09 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265239A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 感情生成装置及び感情生成方法
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
JP2002023782A (ja) * 2000-07-13 2002-01-25 Sharp Corp 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体
JP2002297589A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
JP2010140107A (ja) * 2008-12-09 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置

Also Published As

Publication number Publication date
JP2019139771A (ja) 2019-08-22
CN110134935A (zh) 2019-08-16
JP6702456B2 (ja) 2020-06-03

Similar Documents

Publication Publication Date Title
US10019436B2 (en) Input method and system
CN110134935B (zh) 一种提取字形特征的方法、装置及设备
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110674306B (zh) 知识图谱的构建方法、装置、电子设备
CN110705503B (zh) 生成目录结构化信息的方法和装置
CN109271598B (zh) 一种抽取新闻网页内容的方法、装置及存储介质
CN109657208B (zh) 网页相似度计算方法、装置、设备、计算机可读存储介质
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
CN111858883A (zh) 三元组样本的生成方法、装置、电子设备及存储介质
CN110414523A (zh) 一种身份证识别方法、装置、设备及存储介质
KR102618483B1 (ko) 텍스트 필터링 장치 및 방법
CN114861635A (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN110110777A (zh) 图像处理方法和训练方法、以及装置、介质和计算设备
JP6834774B2 (ja) 情報抽出装置
CN112749639A (zh) 模型训练方法、装置、计算机设备和存储介质
CN111160445A (zh) 投标文件相似度计算方法及装置
CN111400431A (zh) 一种事件论元抽取方法、装置以及电子设备
CN116503608A (zh) 基于人工智能的数据蒸馏方法及相关设备
CN114385891B (zh) 数据搜索方法、装置、电子设备及存储介质
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN112836498A (zh) 数据处理方法、识别方法、装置及计算设备
CN112560459A (zh) 用于模型训练的样本筛选方法、装置、设备及存储介质
CN112784825A (zh) 图片中文字的识别方法、关键字检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant