CN114692607A - 文档乱码内容的处理方法、装置、设备及存储介质 - Google Patents

文档乱码内容的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114692607A
CN114692607A CN202210269943.9A CN202210269943A CN114692607A CN 114692607 A CN114692607 A CN 114692607A CN 202210269943 A CN202210269943 A CN 202210269943A CN 114692607 A CN114692607 A CN 114692607A
Authority
CN
China
Prior art keywords
paragraph
uncommon
sentence
character
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210269943.9A
Other languages
English (en)
Inventor
钱璟
伍检
王维煜
王建辉
袁天亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210269943.9A priority Critical patent/CN114692607A/zh
Publication of CN114692607A publication Critical patent/CN114692607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文档乱码内容的处理方法、装置、设备及存储介质,本公开涉及计算机技术领域,具体涉及自然语言处理领域,可以应用于乱码处理的场景。实现方案为:将待处理的文档中的内容划分成至少一个段落,识别每个段落中的生僻字符;计算每个段落中生僻字符的出现频率;基于每个段落中生僻字符对应的出现频率,从至少一个段落中确定出目标段落;将目标段落划分成至少一个句子,计算每个句子的困惑度;基于每个句子对应的困惑度,从至少一个句子中确定出潜在具有乱码内容的候选句子;从候选句子中确定出实际包含乱码内容的目标句子,删除乱码内容。上述方法可以避免文档的有效内容被误删或实际的乱码内容被漏删,确保文档具备较高的可用性。

Description

文档乱码内容的处理方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理领域,可以应用于乱码处理的场景。
背景技术
在一些涉及到自然语言理解的应用场景中,某些的文档中的内容需要在进行解析之后才可以正常使用。由于解析技术的准确率有限,这可能会导致解析得到的新文档存在乱码内容,影响新文档的可用性。在相关技术中,会在解析得到新文档中识别出乱码内容,并将乱码内容删除,从而确保新文档的可用性。然而,现有的识别乱码内容的方式比较单一,乱码内容识别结果的准确性较低。
发明内容
本公开提供了一种文档乱码内容的处理方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种文档乱码内容的处理方法,包括:
将待处理的文档中的内容划分成至少一个段落,识别每个段落中的生僻字符;
计算每个段落中生僻字符的出现频率;
基于每个段落中生僻字符对应的出现频率,从至少一个段落中确定出目标段落;
将目标段落划分成至少一个句子,计算每个句子的困惑度,其中,困惑度用于指示句子的合理性程度;
基于每个句子对应的困惑度,从至少一个句子中确定出潜在具有乱码内容的候选句子,其中,乱码内容包括至少一个生僻字符;
从候选句子中确定出实际包含乱码内容的目标句子,删除目标句子中的乱码内容。
根据本公开的第二方面,提供了一种文档乱码内容的处理装置,包括:
生僻字符识别模块,用于将待处理的文档中的内容划分成至少一个段落,识别每个段落中的生僻字符;
出现频率计算模块,用于计算每个段落中生僻字符的出现频率;
目标段落确定模块,用于基于每个段落中生僻字符对应的出现频率,从至少一个段落中确定出目标段落;
困惑度计算模块,用于将目标段落划分成至少一个句子,计算每个句子的困惑度,其中,困惑度用于指示句子的合理性程度;
候选句子确定模块,用于基于每个句子对应的困惑度,从至少一个句子中确定出潜在具有乱码内容的候选句子,其中,乱码内容包括至少一个生僻字符;
乱码内容删除模块,用于从候选句子中确定出实际包含乱码内容的目标句子,删除目标句子中的乱码内容。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面提供的文档乱码内容的处理方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述第一方面提供的文档乱码内容的处理方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面提供的文档乱码内容的处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
本公开提供的技术方案带来的有益效果是:
在本公开的技术方案中,首先通过生僻字符的出现频率识别出有较大的概率包含乱码内容的目标段落,之后通过目标段落中每个句子的困惑度识别出实际包含乱码内容的目标句子。通过生僻字符的出现频率和句子的困惑度这两个维度的信息,能够准确且直接地定位到文档中的乱码内容,避免文档的有效内容被误删或实际的乱码内容被漏删,从而确保将乱码内容之后的文档具备较高的可用性。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示出了本公开实施例提供的一种文档乱码内容的处理方法的流程示意图;
图2示出了本公开实施例提供的另一种文档乱码内容的处理方法的流程示意图;
图3示出了本公开实施例提供的一种文档乱码内容的处理装置示意图;
图4示出了可以用来实施本公开实施例提供的文档乱码内容的处理方法的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在一些涉及到自然语言理解的应用场景中,某些的文档中的内容需要在进行解析之后才可以正常使用。由于解析技术的准确率有限,这可能会导致解析得到的新文档存在乱码内容,影响新文档的可用性。在相关技术中,会在解析得到新文档中识别出乱码内容,并将乱码内容删除,从而确保新文档的可用性。然而,现有的识别乱码内容的方式比较单一,乱码内容识别结果的准确性较低。
本公开实施例提供的文档乱码内容的处理方法、装置、设备及存储介质,旨在解决现有技术的如上技术问题中的至少一个。
图1示出了本公开实施例提供的一种文档乱码内容的处理方法的流程示意图,如图1示,该方法主要可以包括以下步骤:
S110:将待处理的文档中的内容划分成至少一个段落,识别每个段落中的生僻字符。
待处理的文档是将原始文档经过解析后得到的新文档,由于解析技术的准确率有限,可能会导致新文档中的内容与原始文档的内容存在差异。具体来说,在解析后得到的新文档中,可能会包含一些原始文档中不存在的字符,这些字符中可能会包括生僻字符。
在本公开实施例中,待处理的文档中的内容需要被划分的段落的数量,可以基于实际的设计需要而定。当待处理的文档中的内容需要被划分的段落的数量不小于2时,各段落中的字符数量可以是大致相等的。例如,可以将待处理的文档中的内容等分成10个段落。
在本公开实施例中,生僻字符可以是文字、符号(如问号、句号和顿号等)和数字等。生僻字符的类型包括古文码、口字码、符号码、问号码和棍拷码中的至少一项。
例如,原始文档包括“2022年的春天”这句内容,将原始文档的上述内容经过解析后,得到新文档可能会包括“
Figure BDA0003554244820000041
2022年的春天”这句内容。这里,“
Figure BDA0003554244820000042
”可以被看作是生僻字符。
可选地,本公开实施例在识别每个段落中的生僻字符时,可以确定文档对应的常用字符集;针对每个段落,从该段落中识别出不属于常用字符集的生僻字符。这里,常用字符集的类型与文档的应用领域相关。
可选地,本公开实施例在识别每个段落中的生僻字符时,可以确定文档对应的生僻字符集;针对每个段落,从该段落中识别出属于生僻字符集的生僻字符。这里,生僻字符集的类型与文档的应用领域相关。
S120:计算每个段落中生僻字符的出现频率。
在本公开实施例中,段落中生僻字符的出现频率,是指该段落中生僻字符在段落中的占比以及该段落中生僻字符在文档中的占比之中的至少一项。为了便于理解和表述,本公开实施例将段落中生僻字符在该段落中的占比定义为第一出现频率,将段落中生僻字符在文档中的占比定义为第二出现频率。可选地,本公开实施例在计算每个段落中生僻字符的出现频率时,可以针对每个段落,计算该段落中生僻字符在该段落中的第一出现频率、该段落中生僻字符在文档中的第二出现频率。
S130:基于每个段落中生僻字符对应的出现频率,从至少一个段落中确定出目标段落。
如前文所述,每个段落中生僻字符对应的出现频率包括第一出现频率和第二出现频率。本公开实施例可以基于每个段落中生僻字符对应的第一出现频率和第二出现频率中的至少一个,从至少一个段落中确定出目标段落。
可选地,本公开实施例针对每个段落,计算该段落中生僻字符对应的第一出现频率与第二出现频率的出现频率比值;基于每个段落中生僻字符对应的出现频率比值,从至少一个段落中确定出目标段落。
可选地,本公开实施例基于每个段落中生僻字符对应的第一出现频率,从至少一个段落中确定出对应的第一出现频率大于第一预设出现频率的目标段落。
可选地,本公开实施例基于每个段落中生僻字符对应的第二出现频率,从至少一个段落中确定出对应的第二出现频率大于第二预设出现频率的目标段落。
S140:将目标段落划分成至少一个句子,计算每个句子的困惑度。
在本公开实施例中,可以基于目标段落中的标点符号划分出至少一个句子,标点符号可以包括逗号、句号和问号等。当然,本公开实施例还可以预先配置针对目标段落的句子数量,按照句子数量划分出至少一个句子。
在本公开实施例中,困惑度用于指示句子的合理性程度。具体来说,困惑度可以指示句子是否通顺,句子搭配和语法的使用与人们正常使用的情况是否一致等。
本公开实施例可以将句子中相邻或者相关联的词语对在语法和语义两方面不合理程度的综合度量视做整个句子的困惑度。本公开实施例可以对句子进行分词处理,获得句子对应的多个分词,计算多个分词中各分词的上下文出现概率,将所句子对应的多个分词中各分词的上下文出现概率进行乘积计算,从而得到句子的困惑度。当然,本公开实施例还可以通过其他方式来计算句子的困惑度,此处不再一一列举。
S150:基于每个句子对应的困惑度,从至少一个句子中确定出潜在具有乱码内容的候选句子。
可以理解,文档出现乱码通常是因为包含生僻字符,因此乱码内容包括至少一个生僻字符。步骤S150通过句子对应的困惑度来确定该句子是否为潜在具有乱码内容的候选句子,这里,候选句子是指有较高的可能性具有乱码内容的句子。一般来说,句子中生僻字符的数量越多,该句子对应的困惑度越大,该句子被确定为候选句子的概率越高。
可选地,本公开实施例在确定潜在具有乱码内容的候选句子时,可以确定文档对应的困惑度阈值;从至少一个句子中,确定出对应的困惑度大于困惑度阈值的候选句子。也就是说,当一个句子对应的困惑度大于困惑度阈值时,即可将该句子确定为潜在具有乱码内容的候选句子。
可选地,本公开实施例在确定潜在具有乱码内容的候选句子时,可以从至少一个句子中,确定出对应的困惑度最大的候选句子。也就是说,本公开实施例可以将对应的困惑度最大的句子,确定为潜在具有乱码内容的候选句子。
S160:从候选句子中确定出实际包含乱码内容的目标句子,删除目标句子中的乱码内容。
如前文所述,候选句子是指较高的可能性具有乱码内容的句子。步骤S160可以继续确定候选句子是否为实际包含乱码内容的目标句子,在确定候选句子为实际包含乱码内容的目标句子时,删除目标句子中的乱码内容。这里,可以通过候选句子中的生僻字符的相关数据来确定候选句子为实际包含乱码内容的目标句子。例如,候选句子中的生僻字符的数量、位置特征(如是否连续)等信息确定候选句子为实际包含乱码内容的目标句子。
可选地,本公开实施例可以通过以下步骤确定候选句子为实际具有乱码内容的目标句子:从候选句子中识别生僻字符序列;在确定生僻字符序列中的生僻字符的数量大于预设数量时,确定候选句子为实际具有乱码内容的目标句子、生僻字符序列为乱码内容。这里,生僻字符序列包括连续的生僻字符。
本公开实施例提供的文档乱码内容的处理方法,首先通过生僻字符的出现频率识别出有较大的概率包含乱码内容的目标段落,之后通过目标段落中每个句子的困惑度识别出实际包含乱码内容的目标句子。通过生僻字符的出现频率和句子的困惑度这两个维度的信息,能够准确且直接地定位到文档中的乱码内容,避免文档的有效内容被误删或实际的乱码内容被漏删,从而确保将乱码内容之后的文档具备较高的可用性。
图2示出了本公开实施例提供的一种文档乱码内容的处理方法的流程示意图,如图2示,该方法主要可以包括以下步骤:
S201:将待处理的文档中的内容划分成至少一个段落。
待处理的文档是将原始文档经过解析后得到的新文档,由于解析技术的准确率有限,可能会导致新文档中的内容与原始文档的内容存在差异。具体来说,在解析后得到的新文档中,可能会包含一些原始文档中不存在的字符,这些字符中可能会包括生僻字符。
在本公开实施例中,待处理的文档中的内容需要被划分的段落的数量,可以基于实际的设计需要而定。当待处理的文档中的内容需要被划分的段落的数量不小于2时,各段落中的字符数量可以是大致相等的。例如,可以将待处理的文档中的内容等分成10个段落。
S202:确定文档对应的常用字符集。
S203:针对每个段落,从该段落中识别出不属于常用字符集的生僻字符。
在本公开实施例中,生僻字符可以是文字、符号(如问号、句号和顿号等)和数字等。生僻字符的类型包括古文码、口字码、符号码、问号码和棍拷码中的至少一项。例如,原始文档包括“2022年的春天”这句内容,将原始文档的上述内容经过解析后,得到新文档可能会包括“
Figure BDA0003554244820000071
Figure BDA0003554244820000072
2022年的春天”这句内容。这里,“
Figure BDA0003554244820000073
”可以被看作是生僻字符。
在本公实施例中,常用字符集的类型与文档的应用领域相关,常用字符集中包括对应领域所使用的常用字符。可以理解,不同领域所使用的常用字符会略有差异,因此可以针对不同领域配置不同的常用字符集,例如,可以针对医学领域、计算机领域、机械领域和化学领域等分别配置对应的常用字符集。基于文档的应用领域对应的常用字符集,能够更加客观地识别文档的各段落中的生僻字符,确保识别出的生僻字符的准确性。
S204:针对每个段落,计算该段落中生僻字符在该段落中的第一出现频率、该段落中生僻字符在文档中的第二出现频率。
在本公开实施例中,段落中生僻字符的出现频率,是指该段落中生僻字符在段落中的占比以及该段落中生僻字符在文档中的占比之中的至少一项。为了便于理解和表述,本公开实施例将段落中生僻字符在该段落中的占比定义为第一出现频率,将段落中生僻字符在文档中的占比定义为第二出现频率。
例如,针对一个段落a,可以统计段落a中的生僻字符的数量、段落a中的字符的总数量、以及文档中的字符的总数量。将段落a中的生僻字符的数量与段落a中的字符的总数量的比值,作为段落a中生僻字符在该段落中的第一出现频率;将段落a中的生僻字符的数量与文档中的字符的总数量的比值,作为段落a中生僻字符在文档中的第二出现频率。
S205:针对每个段落,计算该段落中生僻字符对应的第一出现频率与第二出现频率的出现频率比值。可以理解,将段落中生僻字符对应的第一出现频率与第二出现频率的比值定义为出现频率比值。
S206:基于每个段落中生僻字符对应的出现频率比值,从至少一个段落中确定出目标段落。
段落中生僻字符对应的出现频率比值越大,表明该段落中生僻字符对应的第一出现频率与第二出现频率的差异越大,进而该段落的生僻字符在该段落中出现的频率较小、且在其他的段落中出现的频率较小,这可以说明该段落中生僻字符较为集中,该段落出现了乱码的可能性更高。因此,基于每个段落中生僻字符对应的出现频率比值,能够更加准确地确定出实际包含乱码内容的目标段落。
可选地,本公开实施例在确定出目标段落时,可以确定文档对应的标准比值,可以理解,标准比值可以预先配置,标准比值的具体值根据实际的设计需要而定。在确定出文档对应的标准比值之后,可以从至少一个段落中,确定出段落中生僻字符对应的出现频率比值大于标准比值的目标段落。本公开实施例通过对比段落中生僻字符对应的出现频率比值、预先为待处理的文档配置对应的标准比值,确定段落中生僻字符在该段落中的集中程度,客观地呈现该段落出现了乱码的可能性,从而准确地识别出实际包含乱码内容的目标段落。
S207:将目标段落划分成至少一个句子,计算每个句子的困惑度。
在本公开实施例中,可以基于目标段落中的标点符号划分出至少一个句子,标点符号可以包括逗号、句号和问号等。当然,本公开实施例还可以预先配置针对目标段落的句子数量,按照句子数量划分出至少一个句子。
在本公开实施例中,困惑度用于指示句子的合理性程度。具体来说,困惑度可以指示句子是否通顺,句子搭配和语法的使用与人们正常使用的情况是否一致等。
本公开实施例可以将句子中相邻或者相关联的词语对在语法和语义两方面不合理程度的综合度量视做整个句子的困惑度。本公开实施例可以对句子进行分词处理,获得句子对应的多个分词,计算多个分词中各分词的上下文出现概率,将所句子对应的多个分词中各分词的上下文出现概率进行乘积计算,从而得到句子的困惑度。当然,本公开实施例还可以通过其他方式来计算句子的困惑度,此处不再一一列举。
S208:确定文档对应的困惑度阈值。
S209:从至少一个句子中,确定出对应的困惑度大于困惑度阈值的候选句子。
可以理解,当一个句子对应的困惑度大于困惑度阈值时,即可将该句子确定为潜在具有乱码内容的候选句子。文档出现乱码通常是因为包含生僻字符,因此乱码内容包括至少一个生僻字符。
步骤S209通过对比句子对应的困惑度和困惑度阈值,来确定该句子是否为潜在具有乱码内容的候选句子。可以理解,候选句子是指较高的可能性具有乱码内容的句子。一般来说,句子中生僻字符的数量越多,该句子对应的困惑度越大,该句子被确定为候选句子的概率越高。这里,当句子的困惑度大于困惑度阈值的候选句子,表明该句子的困惑度已经超出合理范围,表明该句子有较大的可能性存在包含有生僻字符的乱码内容。
S210:从候选句子中识别生僻字符序列。
在本公开实施例中,生僻字符序列是指包括连续的生僻字符。可以理解,生僻字符序列应当至少包括两个连续的生僻字符。
S211:在确定生僻字符序列中的生僻字符的数量大于预设数量时,确定候选句子为实际具有乱码内容的目标句子、生僻字符序列为乱码内容。
步骤S211可以继续确定候选句子是否为实际包含乱码内容的目标句子,在确定候选句子为实际包含乱码内容的目标句子时,删除目标句子中的乱码内容。具体来说,步骤S211可以统计候选句子的生僻字符序列中的生僻字符的数量,如果步骤S210识别出的生僻字符序列中的生僻字符的数量大于预设数量,则可以确定该候选句子为实际具有乱码内容的目标句子,同时可以确定步骤S210识别出的生僻字符序列为候选句子中的乱码内容。
在此需要说明的是,经研究发现,当句子中出现乱码内容时,句子中通常会出现多个连续的生僻字符。本公开实施例可以预先配置针对句子的生僻字符的预设数量,当句子的生僻字符序列中的生僻字符的数量大于预设数量时,才将候选句子为实际具有乱码内容的目标句子,避免将句子中的有效内容误识别为乱码内容而删除,以保证句子的有效内容的完整性。
S212:删除目标句子中的乱码内容。
例如,文档包括“
Figure BDA0003554244820000101
2022年的春天”这个句子。该句子中的“
Figure BDA0003554244820000102
”这一生僻字符序列被确定为乱码内容,则可以将这一乱码内容在句子中删除。
基于与上述的文档乱码内容的处理方法相同的原理,本公开实施例提供了一种文档乱码内容的处理装置,图3示出了本公开实施例提供的一种文档乱码内容的处理装置的示意图。如图3所示,文档乱码内容的处理装置300包括生僻字符识别模块310、出现频率计算模块320、目标段落确定模块330、困惑度计算模块340、候选句子确定模块350和乱码内容删除模块360。
生僻字符识别模块310用于将待处理的文档中的内容划分成至少一个段落,识别每个段落中的生僻字符。
出现频率计算模块320用于计算每个段落中生僻字符的出现频率。
目标段落确定模块330用于基于每个段落中生僻字符对应的出现频率,从至少一个段落中确定出目标段落。
困惑度计算模块340用于将目标段落划分成至少一个句子,计算每个句子的困惑度,其中,困惑度用于指示句子的合理性程度。
候选句子确定模块350用于基于每个句子对应的困惑度,从至少一个句子中确定出潜在具有乱码内容的候选句子,其中,乱码内容包括至少一个生僻字符。
乱码内容删除模块360用于从候选句子中确定出实际包含乱码内容的目标句子,删除目标句子中的乱码内容。
本公开实施例提供的文档乱码内容的处理装置,首先通过生僻字符的出现频率识别出有较大的概率包含乱码内容的目标段落,之后通过目标段落中每个句子的困惑度识别出实际包含乱码内容的目标句子。通过生僻字符的出现频率和句子的困惑度这两个维度的信息,能够准确且直接地定位到文档中的乱码内容,避免文档的有效内容被误删或实际的乱码内容被漏删,从而确保将乱码内容之后的文档具备较高的可用性。
在本公开实施例中,生僻字符识别模块310在用于识别每个段落中的生僻字符时,具体用于:
确定文档对应的常用字符集,其中,常用字符集的类型与文档的应用领域相关;
针对每个段落,从该段落中识别出不属于常用字符集的生僻字符。
在本公开实施例中,出现频率计算模块320在用于计算每个段落中生僻字符的出现频率时,具体用于:
针对每个段落,计算该段落中生僻字符在该段落中的第一出现频率、该段落中生僻字符在文档中的第二出现频率。
在本公开实施例中,目标段落确定模块330在用于基于每个段落中生僻字符对应的出现频率,从至少一个段落中确定出目标段落时,具体用于:
针对每个段落,计算该段落中生僻字符对应的第一出现频率与第二出现频率的出现频率比值;基于每个段落中生僻字符对应的出现频率比值,从至少一个段落中确定出目标段落。
在本公开实施例中,目标段落确定模块330在用于基于每个段落中生僻字符对应的出现频率比值,从至少一个段落中确定出目标段落时,具体用于:
确定文档对应的标准比值;从至少一个段落中,确定出段落中生僻字符对应的出现频率比值大于标准比值的目标段落。
在本公开实施例中,基于每个句子对应的困惑度,从至少一个句子中确定出潜在具有乱码内容的候选句子,包括:
确定文档对应的困惑度阈值,其中,困惑度阈值的大小与文档的应用领域相关;从至少一个句子中,确定出对应的困惑度大于困惑度阈值的候选句子。
在本公开实施例中,乱码内容删除模块360用于通过以下步骤确定候选句子为实际具有乱码内容的目标句子:
从候选句子中识别生僻字符序列,其中,生僻字符序列包括连续的生僻字符;在确定生僻字符序列中的生僻字符的数量大于预设数量时,确定候选句子为实际具有乱码内容的目标句子、生僻字符序列为乱码内容。
在本公开实施例中,生僻字符的类型包括以下至少一项:古文码、口字码、符号码、问号码、棍拷码。
可以理解的是,本公开实施例中的文档乱码内容的处理装置的上述各模块具有实现上述的文档乱码内容的处理方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述文档乱码内容的处理装置的各模块的功能描述具体可以参见上述的文档乱码内容的处理方法的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图4示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如文档乱码内容的处理方法。例如,在一些实施例中,文档乱码内容的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的文档乱码内容的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档乱码内容的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种文档乱码内容的处理方法,包括:
将待处理的文档中的内容划分成至少一个段落,识别每个所述段落中的生僻字符;
计算每个所述段落中生僻字符的出现频率;
基于每个所述段落中生僻字符对应的所述出现频率,从所述至少一个段落中确定出目标段落;
将所述目标段落划分成至少一个句子,计算每个所述句子的困惑度,其中,所述困惑度用于指示所述句子的合理性程度;
基于每个所述句子对应的所述困惑度,从至少一个所述句子中确定出潜在具有乱码内容的候选句子,其中,所述乱码内容包括至少一个生僻字符;
从所述候选句子中确定出实际包含所述乱码内容的目标句子,删除所述目标句子中的所述乱码内容。
2.根据权利要求1所述的方法,其中,所述识别每个所述段落中的生僻字符,包括:
确定所述文档对应的常用字符集,其中,所述常用字符集的类型与所述文档的应用领域相关;
针对每个所述段落,从该段落中识别出不属于所述常用字符集的生僻字符。
3.根据权利要求1所述的方法,其中,所述计算每个所述段落中生僻字符的出现频率,包括:
针对每个所述段落,计算该段落中生僻字符在该段落中的第一出现频率、该段落中生僻字符在所述文档中的第二出现频率。
4.根据权利要求3所述的方法,其中,所述基于每个所述段落中生僻字符对应的所述出现频率,从所述至少一个段落中确定出目标段落,包括:
针对每个所述段落,计算该段落中生僻字符对应的所述第一出现频率与所述第二出现频率的出现频率比值;
基于每个所述段落中生僻字符对应的所述出现频率比值,从所述至少一个段落中确定出目标段落。
5.根据权利要求4所述的方法,其中,所述基于每个所述段落中生僻字符对应的所述出现频率比值,从所述至少一个段落中确定出目标段落,包括:
确定所述文档对应的标准比值;
从所述至少一个段落中,确定出段落中生僻字符对应的所述出现频率比值大于所述标准比值的目标段落。
6.根据权利要求1所述的方法,其中,所述基于每个所述句子对应的所述困惑度,从至少一个所述句子中确定出潜在具有乱码内容的候选句子,包括:
确定所述文档对应的困惑度阈值;
从所述至少一个句子中,确定出对应的所述困惑度大于所述困惑度阈值的候选句子。
7.根据权利要求1所述的方法,通过以下步骤确定所述候选句子为实际具有乱码内容的目标句子:
从所述候选句子中识别生僻字符序列,其中,所述生僻字符序列包括连续的生僻字符;
在确定所述生僻字符序列中的生僻字符的数量大于预设数量时,确定所述候选句子为实际具有乱码内容的目标句子、所述生僻字符序列为乱码内容。
8.根据权利要求1所述的方法,所述生僻字符的类型包括以下至少一项:古文码、口字码、符号码、问号码、棍拷码。
9.一种文档乱码内容的处理装置,包括:
生僻字符识别模块,用于将待处理的文档中的内容划分成至少一个段落,识别每个所述段落中的生僻字符;
出现频率计算模块,用于计算每个所述段落中生僻字符的出现频率;
目标段落确定模块,用于基于每个所述段落中生僻字符对应的所述出现频率,从所述至少一个段落中确定出目标段落;
困惑度计算模块,用于将所述目标段落划分成至少一个句子,计算每个所述句子的困惑度,其中,所述困惑度用于指示所述句子的合理性程度;
候选句子确定模块,用于基于每个所述句子对应的所述困惑度,从至少一个所述句子中确定出潜在具有乱码内容的候选句子,其中,所述乱码内容包括至少一个生僻字符;
乱码内容删除模块,用于从所述候选句子中确定出实际包含所述乱码内容的目标句子,删除所述目标句子中的所述乱码内容。
10.根据权利要求9所述的装置,其中,所述生僻字符识别模块在用于识别每个所述段落中的生僻字符时,具体用于:
确定所述文档对应的常用字符集,其中,所述常用字符集的类型与所述文档的应用领域相关;
针对每个所述段落,从该段落中识别出不属于所述常用字符集的生僻字符。
11.根据权利要求9所述的装置,其中,所述出现频率计算模块在用于计算每个所述段落中生僻字符的出现频率时,具体用于:
针对每个所述段落,计算该段落中生僻字符在该段落中的第一出现频率、该段落中生僻字符在所述文档中的第二出现频率。
12.根据权利要求11所述的装置,其中,所述目标段落确定模块在用于基于每个所述段落中生僻字符对应的所述出现频率,从所述至少一个段落中确定出目标段落时,具体用于:
针对每个所述段落,计算该段落中生僻字符对应的所述第一出现频率与所述第二出现频率的出现频率比值;
基于每个所述段落中生僻字符对应的所述出现频率比值,从所述至少一个段落中确定出目标段落。
13.根据权利要求12所述的装置,其中,所述目标段落确定模块在用于基于每个所述段落中生僻字符对应的所述出现频率比值,从所述至少一个段落中确定出目标段落时,具体用于:
确定所述文档对应的标准比值;
从所述至少一个段落中,确定出段落中生僻字符对应的所述出现频率比值大于所述标准比值的目标段落。
14.根据权利要求9所述的装置,其中,基于每个所述句子对应的所述困惑度,从至少一个所述句子中确定出潜在具有乱码内容的候选句子,包括:
确定所述文档对应的困惑度阈值;
从所述至少一个句子中,确定出对应的所述困惑度大于所述困惑度阈值的候选句子。
15.根据权利要求9所述的装置,所述乱码内容删除模块用于通过以下步骤确定所述候选句子为实际具有乱码内容的目标句子:
从所述候选句子中识别生僻字符序列,其中,所述生僻字符序列包括连续的生僻字符;
在确定所述生僻字符序列中的生僻字符的数量大于预设数量时,确定所述候选句子为实际具有乱码内容的目标句子、所述生僻字符序列为乱码内容。
16.根据权利要求9所述的装置,所述生僻字符的类型包括以下至少一项:古文码、口字码、符号码、问号码、棍拷码。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。
CN202210269943.9A 2022-03-18 2022-03-18 文档乱码内容的处理方法、装置、设备及存储介质 Pending CN114692607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210269943.9A CN114692607A (zh) 2022-03-18 2022-03-18 文档乱码内容的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210269943.9A CN114692607A (zh) 2022-03-18 2022-03-18 文档乱码内容的处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114692607A true CN114692607A (zh) 2022-07-01

Family

ID=82139392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210269943.9A Pending CN114692607A (zh) 2022-03-18 2022-03-18 文档乱码内容的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114692607A (zh)

Similar Documents

Publication Publication Date Title
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN113407610A (zh) 信息抽取方法、装置、电子设备和可读存储介质
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN117743577A (zh) 文本分类方法、装置、电子设备及存储介质
CN113377924A (zh) 数据处理方法、装置、设备以及存储介质
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质
CN114692607A (zh) 文档乱码内容的处理方法、装置、设备及存储介质
CN115238078A (zh) 一种网页信息抽取方法、装置、设备及存储介质
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN114239505A (zh) word文档中隐藏字符清洗方法、装置和设备
CN114862479A (zh) 信息推送方法、装置、电子设备和介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN114936566A (zh) 机器翻译方法、装置、设备和存储介质
CN114662469A (zh) 情感分析方法、装置、电子设备及存储介质
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN114048376A (zh) 广告的业务信息挖掘方法、装置、电子设备以及存储介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN114328687B (zh) 事件抽取模型训练方法及装置、事件抽取方法及装置
CN115293157A (zh) 中文文本的提取方法及装置、电子设备和存储介质
CN113947082A (zh) 分词处理的方法、装置、设备以及存储介质
CN115828925A (zh) 文本选取方法、装置、电子设备与可读存储介质
CN114461771A (zh) 问答方法、装置、电子设备和可读存储介质
CN113850076A (zh) 主题抽取方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination